Top
ヘッダー

(Upload on December 3 2013) [ 日本語 | English ]

Statistics (統計学)






Mount Usu / Sarobetsu post-mined peatland
From left: Crater basin in 1986 and 2006. Cottongrass / Daylily

Too many people use statistics as a drunken man uses a lamppost, for support but not for illumination. (Finney 1997)
Facts are stubborn, but statistics are more pliable. (Mark Twain)

Statistical ecology (統計生態学)

= ecological statistics (生態統計学)
referring to the application of statistical methods to the description and monitoring of ecological phenomena
≈ overlapping mostly with quantitative ecology (定量生態学, s.l.)
adding momentum for quantification after 1960's - transcending descriptive ecology (記載生態学)

Ex. 1969 International Symposium on Statistical Ecology (New Haven, Conn.)

[ statistical test | determinant ]

Fundamentals of statistics (統計基礎)


Def. Trial (試行)

Experiment: conducting a trial or experiment to obtain some statistical information

Def. Event (事象): a set of outcomes of an experiment (a subset of the sample space) to which a probability is assigned

Expression: A, B, C, …

Def. Complementary event (余事象): AC, BC, CC, …

Combination and permutation (組み合わせと順列)

Combination (組み合わせ)
Def. A selection of items from a collection, such that (unlike permutations) the order of selection does not matter

Ex. "My fruit salad is a combination of apples, grapes and bananas." → combination

nCr = combination = nPr/r! = n!/{r!(nr)!}
nC0 = nCn = n!/n! = 1
Eq. nCk = n!/{k!(nk)!} = n!/[(nk)!{(n – (nk)}!] = nCnk
Th. nCk + nCk+1 = n+1Ck+1
Pr. nCk + nCk+1 = n!/{k!(nk)!} + n!/[(k + 1)!{(n – (k + 1)!}]

= n!/{k!(nk – 1)!}·{1/(nk) + 1/(k + 1)}
= n!/{k!(nk – 1)!}·(k + 1 + nk)/{(nk)(k + 1)}
= n!/{k!(nk – 1)!}·(n + 1)/{(nk)(k + 1)}
= (n + 1)!/{(k + 1)!(nk)!} = (n + 1)!/[(k + 1)!{n + 1 – (k + 1)}!]
= n+1Ck+1___//

Th. (1) knCk = nn-1Ck-1, (2) n-1Ck + n-1Ck-1 = nCk
Pr. (1) knCk = k·(n!/(k!(n - k)!) = (n·(n - 1)!)/((k - 1)!(n - k)!)

= n·((n - 1)!)/((n - 1) - (k - 1))! = nn-1Ck-1

___(2) n-1Ck + n-1Ck-1 = ((n - 1)!)/(k!(n - 1 - k)!) + (n - 1)!)/((k - 1)!(n - k)!)

= ((n - k)·(n - 1)!)/(k!(n - k)!) + (k·(n - 1)!)/(k!(n - k)!)
= (n·(n - 1)!)/(k!(n - k)!) = (n!)/(k!(n - k)!) = nCk___//

索引
Permutation (順列)
= an ordered combination
Def. The act of arranging the members of a set into a sequence or order, or, if the set is already ordered, rearranging (reordering) its elements - a process called permuting
  1. Repeated permutation (重複順列): allowed repetition: Ex. "333" on a permutation lock

    select r from nnHr = n+r-1Cr

  2. Non-repeated permutation: not allowed repetition: Ex. a winner can not be the loser

Scales and attributes

  1. qualitative merkmal
    • category (nominal)
    • ordinal = hybrid: rank order exists between the values or classes
  2. quantitative merkmal
    • interval (distance)
    • ratio = quantitative

Data presentation (データ表現)


Graph

Histograms
Column bar graphs
Stacked bar graphs
Waterfall charts
Pie charts
Multi-pie charts
Multi-level pie charts
Sunburst charts
Radar charts
Contour plots
Spherical contour graphs
Venn diagrams (ベン図)
Spider charts
Mosaic or mekko charts
Line graphs
Multi-line graphs
Scatter-line combo
Control charts
Paleto charts (パレート図)
Scatter plots (scattergrams)
Stacked area charts
Trellis plots
Trellis line graphs
Trellis bar graphs
Function plots
Binary decision diagrams (cluster)
Hierarchy diagrams
Circuit diagrams (回路図)
Flow charts
Pictographs
3D graphs

Mean, average (平均)


Arithmetic mean (算術平均), m or x-
= (x1 + x2 + x3 + ··· + xn)/n = 1/n·Σk=1nxk

affected by the outlier(s). may loose the representativeness when the data are censored
Ex. 3, 4, 4, 4, 6, 6, 8, 13, 15 (n = 9)
M1D1 = 9 = (3 + 15)/2, Mode = 4, Median = 6, Mean = 7

Geometric mean (幾何平均, xg)
= (x1·x2 ··· xn)1/n

∴ logxg = 1/n·(logx1 + logx2 + ··· + logxn)

= 1/n·Σk=1nlogxk (xi > 0)

used for change rate

Harmonic mean (調和平均), mh

Probability theory (確率論)


Def. statistical phenomenon (統計的現象) = probabilistic event/stochastic event (確率的現象): satisfied the two conditions shown below

1) non-deterministic (非決定論的)
2) statistical regularity (collective regularity, 集団的規則性)

Ex.

Sampling theory (標本理論)


sampling
Outlier (外れ値)
= abnormal, discordant or unusual value (異常値)
Def. a data point that differs significantly from other observations

affecting greatly the mean ⇔ affecting leass or none the median and mode

Multivariate correlation (多変量相関論)


Terminology

Matrix (行列)
Correlation matrix (相関行列): a table showing correlation coefficients between variables

Positive definite (正値/定符号): displaying the coefficients of a positive definite quadratic form

Covariate (共変量): a statistical variable that changes in a predictable way and can be used to predict the outcome of a study
Covariance matrix (共分散行列) = auto-covariance matrix, dispersion matrix, variance matrix or variance–covariance matrix (分散共分散行列)
a square matrix giving the covariance between each pair of elements of a given random vector

Unbiased estimator (不偏推定量): an estimator of a given parameter is said to be unbiased if its expected value is equal to the true value of the parameter - an estimator is unbiased if it produces parameter estimates that are on average correct

Variance inflation factor, VIF (分散インフレ係数): the quotient of the variance in a model with multiple terms by the variance of a model with one term alone

Bivariate/two-dimensional (二変量)


Link function (リンク関数), g(μi): provides the relationship between the linear predictor and the mean of the distribution function in GLM
The function relates the expected value of the response to the linear predictors in the model. A link function transforms the probabilities of the levels of a categorical response variable to a continuous scale that is unbounded. Once the transformation is complete, the relationship between the predictors and the response can be modeled with linear regression.

g(μi) = Xi'β

Table. Link functions. The exponential family functions available in R are:

binomial(link = "logit"): = ln(μ/(1 - μ)) (logistic or logit)
gaussian(link = "identity(線形予測子)"): = μ
Gamma(link = "inverse"): = ln(μ) (inverse Gaussian, 逆ガウス)
inverse.gaussian(link = 1/μ2)
poisson(link = "log"): = ln(μ) (logarithmic)

Log-normal: log = lon(μ)
Exponential: inverse = 1/(1 - μ)

Others

probit
cauchit: Cauchy
cloglog: complementary log-log
sqrt: square-root

Robust linear regression (ロバスト線形回帰)

Ordinary least-square estimators for a linear model are sensitive to outliers in the design space or outliers among y values

Extended linear regression model (拡張線形回帰分析)


Generalized linear model, GLM

consisting of three components:
  1. A random component, specifying the conditional distribution of the response variable, Yi (for the ith of n independently sampled observations), given the values of the explanatory variables in the model. In the initial formulation of GLMs, the distribution of Yi was a member of an exponential family, such as the Gaussian, binomial, Poisson, gamma, or inverse-Gaussian families of distributions
  2. A linear predictor—that is a linear function of regressors,

    ηi = α + β1Xi1 + β2Xi2 + … + βkXik

  3. A smooth and invertible linearizing link function g(·), which transforms the expectation of the response variable, μi = E(Yi), to the linear predictor:

    g(μi) = ηi = α + β1Xi1 + β2Xi2 + … +βkXik

Exam (試験)


修士課程生態環境科学専攻入試問題(1996)

General statistics (一般統計学)
1. 以下の検定は差と傾向のどちらの検定に用いられるか

a. 分散分析. b. カイ二乗検定. c. 回帰. d. マンホイットニーのU検定

2. ある研究者が、スズメの雛が親から餌をもらう回数と体重増加の関係を調べた。その結果、雛が親から餌をもらう回数と体重増加には有意な正の相関があることを発見した(r2= +0.624, n = 122, P < 0.01)。このことからどのような結論が導けるか。
3. 下図a)およびb)の結果から、(1)-(2)の考察が導かれた。これらの検定手法および考察は正しいか。また、誤っている場合には、その理由を述べよ。

regression
(1) a)の結果より、薬物投与量が増加すれば死亡率は低下することが示唆された。
(2) b)の結果より、失業率が15%を超えると人口当り犯罪発生率は0.1%以上になると考えられる。

4. 以下の点を調査したい。あなたなら、どのようなデータ採集および解析を行いますか。a-cの中から一つ選び説明しなさい。解答には必ず、調査あるいは実験計画、およびその結果の検定法を述べること。つねに、研究には予算の上限があることを考慮に入れて計画を立てなさい。

a) 塩分摂取量には地域差があるため、脳卒中による死亡率にも地域差が生じる。
b) 蛇紋岩地帯は、土壌栄養分に乏しいため、ある種の植物の植物高が低くなる。
c) リサイクル意識の高い地域では、家庭ゴミ排出量が少ない。

修士課程生態環境科学専攻入試問題(1997)

一般統計学
1. 次のa-eにおいて2つの特性の違いを簡潔に説明しなさい。

a. 母集団と標本集団
b. 相関係数と順位相関係数
c. 標準偏差と標準誤差
d. 質的データと量的データ
e. 両側検定と片側検定

2. 次のa-bのデータ解析は誤りである可能性がある。まず、正しいか誤りかを述べ、次に誤りがある場合にはその理由を説明し、どのような解析を行うと適当かを述べなさい。

a. 2集団間の身長の違いを調べたい。標本抽出をくじ引きをもとに行い、おのおの10サンプルを採取し、t検定を用いて行った。
b. コウモリは月に向かって飛ぶ傾向があるかどうかを調べたい。月の方角を0°として10°刻みで1羽のコウモリが巣から飛び立つ方向を200回計測した。検定は、おのおのの方角とおのおのの方角へコウモリが飛び立った頻度間の相関係数を求めることにより行った。

3. データ変換の利点と欠点を述べなさい(具体例を用いて説明してもよい)。
4. 検定を行う場合に第一の過誤(type I error)と第二の過誤(type II error)は、一般にどちらを避けるべきか。具体的な例をあげて説明しなさい。

修士課程生態環境科学専攻入試問題(1998, 前期)

一般統計学 (Statistics)
1. 5桁の宝くじを2枚買うとする。あなたならどのように宝くじを買うか(以下の番号から選んでもよい)。またその理由を述べよ。

番号: 11111, 22222, 12345, 98765, 70531, 17896

2. 統計学における正規性の重要性を説明しなさい。具体例をあげて説明してもよい。
3. ピアソンの積率相関係数をr 、スピアマンの順位相関係数をsとしたとき、以下の3つの図に示されるデータから計算されるr, sについてa-cの問に答えよ。なお、図中の点線はX-Y間のおおまかな傾向を結んだ線にすぎないことに注意せよ。

図1________________図2_______________図3
regression
(a) 図1において、rsの大小関係はどのようになり、rをとsではどちらを用いるべきか、理由を合わせて述べよ。
(b) 図2において、rsはどのような値をとるか。
(c) 図3において、rsはどのような値をとるか。変数Xと変数Yの相関関係はあるといえるか、理由を示して答えよ。

4. 以下の文章を読みa-dの問に答えよ。  「たこ焼」屋を経営する者が、以下のA-Dの条件を満たす場所に新しく屋台を開くことを検討している。

A. 一人で商う。
B. 毎日夕方4時から深夜12時まで屋台を開き、途中適宜1時間ほど休憩をとる。水曜、日曜は休みとする。
C. 場所(借地)代は無料である。
D. 経営時間中の通行人は5000人以上である。

 これまでは、経験的にDの条件を満たしていると思われる場所に屋台を開いていた。しかし、経営者は、よりよい収入を得るためにはDの条件が実際に満たされていることが重要と考え、一ヶ月屋台を休み、すでにA-Cの条件を満たしていることが分かっているいくつかの場所において実地調査を行う決心をした。
 さて、(a)どのような調査を行い、(b)どのような分析を行い、(c)どのような結果を得たら、屋台を開く候補地とすることができるのか答えよ。ただし、各々の場所において、通行人の中でたこ焼を買う人の割合は等しいと仮定する。
  (d) この調査は、ある意味において現在の結果から未来を予測するモデルと捉えることができる。このモデルの欠点を列挙せよ。「たこ焼」屋を例に用いてもよい。
March 1999
Answer the following questions in English or Japanese on the answer sheet(s).
I. Indicate the correct answer by the alphabets:
1. If a correlation coefficient is 0.80, then:

a. The explanatory variable is usually less than the response variable.
b. The explanatory variable is usually more than the response variable.
c. Below average values of the explanatory variable are more often associated with below average values of the response variable.
d. Below average values of the explanatory variable are more often associated with above average values of the response variable.
e. None of the above.

2. On observational and experimental studies,

a. An observational study can show a causal relationship.
b. An experimental study can show a causal relationship.
c. The closer the value of r2 is to 1, the more evidence there is of a causal relationship between the explanatory variable and the response variable.
d. Both a and b are true.
e. Both b and c are true.

3. On correlation coefficient (r) and determinant coefficient (r²),

a. The closer a correlation coefficient is to 1 or 1, the more evidence there is of a causal relationship between the explanatory variable and the response variable.
b. The closer a correlation coefficient is to 0, the more evidence there is of a causal relationship between the explanatory variable and the response variable.
c. The closer the value of r² is to 1 or -1, the more evidence there is of a causal relationship between the explanatory variable and the response variable.
d. The closer the value of r² is to 0, the more evidence there is of a causal relationship between the explanatory variable and the response variable. e. None of the above.

4. The design of an experiment is biased if:

a. A sample has large variability.
b. The center of a sample is not close to the population center.
c. All samples have large variability.
d. The centers of all samples are on the same side of the population center.
e. Both c and d are true.

II. The average number of books in the homes of all Hokkaido University students is 1000. You have selected 25 homes and the first two you look at have 900 books and 950 books respectively. What do you expect the mean number of books to be for the entire sample (numerical answer).

[900 + 950 + (23 × 1000)]/25 = 994

III. One of the following statements is better than the others. Indicate that statement. VERY BRIEFLY explain why you did not choose each of the other statements:

When comparing the size the residuals from two different models for the same data:
a. Use the range of each set of residuals as a basis for comparison. → the range is only the max minus the minimum residual. It tells you nothing about what is in between.
b. Use the mean of each set of residuals as a basis for comparison. → the mean of the residuals is always zero, no matter the model.
c. Use the sum of each set of residuals as a basis for comparison. The sum of the residuals is always zero.
d. Use the standard deviation of each set of residuals as a basis for comparison. → By using the standard deviations of residual you can examine the variability of error, lower variability is best, the others don't tell you about the variability.

IV. Bill Clinton, a statistician, said that the temperature was so cold yesterday at the North Pole that it was 3.5 standard deviations BELOW normal. He said that this was a statistically significant event. Clearly demonstrating your understanding of the terms "statistically significant" and including numeric support to explain if he was correct.

Bill was correct in saying the temperature was statistically significant because it is included in the definition as being "unlikely to occur by chance alone." The likelihood [of] getting a temperature 3.5 standard deviations or more below normal is normalcdf(-1000000, -3.5, 0,1) = 0.000233 or about 0.023%, which is not likely to occur just by chance [very often].

V. The figure shown left is a plot of the 2001 profits versus sales (each in ten of thousands of dollars) of 12 large companies in the XXX country, the results of a least squares regression performed, and some other summary data. Note that some of the data with lower Sales values overlap on the graph.
XY ___y = ax + b
___a = 0.1238, b = 345.8827
___r² = 0.8732, r = +0.9344
1. Demonstrating your knowledge of the definition of r², explain what the value of r² means in the context of this problem.
2. The teacher who supplied this data set suggested that even though r² is close to one there is reason to doubt some of the interpolative predictive value of this model. He came to this conclusion with no further computation or residual analysis. Explain his reasoning.
VI. In assessing the weather prior to leaving our residences on a spring morning, we make an informal test of the hypothesis "The weather will be fair today. "The best" information available to us, we complete the test and dress accordingly. Would be the consequences of a Type I and Type II error?
From the choices below select and clearly explain your choice of the correct answer.
  1. Type I error: inconvenience in carrying needless rain equipment
    Type II error: clothes get soaked

    Type 1 Error: Rejecting Ho when Ho is true. So the weather will be fair but you "reject" that an bring an umbrella.
    Type 2: Rejecting Ha when Ha is true. So it will rain but you "reject" that it will rain and get soaked.

  2. Type I error: clothes get soaked
    Type II error: inconvenience in carrying needless rain equipment
  3. Type I error: clothes get soaked
    Type II error: no consequence since Type II error cannot be made
  4. Type I error: no consequence since Type I error cannot be made
    Type II error: inconvenience in carrying needless rain equipment

修士課程生態環境科学専攻入試問題(2000前期)

一般統計学 (Statistics)
問1. A-Cの説明にあたる適切な用語を記せ。

A. 母集団のN単位に、ある順序で1 – Nの番号をつける。大きさnの標本をとるのに、最初のk単位の中から無作為に1個をとり、その後はk個おきにとってゆくような標本抽出法。
B. 一組の観察値の逆数の算術平均の逆数。
C. 対立仮説が正しいとき、この対立仮説が検定によって採択される確率。

問2. 以下の問(1)および(2)を解け。

(1) 統計学において代表値として平均値を用いることが多い。平均値を用いる利点を3つあげ、それぞれについて説明せよ。
(2) 平均値以外の代表値を用いた方が、観察事実をよりよく説明できる場合がある。その例をあげよ。

問 3. ある商品の毎日の売り上げは確率的であり、1個のことが30%、2個のことが50%、3個のことが20%である。この商品が2日で売り上げる個々の個数の確率(2個から6個まで)をそれぞれ求めよ。また期待される平均売り上げ個数を求めよ(小数点1桁まで)。
問 4. ある薬品の副作用が問題になったとき、その薬品の副作用が許容水準を越えているかどうかを知りたい。この帰無仮説を設定し、第1種、第2種の誤りがどのような意味を持つか説明せよ。また、いずれの誤りの方が深刻か、その理由を述べよ。

修士課程生態環境科学専攻入試問題 (2001年前期)

一般統計学 (Statistics)
問1. A-Dについて、それぞれ2用語の意味の違いがわかるように説明せよ。

A. 「標準偏差」と「標準誤差」
B. 「第一の過誤」と「第二の過誤」
C. 「事前確率」と「事後確率」
D. 「母集団特性量」と「標本特性量」

問2. ある畑内の3ヶ所から土壌サンプル(サンプル1から3)を採取し、それぞれのサンプルについてpHを3回ずつ測定したところ以下の結果を得た。
        サンプル番号  pH  1回目  2回目  3回目
        サンプル1          5.2    5.2    5.3
        サンプル2          5.2    5.3    5.3
        サンプル3          5.3    5.3    7.2

この畑土壌で土壌が採取された時点での平均pHを求めたいが、サンプル3の7.2という値が気になる。どのように対処すべきか。

問 3. ある地域における脳卒中発生率と所得の度数分布表を作成し、この2変量間でスペアマンの順位相関係数を求めたところと有意な正の相関があることがわかった。このことから、「この地域において高所得者は脳卒中が発生しやすい」と結論づけることができるか。まず、「できる」、「できない」を明示し、次に、その理由を述べよ。
問 4. 下の表は、あるプロ野球選手の1996年から2000年までの試合数、打率、本塁打数、打点を示している。
        年度  出場試合数  打率  本塁打  打点
        2000     105      0.387   12     73
        1999     103      0.343   21     68
        1998     135      0.358   13     71
        1997     135      0.345   17     91
        1996     130      0.356   16     84

この選手が、2001年もプレーすると仮定できたときの打点を予測したい。上記の表の情報だけをもとにモデルを可能したとすると、どのようなモデルが作成できるか。その原理(根拠)を説明せよ。また、作成されたモデルの予測精度はどのようにして確かめればよいか。解答には、モデルの計算結果を示す必要はない。
(参考) 打率: 打数に対する安打数の比率。
本塁打: ホームランともいう。
打点: 安打・犠牲打・四死球による押し出しなどによって、その打者が味方にもたらした得点。

修士課程生態環境科学専攻入試問題(2002年前期)

一般統計学 (Statistics)
1. 設問A-Cについて、それぞれ答えよ。

A. 「データ」と「情報」の違いを説明せよ。
B. 「平均値」と「メディアン」の値が大きく異なる場合、どのような問題が考えられるか述べよ。
C. ノンパラメトリック検定(分布によらない検定)の利点と欠点を説明せよ。

2. 以下言葉から、枠内に示した言葉を最低3つ用いて、以下のそれぞれの問に答えよ。

相関係数、最小2乗法、誤差、平均、標準偏差、予測、棄却、共分散
問1. 区間推定とは何か説明せよ。
問2. 一次回帰(線形回帰)とは何か説明せよ。

3 以下の文を読み問に答えよ。  ある大学の教務課に、1時限の出席率が著しく悪いという苦情が教員から寄せられた。特に出席率の悪い学生数名に話を聞いたところ、授業料を払うために夜間にコンビニエンスストア等のアルバイトをして寝過ごしてしまうという意見があった。昨年、この大学の授業料は3倍に値上げされた。そこで、授業料値上げは、学生の1時限の出席率を下げる要因なのかどうかを確かめようということになった。なお、この大学の全学生数は10万人である。

問1. 帰無仮説と対立仮説を示せ。
問2. 仮説を検証するために、どのような調査を行えばよいか。実際に調査できるように、調査方法、調査項目を考え、具体的に記述せよ。
問 3. そのような調査方法にした根拠を示せ。
問4. 得た結果をもとに、どのような解析(検定)を行うのかを説明せよ。また、その結果がどのような場合には帰無仮説は棄却されるか。

フッター