(Upload on December 3 2013) [ 日本語 | English ]
Mount Usu / Sarobetsu post-mined peatland
From left: Crater basin in 1986 and 2006. Cottongrass / Daylily
HOME > Lecture catalog / Research summary > Glossary > Mathematics > Statistics
Too many people use statistics as a drunken man uses a lamppost, for support but not for illumination. (Finney 1997) |
Statistical ecology (統計生態学)= ecological statistics (生態統計学)referring to the application of statistical methods to the description and monitoring of ecological phenomena ≈ overlapping mostly with quantitative ecology (定量生態学, s.l.) adding momentum for quantification after 1960's - transcending descriptive ecology (記載生態学) Ex. 1969 International Symposium on Statistical Ecology (New Haven, Conn.) |
[ statistical test | determinant ]
Def. Trial (試行)
Experiment: conducting a trial or experiment to obtain some statistical information Def. Event (事象): a set of outcomes of an experiment (a subset of the sample space) to which a probability is assignedExpression: A, B, C, … Def. Complementary event (余事象): AC, BC, CC, …Combination and permutation (組み合わせと順列)Combination (組み合わせ)Def. A selection of items from a collection, such that (unlike permutations) the order of selection does not matterEx. "My fruit salad is a combination of apples, grapes and bananas." → combination nCr =![]() nC0 = nCn = n!/n! = 1 Eq. nCk = n!/{k!(n – k)!} = n!/[(n – k)!{(n – (n – k)}!] = nCn–k Th. nCk + nCk+1 = n+1Ck+1 Pr. nCk + nCk+1 = n!/{k!(n – k)!} + n!/[(k + 1)!{(n – (k + 1)!}]
= n!/{k!(n – k – 1)!}·{1/(n – k) + 1/(k + 1)} Pr. (1) knCk = k·(n!/(k!(n - k)!) = (n·(n - 1)!)/((k - 1)!(n - k)!) = n·((n - 1)!)/((n - 1) - (k - 1))! = nn-1Ck-1 ___(2) n-1Ck + n-1Ck-1 = ((n - 1)!)/(k!(n - 1 - k)!) + (n - 1)!)/((k - 1)!(n - k)!)
= ((n - k)·(n - 1)!)/(k!(n - k)!) + (k·(n - 1)!)/(k!(n - k)!) |
Permutation (順列)= an ordered combinationDef. The act of arranging the members of a set into a sequence or order, or, if the set is already ordered, rearranging (reordering) its elements - a process called permuting
Scales and attributes
|
GraphHistogramsColumn bar graphs Stacked bar graphs Waterfall charts Pie charts Multi-pie charts Multi-level pie charts Sunburst charts Radar charts Contour plots Spherical contour graphs Venn diagrams (ベン図) Spider charts Mosaic or mekko charts |
Line graphs Multi-line graphs Scatter-line combo Control charts Paleto charts (パレート図) Scatter plots (scattergrams) Stacked area charts Trellis plots Trellis line graphs Trellis bar graphs Function plots Binary decision diagrams (cluster) Hierarchy diagrams Circuit diagrams (回路図) Flow charts Pictographs 3D graphs |
Arithmetic mean (算術平均), m or x-= (x1 + x2 + x3 + ··· + xn)/n = 1/n·Σk=1nxk
affected by the outlier(s). may loose the representativeness when the data are censored Geometric mean (幾何平均, xg)= (x1·x2 ··· xn)1/n∴ logxg = 1/n·(logx1 + logx2 + ··· + logxn) = 1/n·Σk=1nlogxk (∀xi > 0) used for change rate Harmonic mean (調和平均), mh |
Def. statistical phenomenon (統計的現象) = probabilistic event/stochastic event (確率的現象): satisfied the two conditions shown below
1) non-deterministic (非決定論的) |
![]() |
Outlier (外れ値)= abnormal, discordant or unusual value (異常値)Def. a data point that differs significantly from other observations affecting greatly the mean ⇔ affecting leass or none the median and mode |
TerminologyMatrix (行列)Correlation matrix (相関行列): a table showing correlation coefficients between variablesPositive definite (正値/定符号): displaying the coefficients of a positive definite quadratic form Covariate (共変量): a statistical variable that changes in a predictable way and can be used to predict the outcome of a study |
Covariance matrix (共分散行列) = auto-covariance matrix, dispersion matrix, variance matrix or variance–covariance matrix (分散共分散行列) a square matrix giving the covariance between each pair of elements of a given random vector Unbiased estimator (不偏推定量): an estimator of a given parameter is said to be unbiased if its expected value is equal to the true value of the parameter - an estimator is unbiased if it produces parameter estimates that are on average correct Variance inflation factor, VIF (分散インフレ係数): the quotient of the variance in a model with multiple terms by the variance of a model with one term alone |
Link function (リンク関数), g(μi): provides the relationship between the linear predictor and the mean of the distribution function in GLM The function relates the expected value of the response to the linear predictors in the model. A link function transforms the probabilities of the levels of a categorical response variable to a continuous scale that is unbounded. Once the transformation is complete, the relationship between the predictors and the response can be modeled with linear regression. g(μi) = Xi'β |
Table. Link functions. The exponential family functions available in R are:
binomial(link = "logit"): = ln(μ/(1 - μ)) (logistic or logit)
Log-normal: log = lon(μ) Others
probit Robust linear regression (ロバスト線形回帰)Ordinary least-square estimators for a linear model are sensitive to outliers in the design space or outliers among y values |
Generalized linear model, GLMconsisting of three components:
|
修士課程生態環境科学専攻入試問題(1996)General statistics (一般統計学)1. 以下の検定は差と傾向のどちらの検定に用いられるかa. 分散分析. b. カイ二乗検定. c. 回帰. d. マンホイットニーのU検定 2. ある研究者が、スズメの雛が親から餌をもらう回数と体重増加の関係を調べた。その結果、雛が親から餌をもらう回数と体重増加には有意な正の相関があることを発見した(r2= +0.624, n = 122, P < 0.01)。このことからどのような結論が導けるか。3. 下図a)およびb)の結果から、(1)-(2)の考察が導かれた。これらの検定手法および考察は正しいか。また、誤っている場合には、その理由を述べよ。
a) 塩分摂取量には地域差があるため、脳卒中による死亡率にも地域差が生じる。 修士課程生態環境科学専攻入試問題(1997)一般統計学1. 次のa-eにおいて2つの特性の違いを簡潔に説明しなさい。
a. 母集団と標本集団
a. 2集団間の身長の違いを調べたい。標本抽出をくじ引きをもとに行い、おのおの10サンプルを採取し、t検定を用いて行った。 4. 検定を行う場合に第一の過誤(type I error)と第二の過誤(type II error)は、一般にどちらを避けるべきか。具体的な例をあげて説明しなさい。 修士課程生態環境科学専攻入試問題(1998, 前期)一般統計学 (Statistics)1. 5桁の宝くじを2枚買うとする。あなたならどのように宝くじを買うか(以下の番号から選んでもよい)。またその理由を述べよ。番号: 11111, 22222, 12345, 98765, 70531, 17896 2. 統計学における正規性の重要性を説明しなさい。具体例をあげて説明してもよい。3. ピアソンの積率相関係数をr 、スピアマンの順位相関係数をsとしたとき、以下の3つの図に示されるデータから計算されるr, sについてa-cの問に答えよ。なお、図中の点線はX-Y間のおおまかな傾向を結んだ線にすぎないことに注意せよ。
図1________________図2_______________図3
A. 一人で商う。 さて、(a)どのような調査を行い、(b)どのような分析を行い、(c)どのような結果を得たら、屋台を開く候補地とすることができるのか答えよ。ただし、各々の場所において、通行人の中でたこ焼を買う人の割合は等しいと仮定する。 (d) この調査は、ある意味において現在の結果から未来を予測するモデルと捉えることができる。このモデルの欠点を列挙せよ。「たこ焼」屋を例に用いてもよい。 March 1999Answer the following questions in English or Japanese on the answer sheet(s).I. Indicate the correct answer by the alphabets: 1. If a correlation coefficient is 0.80, then:
a. The explanatory variable is usually less than the response variable.
a. An observational study can show a causal relationship.
a. The closer a correlation coefficient is to 1 or 1, the more evidence there is of a causal relationship between the explanatory variable and the response variable.
a. A sample has large variability. [900 + 950 + (23 × 1000)]/25 = 994 |
III. One of the following statements is better than the others. Indicate that statement. VERY BRIEFLY explain why you did not choose each of the other statements:
When comparing the size the residuals from two different models for the same data: Bill was correct in saying the temperature was statistically significant because it is included in the definition as being "unlikely to occur by chance alone." The likelihood [of] getting a temperature 3.5 standard deviations or more below normal is normalcdf(-1000000, -3.5, 0,1) = 0.000233 or about 0.023%, which is not likely to occur just by chance [very often]. V. The figure shown left is a plot of the 2001 profits versus sales (each in ten of thousands of dollars) of 12 large companies in the XXX country, the results of a least squares regression performed, and some other summary data. Note that some of the data with lower Sales values overlap on the graph.![]() ___a = 0.1238, b = 345.8827 ___r² = 0.8732, r = +0.9344 1. Demonstrating your knowledge of the definition of r², explain what the value of r² means in the context of this problem. 2. The teacher who supplied this data set suggested that even though r² is close to one there is reason to doubt some of the interpolative predictive value of this model. He came to this conclusion with no further computation or residual analysis. Explain his reasoning. VI. In assessing the weather prior to leaving our residences on a spring morning, we make an informal test of the hypothesis "The weather will be fair today. "The best" information available to us, we complete the test and dress accordingly. Would be the consequences of a Type I and Type II error? From the choices below select and clearly explain your choice of the correct answer.
修士課程生態環境科学専攻入試問題(2000前期)一般統計学 (Statistics)問1. A-Cの説明にあたる適切な用語を記せ。
A. 母集団のN単位に、ある順序で1 – Nの番号をつける。大きさnの標本をとるのに、最初のk単位の中から無作為に1個をとり、その後はk個おきにとってゆくような標本抽出法。
(1) 統計学において代表値として平均値を用いることが多い。平均値を用いる利点を3つあげ、それぞれについて説明せよ。 問 4. ある薬品の副作用が問題になったとき、その薬品の副作用が許容水準を越えているかどうかを知りたい。この帰無仮説を設定し、第1種、第2種の誤りがどのような意味を持つか説明せよ。また、いずれの誤りの方が深刻か、その理由を述べよ。 修士課程生態環境科学専攻入試問題 (2001年前期)一般統計学 (Statistics)問1. A-Dについて、それぞれ2用語の意味の違いがわかるように説明せよ。
A. 「標準偏差」と「標準誤差」 サンプル番号 pH 1回目 2回目 3回目 サンプル1 5.2 5.2 5.3 サンプル2 5.2 5.3 5.3 サンプル3 5.3 5.3 7.2 この畑土壌で土壌が採取された時点での平均pHを求めたいが、サンプル3の7.2という値が気になる。どのように対処すべきか。 問 3. ある地域における脳卒中発生率と所得の度数分布表を作成し、この2変量間でスペアマンの順位相関係数を求めたところと有意な正の相関があることがわかった。このことから、「この地域において高所得者は脳卒中が発生しやすい」と結論づけることができるか。まず、「できる」、「できない」を明示し、次に、その理由を述べよ。問 4. 下の表は、あるプロ野球選手の1996年から2000年までの試合数、打率、本塁打数、打点を示している。 年度 出場試合数 打率 本塁打 打点 2000 105 0.387 12 73 1999 103 0.343 21 68 1998 135 0.358 13 71 1997 135 0.345 17 91 1996 130 0.356 16 84
この選手が、2001年もプレーすると仮定できたときの打点を予測したい。上記の表の情報だけをもとにモデルを可能したとすると、どのようなモデルが作成できるか。その原理(根拠)を説明せよ。また、作成されたモデルの予測精度はどのようにして確かめればよいか。解答には、モデルの計算結果を示す必要はない。 修士課程生態環境科学専攻入試問題(2002年前期)一般統計学 (Statistics)1. 設問A-Cについて、それぞれ答えよ。
A. 「データ」と「情報」の違いを説明せよ。
相関係数、最小2乗法、誤差、平均、標準偏差、予測、棄却、共分散
問1. 帰無仮説と対立仮説を示せ。 |