統計

(2023年10月18日更新) [ 日本語 | English ]

統計学 (statistics)

有珠山 / サロベツ泥炭採掘跡
1986年, 2006年の有珠山火口原. ワタスゲ・エゾカンゾウ

HOME > 講義・実習・演習一覧 / 研究概要 > 小辞典 > 数学 > 統計学

歴史と分野

Cardano Hieronimo 1501-1576: 「Deludo aleoe」賭けの有利、不利に触れる → 職業賭博師
Ggalileo 1564-1642: サイコロ問題
Pascal Blaise 1623-1662: 友人de Mere Chevalierから賭博に関する問
Poisson 1781-1840: 賭けに関する問題が確率論の起こり
仏古典確率論(17c後) statisque

Quetelet Adolphe (ケトレー) 1796-1874, ベルギー: 「人間について」社会物理学, 「神の秩序」, 天文学

確率論を数学的方法とし広める

独国状学派(19c後) Statistik = 実質社会学説: 統計学の使命(共産圏) = 社会と固有法則を発見(Quetlet批判)
英政治算術学(19c後) statistics → 科学方法論(英米流数理統計学19c末): 集団的現象をデータから数理解析

数理統計学 mathematical statistics = 記述統計学 + 推測統計学 (データ解釈)

現実の対象に対し1つの確率モデルを設定し、それに基づきデータ分析をする方法を与える

生物統計学 biostatistics (英農業試験場): 生物学問題を解決する統計学的手法 (Sokal & Rohlf 1995)

記述(要約)統計 descriptive (summary) statistics (19c末-20c初): データ記述・縮約(要約) → 情報化
Galton Francis 1822-1911, 英 → 相関・回帰
Peason Karl 1857-1936, 英: Biometrika創刊、記述統計学方法確立
Gosset Wiiliam Seary (ペンネームStudent) 1876-1937, 英: 小標本理論、t-dist (distribution)
推測統計 (帰納統計 inductive statistics): 統計データの背後にある対象集団(母集団)特性を"帰納"する
a: 確率論: 数学的確率論と公理系による確率論 Ex. Fisher Ronald Aylmer 1890-1962, 英: F-dist, z変換
b: 標本理論: 推定estimation・検定(statistical) test Ex. Neyman J 1894-1981, 米: 推測統計学精密化

生データ(素データ) raw data

= 集計や編集などを施していない、最初に記録された状態のままのデータ

生ログ: 時系列で得た生データ

→ 記録対象の現象が確かに起きたことを示す唯一の証拠 (倫理)

有用性 = 状況証拠 → 論文に用いなくても追跡参照できるよう保管

Ex. 水位データ(cm): 42.3(フロート深) - 18.6(地上パイプ長)は生データ

23.7と記録したら、それは生データではない。42.3 - 18.6と記録

マクナマラの誤謬 McNamara fallacy: 数値データに過度に依存

→ 重要な非数値的要素を無視してしまう誤り

統計分析

分析目的に応じたモデル関数に未知係数や誤差項含む特定関数形使用
→ 誤差や合成変数が規定される: 誤差2乗和最小化か合成変数分散最大化させ未知係数決定

分析に応じ未知係数に適当な制約条件(Ex. 2乗和 = 1)も課せられる

最小化問題: 平均的変量間関係推定重視 → 殆どの統計分析に問題存在 → 最小2乗法で解決
最大化問題: 多変量データmultivariate data全体像を簡潔に特徴付け表現 ↔ 個々の個体の区別を重視
→ 多変量統計分析は最小化・最大化という2最適化問題を内包

正規方程式: 未知係数が最適解の連立方程式(普通方程式中既知係数に共分散(か相関)行列)
線形モデル: 正規方程式は連立1次方程式か固有値方程式が多
第1課題: 分析で目的に応じた最適問題解とし未知係数を推定
第2課題: 仮定モデル関数の形や関数中に取り入れた変数組合せの適切性吟味
1. モデル適合性評価のための分散分析
2. モデル複雑性(関数項数・組込変数数)と推定効率(有効推定量/現推定量分散比、決定係数等)間に調和を持たせるモデル選択や変数選択variable selection問題
3. 推定量信頼区間を求める問題
標本データの統計的性質を様々な角度から吟味 - 基本は仮説検定

コンピュータ進歩 → 計算機統計学 computer-intensive statistics 成長

ややこしいのはあちこちに出てるし、ここは基礎の基礎のメモ [ 統計的検定 ]

確率の哲学的基礎に関する問題

確率の解釈場 field for interpretation
全体(規則性・法則性): 必然 assignable cause → 統計[橋渡し] → 部分(偶然性)

蓋然性 probability (普通"確率"と訳す): 確率的大小stochastically larger or smaller
経験的確率 emprical probability = 統計的確率 statistical probability
客観的確率 objective probability ↔ 帰納的確率

統計生態学 statistical ecology

過度の抽象を避け、具体的問題への協同的取組みとカウンセリング重視

数理モデル mathematical model

数式で表現されるモデル
決定論的モデル deterministic model: 初期値によりそれ以降予測可能 = 方程式によって与えられる

Ex. 微分方程式、差分方程式

確率モデル(非決定論的モデル): 初期値が同一でも結果が一つとは限らない

Ex. 格子モデル

試行 trial, T: 実験・観測・調査等の事象発生操作
事象 event, E: 対象とする現象で発生する事柄(試行の結果のある集合) – 確率が定義されている集合

根元事象 elementary event: 唯1つの標本点からなり分解できない事象
確率事象(素過程): 事象が、ある確率で起こること

組み合わせと順列 (combination and permutation)

Def. 順列: 与えられた複数個のものから幾つかをとり1列に並べたもの

n個の異なるものの中から任意にr個とった時の順列

_nP_r = n!/(n – r)! [Case. r = n → _nP_n = n!/(n – n)! = n]

Eq. 漸化式: _nP_r = _n-1P_r + r·_n-1P_r-1
Def. 重複順列: n個の異なるものから繰り返しを許しr個とり1列に並べたもの, n^r (積の法則)

Ex. 1, 2, 3, 4の4個の数字を用い3桁の自然数を作る → 4³ = 64通り

Case. 同じものがある場合の順列

n個のものがc個の組に分けられ、同じ組に属するもの同士は区別できないが、異なる組に属するものは区別できるとき、これらn個を全てとりできる順列の数 → n!/(n₁!n₂! … n_c!)
Ex. A, F, I, I, M, N, N, R, Tから無作為に1枚ずつ取り出し、その順に並べてできる単語の数

Def. 組み合わせ (combination): 与えられた複数個のものから、任意に順序づけをせず取り出した組合わせ数

n個の異なるものから任意にr個とった時の組み合わせの数

重複組み合わせ: n個のものから繰り返しを許しr個とる時の組み合わせ

_nH_r = _n+r-1C_r = {n(n+1) … (n+r-1)}/r!
Ex. 2種類(赤白)のワインから3本を買う組み合わせ

(A = 4, WWW, WWR, WRR, RRR)

複数組み合わせ: n個の異なるものをn₁個, n₂個, …, n_c個の組に分ける

n!/(n₁!n₂! … n_c!)
Ex. 7人の生徒を3人と4人の組に分ける

統計基礎 fundamentals of statistics

1. 数字の扱い = 標識merkmal: 統計必要事項 = 抽出法。平均mean・偏差
2. 集団(群)group現象観察: 観測対象 - 量的/質的標識

観察の5W (5w for observations): Was 対象(変量・属性), Wer 誰, Wann 時点, Wa 場所, Wie 方法

統計リテラシー

よい論文!: 手法誤用 - 信頼性失。誤解釈危険 - 手法選択と正確な記載

範囲: 対象の範囲とその基準、除外基準
時点: データ採取時と集計時の状況
定義: 統計解析の定義(制限)・意味・内容
確認: 研究デザインと統計方法の妥当(一致)性

= 統計の嘘を見抜く5つの鍵 (Hull 1954)

誰が言った? = 統計出所(データ歪・測定法)
方法は? = 調査方法(回収率・ランダム抽出)
不足データは? = 隠れた資料(標本数・対照群)
言う事が違わないか? = 問題すり替え・論理性
おかしくないか? = 解析誤り・論理性

適切な統計的手続きでも統計分析結果良否は標本データに左右される

問題解は標本種類とサンプル数に依存 [統計分析 = 補助手段 → 問題の本質は考察判断しかない]

記述統計学 descriptive statistics

試料の記述・簡略化: 各種現象に表れる集団特徴を標本sample観察結果から数量的に把握
記録値 record value: 記録・度数分布frequency distribution → Data x₁, x₂, …, x_n整理(観察結果・資料の整理)

個票データ(個体値) individual data → 標識で階級分類 classification・集計 aggregation → 度数分布表作成 → 集団特徴記述用具設定 → 集団法則・関係提示
= 固定パラメータ fixed parameter: ローカル変数(定数)、測定値 ↔ 自由(移動可能)パラメータ free parameter

度数分布表 frequency distribution table

グラフ化 → ヒストグラム histogram

階級 class: 1, 2, …, k
階級値 class mark: x₁, x₂, …, x_k
度数 count (頻度 frequency) (T = n): f₁, f₂, …, f_k
相対度数 relative frequency/確率密度関数 (pdf) (T = 1):

f₁/n, f₂/n, …, f_k/n

累積度数 umulative frequency: f₁, f₁ + f₂, …, f₁ + f₂ + … + f_k
累積相対度数分布関数 cum.r.f. distribution:

f₁/n, (f₁ + f₂)/n, …, (f₁ + f₂ + … + f_k)/n

階級数決定参考式(実際は、外れ値等を考慮し最終決定) ⇒
スタージェスの公式Sturges' formula: k = 1 + log₂n = 1 + (log₁₀n)/(log₁₀2)

k: 階級数, n: 観測値個数
Ex. n = 20 → log₁₀20 = 1.301, log₁₀2 = 0.301 ∴ k = 1 + 4.3 = 5.3 ≈ 5

探索的データ解析公式: k = 10log₁₀n

尺度水準と属性 scales and attributes

複合データcompound data: リスト、ベクトル

属性統計: 質的標識 qualitative merkmal
1. 類別(名義) category (nominal): 観察変数observed variableと数値の対応基準。変数間に順序関係なし Ex. 土壌型、血液型 → 2値binary: あるなしデータ Ex. Sex
2. 順序 ordinal = hybrid
  Ex. 植物社会学 Brawn-Blanquet scale
  Ex. リッカート・スケール likert scale: 比例尺度 → 評点法 scoring method 官能検査sensory test等
  Ex. アンケート "好、やや好、普通、やや嫌、嫌"
変量 variate 統計: 量的標識 quantitative merkmal → 階差(差分) difference: 標本間の数値差
1. 間隔(距離) interval (distance) = quantitative: 数値間差が得られる → 数値差のみに意味 Ex. 摂氏
2. 比率 ratio = quantitative: 固定0点fixed zero持つ(間隔尺度になし) Ex. 正答率proportion of right answers

二元データと(定)量的データ (Orloci 1968)

定量的データ: 多面的情報包含 → 情報量多

多面的情報包含 → 情報量多

二元データ: 全変数平等に扱う - 優占度(生態)に開き時等で優れることもある

二元データ変換: x > 0 → 1, x = 0 → x = 0
量的データ ⇒ 二元データ (⇔ 逆はできない)

順序統計量

→ x₁ ≤ x₂ ≤ x₃ ≤ .... ≤ x_n)の特性値

1. 代表値 representative

= measure of central tendency or average, x_r
x_r: 分布の特徴を表す1つの値 [average 平均の意味 → 統計学 mean]

位置母数 location parameter: 典型値を定める度数分布の位置を示す母数 parameter

代表的位置母数: 3M = 平均 mean, 中央値 median, 最頻値 mode → 中心傾向 central tendency

b. モード(最頻値) mode: 多(双)峰型分布形では代表値に不適
c. 中央値(メディアン) median: 母集団分布左右非対称時に適切

= x(2n + 1)/2 [n = 奇数]
= 1/2·(x_n/2 - 1 + x_n/2 + 1) [偶数]

擬中央値 quasi(-)median → グラフ理論

d. 平均 mean or average

2. 散布度(バラツキ) dispersion (measure)

= 散らばり scatter (バラツキ variability)度合・程度
a) 範囲(幅、分布範囲) range, R = MaxX_i - MinX_i = x_n - x₁ ⇒ 異常値

Ex. 株価変動幅

b) 分位数 (分位点, 分位値, quantile)
Def. ヒンジ(四分位数) hinge or quartile: Q/4分位数

4分位数 quartile__________累積度数
Q₁ (= 下ヒンジ lower hinge)_1/4n (25%)点
Q₂ (≡ 中央値 median)_____ 2/4n (1/2n, 50%)点
Q₃ (= 上ヒンジ upper hinge)_3/4n (75%)点

四分位範囲 interquatile range, IQR: Q₃ - Q₁__(Cf. 箱髭図)

3項平均 trimean (Tukey's trimean): {Q₁ + (Q₂ × 2) + Q₃}/4 → 異常値影響軽減

四分位偏差 quartile deviation (半四分位範囲 semi-interquartile range), Q

= 1/2·(Q₃ - Q₁)

絶対偏差 absolute deviation, a_d = Σ_i=1ⁿ(x_i - x_r): 代表値x_rの周りの散らばり

⇔ 相対偏差 relative deviation: 変動係数 × 100 (%)

c) 平均偏差 mean deviation, d = 1/n·Σ_{i = 1}ⁿ|D|

偏差 deviation, D = x_i – m ∴ Σ_i=1ⁿ(x_i – m) = 0, x_i: 素(粗)点
Def. 平均差 mean difference (≠ 平均偏差), D_m

= Σ_i≠j|x_i – x_j|/(n(n – 1)/2)

Def. (ジニ)集中係数 Gini's coefficient of concentration, G

= D_m/(2m) = 相対平均差

d) 分散 variance, s² = 1/nΣ_i=1ⁿD²

標準偏差 standard deviation (偏差 deviation, sd), s = √(1/nΣ_i=1ⁿD²)

Th. Σ(x_i – m)² < Σ{x_i – (m + c)}², c ≠ 0 → 分散(標準偏差)用いる根拠
Pr. Σ{x_i – (m + c)}² = Σ{(x_i – m) – c}² = Σ{(x_i – m)² – 2(x_i – m)c + c²}

= Σ(x_i – m)² – 2cΣ(x_i – m) + Σc² = Σ(x_i – m)² + nc² > Σ(x_i – m)² //

(フィッシャー) z変換 (Fisher's) z transformation
標準得点standard score , z_i = D/s~N(0, 1) [標準化]

偏差値 deviation score: 偏差値得点(Tスコア T-score), T_i

T_i = 50 + D/s × 10 → m = 50、SD = 10に変換

標準誤差 standard error of mean, SEM (root mean square error), se

se = s/√n = ΣD²/[n(n – 1)]

→ × 母集団標準偏差。O 試料平均値標準偏差推定値

一般化分散 generalized variance
表. 標準偏差sdと標準誤差se (浜田 1999) → ゲゼルの標準値: 標準値に分散をつけないため生ずる誤解

___意味____________標本数nの影響__分布仮定
sd 生データのバラツキ依存しない______正規分布
se 平均値の推定精度 _1/√nで小さくなる_n大きくなれば必要なし

e) 変動係数(変異係数) coefficient of variation, cv
標準誤差率 standard error of percentage (%) = cv × 100

cv = s/|m|, or s/|m| × 100 (%) → データ間ばらつき具合比較
→ s: 単位数 = 絶対的散らばりを検出 → 単位異なる(Ex. cm², cm)と比較できない
→ cv = 相対的尺度(無名数 dimensionless number)なら比較可能

= 2 dataのsが同じでもmの違いにより分散が異なる点を修正

3. 特性値 characteristic value

分布型 distribution type を示す量 Ex. モーメント(積率) moment
Def. 平均値(原点)の回りのr次モーメント the r-th moment of mean

μ_r ≡ 1/nΣ_i=1ⁿ(x_i –m)^r (μ_r = m_r → 標本モーメント)

r = 1, μ₁ = 0
r = 2, μ₂ = s² (=分散)

集中度 → 1/nΣ_i=1ⁿ(x_i – m)²f_i ≤ 1/nΣ_i=1^k(x_i – ^∀α)²

Pr._ y = 1/nΣ_i=1ⁿ(x_i – α)² = 1/nΣ_i=1ⁿ(x_i² – 2αx_i + α²)

dy/dα = 1/nΣ_i=1ⁿ2(-x_i + α)
∴ m = α → minimum___//

r = 3, μ³ = = 1/nΣ_i=1ⁿ(x_i – m)³

歪度(非対象度, 歪み) skewness α³ = μ³/s³ = 1/nΣ_i=1ⁿ((x_i – m)/s)³
分布がxの平均値に関し対称 → μ³ = 0 (分布非対称 → μ³ ≠ 0)
mean

r = 4, μ⁴ = 1/nΣ_i=1ⁿ(x_i – m⁾⁴

尖度(尖り) kurtosis α⁴ = μ⁴/s⁴ = 1/nΣ_i=1ⁿ((x_i – m)/s)⁴

α⁴ < 3 尖度強(比較的尖る)
α⁴ = 3 正規分布 ↓↑
α⁴ > 3 尖度弱(比較的尖らない)

データ表現 (data presentation)

記録 registration ⇒ データ整理: ノート、写真(スケッチ) + 情報収集

グラフ化

ヒストグラム (柱状グラフ, histograms)

量の比較を柱状表示(本来、柱互いに密着)

ステレオグラム stereogram = 3次元

━┳━最大値
┏┻┓第1四分位
┃━┃
┣━┫中央値(第2四分位)
┗┳┛第3四分位
━┻━最小値
Ex. 箱髭図
(必ずしもこうとは限らない)

幹葉表示 stem-and-leaf plot (display): Ex. 10の位で幹、1の位で葉(枝)を作るよう分類し、後は大きさ順に並べる。ヒストグラムの一種だが、数字自体をそのまま並べ作成の手間省ける
箱髭図 box-and-whisker plots: 1次元データ要約・比較。最大(小), 第1, 2(中央値), 3四分位, 外れ値等を、「箱」と「髭」で示せる = ヒストグラムの特徴を簡易に示せる
バイオリン図 violin plot: 箱髭図両脇に90度回転させたカーネル密度グラフを付加(という感じ)
ストリッププロット strip plot: 個々のデータを点で表す

箱髭図やバイオリン図と組合わせて使われること多

棒グラフ bar graph (chart)

量の大きさ、内訳比率の一次元的表示

帯グラフ stacked bar chart (compnent bar charts)

円グラフ pie chart

量の内訳比率を円扇形表示

三角グラフ triangular chart

3成分比等を表示 Ex. 土性区分粘土・砂・礫比

折線グラフ line chart

量の系列変化を表す - 時系列データでは正統的グラフ

各種描画法

「人」形(集合)で人口、「樽」数で酒産量を表す等、視覚的理解しやすい反面イメージに流れ、不正確で操作される危険も。マスコミ多用(学問的には避ける)
ロ−レンツ曲線 Lorenz curve: 分配の不平等度(ジニ係数gini coefficient)を示す下に凸型になるグラフ
散布図行列: 各変数間散布図を更に変数ごとに組み合わせ行列状に配置。多変量データを表すのに便利
高低図 (ハイロウグラフ) high-low charts (graph): 標高等の高低の断面図
レーダー・チャート (正多角形グラフ) radar chart: 360°/n (n: 変数数)と放射状radarに線分出し、それを座標軸表示

チャーノフの顔法 Chernoff's face method (顔グラフface graph): 人の顔の表現力利用。顔諸部位に様々なパターンで変数を割当てる。良から悪まで何らかの評価表示時に便利。(応用: 星座や身体を用いる等)

フェイス分析 face analysis: 多変量情報を顔等で表現し視覚化

パレート図 pareto charts (paleto diagram): 統計データを数値の大きい順に並べた棒グラフと、その累積値折線グラフとを合わせた図
エスピー表 S-P chart
オイラー図 Euler diagram: 一筆書き

解像度 resolution

観察幅と誤差に依存

→ 詳しく調べれば、従来(左端)と異なる関係が見えてくる

品質管理

管理図 control chart: 品質管理に製造工程で部品寸法測定し作成した図

nシグマ法 n-σ method: n = 3, 6 …: 管理図作成に利用

μ ± nσの区間推定が意味をもつ場合

quality

異常(値)判定基準(例)

管理限界線の外側又は線上に現れる点
連続する3点中2点以上が管理限界線近くに現れた時の管理限界線近くの点
6点以上の点が連続し中心線の上(下)側に現れた時の6点目以降の点
3点以上の点が連続し上昇(下降)した時の3点目以降の点

管理限界線近く = 中心線から管理限界線までの距離の2/3以上離れた場所
計数装置(カウンター) counter: 数を数える装置の総称

平均 (mean)

(単純)算術平均 (相加平均) arithmetic mean, m or x^-

幾何平均 geometric mean, x_g

調和平均 harmonic mean, m_h

= n/Σ_i=1ⁿ(1/x_i): 観察値から得た逆数の算術平均の逆数

分子より分母の影響が重要な時使用
Ex. 遺伝子頻度の機会的浮動 ∝ 集団サイズの逆数

複数集団サイズ平均には調和平均が機会的浮動効果検討に適切

算術平均 ≥ 幾何平均 ≥ 調和平均
⇒ 一般化平均 generalized mean, m(t) = {(1/n)·Σ_i=1ⁿx_i^t}^1/t

limt→0m(t) = x_g (m(1) = m. m(-1) = x_h)

加重(算術)平均 (重み付き平均) weighted (arithmetic) m, m_w
= Σ_i=1ⁿx_iw_i/Σ_i=1ⁿw_i (w: 加重, ウエイト, 重み)

個々のデータの重要度(重み) weight, w_iが異なる → wを反映
Def. 合成得点: 重み付き得点(合計点) ☛ 対応分析 (CA)

Def. 2乗平均 mean square, MS: 二乗した値の算術平均 = 1/nΣ_i=1ⁿx_i²

累乗平均 power mean, f(p) = 1/nΣ_i=1ⁿx_i^p もない訳ではない

Def. 2乗平均平方根 root mean square, RMS ≡ √(1/nΣ_i=1ⁿx_i²)

単位が元の統計値・確率変数と同じになる

指数平均 exponential mean: 指数平滑法によって得られた平均

時系列データから将来値を予測 Ex. CD-Rの寿命

調整済平均 adjusted mean: 欠損データ、標本集団測定の時間的なずれ等を調整した平均

トリム平均(隣接/刈込/調整平均) trimmed mean: 異常値除去。順位以上

両端p割を除く平均値(p = 1/4 → 中央平均 mid(-)mean)
Ex. Data 3, 2, 6, 9, 4. p = 0.4 → (3 + 6 + 4)/3

☛ 平滑化 (smoothing)

分散 (variance), s²

Def. s² = 1/nΣ_i=1ⁿ(x_i – m)² = 1/nΣ_i=1ⁿx_i² – m²
Pr. (変数変換transformed fits)

s² = 1/nΣ_i=1ⁿx_i² – 2(1/n)mΣ_i=1ⁿx_i + 1/nΣ_i=1ⁿm²

= 1/nΣ_i=1ⁿx_i² – 2m² + m² //

r組の試料を合併した時の平均と分散

組: 1, 2, …, r
大きさ n: n₁, n₂, …, n_r
平均: m₁, m₂, …, m_r
分散: s₁², s₂², …, s_r²
試料の中身: x₁₁, x₁₂ … x_1n₁, x₂₁, x₂₂ … x_2n₂, …, x_n1, x_n2 … x_{nn_r}

m = 1/nΣ_i=1^rn_ix_i (x_i = 1/n_iΣ_i=1^rx_ij), s² = 1/nΣ_i=1^rn_is_i + 1/nΣ_i=1^r(x_i – m)²
Pr. s² = 1/nΣ_i=1^rΣ_j=1ⁿ(x_ij – m)² = 1/nΣ_i=1^rΣ_j=1ⁿ{(x_ij – x_i) + (m_i – m)}²
Th. s² = s_w² + s_B²

s_w²: (級)内分散 within variance [試料内分散]
s_B² 外分散 (級間分散 between variance) [試料間分散]

アラン分散 Allan variance: 測定平均値の分散 ∴ 回数増えると小さくなる

確率論 probability theory

Def. 統計的現象(確率的現象): 1) 非決定論的, 2) 集団的規則性

1) 非決定論的 non-deterministic

A → B₁, B₂, …, B_r, …, B_n の何れか - 不確実

2) 集団的規則性

個体的にはランダム → 集団レベルで規則性
標本点 sample point, ω_i → 標本空間 sample space, Ω = {ω_i} = 全事象 universal event = 全体集合 universe
集合族 set, A: ある集合 → 集合関数: 集合に実数を対応させた関数
→ 確率関数 probability function Ex. 確率 P(A)
→ 確率過程 stochastic process: 設定された確率事象系での時間的変化
Def. 確率 probability

Laplace流組合わせ的確率(古典的確率, 算術的確率), P(A) = r/n → 同程度に確からしい equally probable
von Mises流統計的確率(コレクティフKollektiv理論, 経験的確率/統計的確率), P ≡ limN→∞(N_H/N), (N_H/N, 相対度数)
→ N → ∞: いつ、どこで考慮不要 → 非現実的: 統計に導入困難
Kolmogorov流測度論的(公理論的)確率 "Gundberiffe der Wahrscheimlichkeitrechnung (1993)"
「公理」として条件を挙げ、それらを満たす実数存在 → 確率とする

Def. 幾何学的確率, p = (事象に対応する面積)/(全事象に対応する面積)
Def. 同時確率 (結合確率 joint probability)

ある2つの事象が同時に起こる確率, P(x, y)

Ex. 甲乙2人が1個の硬貨を投げ始めに表を出した方が勝ち。甲が先に硬貨を投げ交互に1度ずつ投げる

甲の勝つ確率: 1, 3, …, 2n + 1回目に表が出る
→ 初項1/2, 公比1/4 = (1/2)2の等比数列の和
Σ_{i = 1}ⁿ1/2·(1/2)ⁱ = [1/2{1 – (1/4)ⁿ}]/(1 – 1/4)
∴ limn→∞Σ_{i = 1}ⁿ1/2·(1/2)ⁱ = (1/2)/(3/4) = 2/3

一般に、A ≡ A₁∪A₂∪A₃ …

P(A) = P(A₁)∪P(A₂)∪(A₃) … = P(A₁) + P(A₂) + P(A₃) + …
⇒ P(A∪B) = P(A) + P(B) 互いに排反の時成立

排反(事象) (mutually) exclusive → 加法過程additive process

Ex. 事象AとBが同時に起こらない → AとBは互いに排反 → A∩B = ∅

P(∪_i=1^∞A_i) = Σ_i=1ⁿP(A_i) 有限加法性
P(∪_i=1^∞Ai) = Σ_i=1^∞P(A_i) 完全加法性
→ [公理系導入]
Def. 完全加法族(σ-集合体, σ-algebra) = A →
1) W ∈ A
2) E ∈ A → E^C ∈ A (E^C = Ω - E = Ω∪E^C)

3) E_i ∈ A → ∪E_i ∈ A (∪^∞)

E^C: 余事象

Th. A σ-algebra →
1) ∅ ∈ A (∅ = Ω^C)
2) E_i ∈ A → ∩E_i ∈ A (∩E_i = ∩_i(E_i)^C)

∩ 積 product: 積事象 ≡ 共に起こる事象 (交わりintersection)
∪ 和 sum: 和事象 ≡ 少なくとも一方が起こる事象 (結び union)
A^– or P{A^c}: 余事象 complementary event ≡ 事象Aが起こらない事象
∅: 空事象(空集合) empty group, null set ≡ 決して起こらない事象

Def. 確率の公理論的定義 → 確率空間 probability space = (Ω, F, P[•])

F: 事象, P[•]: 確率測度

Ω ⊂ ^∃A, σ-algebraであるiのAに属する任意の事象Eに対し1つのP(E)が対応し次の3条件を満たす

確率の3公理
1) 0 ≤ P(E) 2) P(Ω) = 1 3) E_i∩E_j = ∅ ⇔ E_i, E_jは互いに排反
⇒ P(∪E_i) = Σ_iP(E_i) [P(E): 事象Eの確率Aを制限(枠組み)]

Th. 確率の基本性質
1. 余事象の法則 P(E^C) = 1 – P(E)
Pr. Ω = E∪E^C, EとE^Cは排反 → P(Ω) = P(E∪E^C) = P(E) + P(E^C) = 1

∴ P(E^C) = 1 – P(E) //

2. P(∅) = 0
Pr. Th.1 → E^C := Ω^C = ∅
3. 加法定理: P(E∪F) = P(E) + P(F) – P(E∩F)

Def. 完全加法則: P(E∩F) = ∅

Pr. E = (E∩F)∪(E∩F^C) … 1, F = (F∩E)∪(F∩E^C) … 2

Th. 1におけるE∩FとE∩F^C, 2におけるF∩EとF∩E^Cは互いに排反
E∪F = (E∩F)∪(E∩F^C)∪(E^C∩F) … 3
∴ P(E∪F) = P(E∩F) + P(E∩F^C) + P(E^C∩F) … 3'
式1と2はP(E) = P(E∩F) + P(E∩F^C) … 4
P(F) = P(E∩F) + P(E^C∩F) … 5 → 式4, 5を式3に代入

4. A ⊂ B → P(A) ≤ P(B)
Pr. B = (B∩A)∪(B∩A^C), P(B) = P(B∩A) + P(B∩A^C) ≥ P(B∩A) = P(A)
5. P(E) ≤ 1
Pr. 4)においてB := Ω
Ex. 雨が降る確率70% → 雨が降らない確率30%
Q. トランプ52枚から1枚選ぶ → スペード(P(A))か絵札(P(B))である確率
A. P(A) = 13/52, P(B) = 12/52

P(A∩B) = 3/52 → P(A∪B) = 13/52 + 12/52 – 3/52 = 11/26

条件付確率 conditional probability

Def. 条件Bが起こった条件の元でのAの起こる条件付確率

P(B) ≠ 0 → P(A|B) = P(A∩B)/P(B)

相対度数的確率: n回試考 → n回中、事象Bがn_b回生起

→ このn_b回中事象Aがn_A∩B回生起

多重試行: 連続した試行全体の試行
n_A∩B/n_B = (n_A∩B/n)/(n_B/n), n → ∞

→ 多重試行: P(A∩B)/P(B) = P(A/B)

Q. P(A|B) = P(A∩B)/P(B)

[全て条件付確率を一般確率に置き換え証明可能] →
1) 0 ≤ P(A|B) ≤ 1
2) P(∅|B) = 0, P(Ω|B) = 1
3) A∪C = ∅ → P(A∪C|B) = P(A|B) + P(C|B)

A.__1) 0 ≤ P(A|B) = P(A∪B)/P(B) ≤ 1 (A∪B ⊂ B)

2) 1)と同様P(∅|B) = P(∅∪B)/P(B) = 0 (∅∪B = ∅) ∴ P(Ω|B) = 1
3) P(A∪C)|B) = P((A∩B)∪(C∩B))/P(B)

= P(A∩B)/P(B) + P(C∩B)/P(B) = P(A|B) + P(C|B)

独立性 independence

Th. (互いに)独立 independence, ⫫: P(A|B) = P(A) > 0 ⇔ A⫫B
独立性の判定 P(A∩B) = P(A)·P(B) → A⫫B

Def. AとBは独立事象independent ↔ 従属事象
意味: Bが起こったという情報がAが起こる確率に影響しない

Pr. P(A|B) = P(A∩B)/P(B) = P(A)·P(B)/P(B) = P(A)
Th. 乗法定理(公式):
P(A₁∩A₂∩ … ∩A_n-1∩A_n)

= P(A₁) × P(A₁|A₂) × P(A₃|A₁∩A₂) × … × P(A_n|A₁∩A₂∩ … ∩A_n-1)

Pr. P(A∩B) = P(A|B)P(B), A = A_n, B = A₁∩A₂∩ … ∩A_n-1

(左式) = P(A_n∩A₁∩A₂∩ … ∩A_n-1)

= P(A₁∩A₂∩ … ∩A_n-1) × P(A_n) = (右式)

Def. 因果律: 先に起こった事象が後に起こった事象に影響すること
Th. 全確率の定理 total probability theorem
Ω = A₁∪A₂∪ … ∪An, A_i∩A_j = ∅ (i ≠ j, 排反), ^∃B

→ P(B) = P(A₁)·P(B|A) + … + P(A_n)·P(B|A_n)

Pr._B = (A₁∩B)∪(A₂∩B)∪ … ∪(A_n∩B)

P(B) = P(A₁∩B) + P(A₂∩B) + … + P(A_n∩B)

= P(A₁)P(B|A₁) + P(A₂)P(B|A₂) + … + P(A_n)P(B|A_n)

P(A_i|B) = P(A_i∩B)/P(B)
∴ P(A_i∩B) = P(B)·P(A_i|B) //

Th. ベイズの定理 Bayes theorem

全確率の定理と同じ条件下 → P(A_i|B) = P(A_i)P(B|A_i)/Σ_i=1ⁿP(A_i)P(B|A_i)

ベイズの規則 Bayes' rule

ベイズの定理による確率判断の修正規則 → 定理の持つ意味 = 原因推定
A₁, A₂, … A_n (事象Sの)原因事象: P(A_i)
= 原因A_iの事前確率 prior probability (先見確率) → 事象発生前予測

理論確率 → 事前分布 prior distribution
(統計的)決定関数 (statistical) decision function: 変量定める関数

⇔ P(A_i|B) = 事象Bが起きてからの原因A_iの事後確率 posterior probability: 事象B発生時Bの起る原因 A₁, A₂, … , A_nが考えられ、その原因が事象A_iによるものである確率 → 事後分布 posterior distribution
Th'. 事後確率 ∝ 事前確率 × 尤度 likelihood function

Q. ある製品を作る機械3台    A     B    C
     製品全体での製造率(%)  20   30   50
     製品中不良品発生率(%)   5     4     2

製品全体rodから任意抽出した製品について、1)不良品である確率、2)それが不良品であることを知った時A製造のものである確率を求めよ

A. 1) P(E) = P(A)·P(E|A) + P(B)·P(E|B) + P(C)·P(E|C)

P(A) = 0.2, P(B) = 0.3, P(C) = 0.5
(5/100 × 20/100) × (4/100 × 30/100) × (2/100 × 50/100) = 1/10000·(100 + 120 + 100) = 0.32 → 3.2%不良品

__2) P(A/E) = P(P∩E)/P(A) = (0.2 × 0.05)/0.032 = 0.3125 ≈ 0.31
Ex. AA × aa交配で雑種第2代(F2)で表現型[A]を持つ1個体にaaを交配させ5個体F₃が出来た。全表現型が[A]であった。交配させられた雑種F₂がAAである確率を求めよ
A. 1 – 2 × (1/2)⁵ = 30/32
Ex. "ポリアの壷": b個黒球とr個赤球の入った壷。無作為に1個球を取り出し、取り出された色と同色の球をc個つけ加え壷に入れる。1) かき混ぜ、また1個球を取り出し赤の確率。2) 同様な操作をし3回目に赤の確率
A. 1) B: 黒球が出る事象, B^- = R: 赤玉が出る事象

→ P(R) = P(B, R) + P(B^c, R) = P(B)P(R|B) + P(R)P(R|R)

= {b/(b + r)}{b/(b + r + c)} + {r/(b + r)}{(r + c)/(b + r + c)} = r/(b + r)

__2) 同様にP(R) = P(B, B, R) + P(B, R, R) + P(R, B, R) + P(R, R, R)

= r/(b + r)

確率行列(統計行列) stochastic matrix

= 推移行列 transition matrix: 条件付確率行列のこと

状態遷移確率行列(P): 状態i → jの遷移確率 → P(i, j)

Ex. 天気の推移
i→j 晴曇雨計
晴 3/4 1/4 0 1
曇 1/4 1/2 1/4 1
雨 1/4 1/2 1/4 1

同時確率行列: 相対度数の行列(クロス表を総度数で割ったもの)

ランダムウォーク random walk

極微のランダム・ウォーク = ブラウン運動
1) (2次元)ブラウン運動 Brownian motion (movement)

顕微鏡下で水面上での花粉粒子の軌跡 = 無秩序
→ 全ての十分に細かい粒子の一般的性質

Ex. 水槽中に落とした1滴のインクの拡散 → r = a√t, r: インク滴半径

ブラウン運動過程 Brownian motion process: 確率過程でこの運動表現

逆正弦法則 arcsine law

2) ランダムウォーク: ランダムな±1のみの累積和 = もともと「ギザギザ」

⇚ ⇚ ⇛ ⇛
━╋━╋━╋━╋━╋━╋━╋━
-3 -2 -1 0 +1 +2 +3 m
時刻 t = 0にm = 0を出発
1回に±1移動 (どの位置でも左右へ進む確率は、それぞれ1/2)

= ウィーナ過程 Wiener process (Norbert Wiener, サイバネティクス主唱者）

ブラウン運動もその性質 → 至る所微分不可能 nowhere differentiable
↔ 花粉粒子運動跡はとんでいず連続 continuous

a) (繋がり)途切れず b) ギザギザで c) 原因に於てランダムに動く

この3要素満たす現象多 Ex. 株価・為替相場・動物行動軌跡・分子運動
発展: 確率微分方程式、伊藤の公式、ギルサノフの定理と測度変換等
→ コンピュータ・シミュレーションで実現可能

角度統計学 (circular statistics)

≈ 方向統計学、円周統計学: 角度データを対象とする統計学

Def. 角度データ: 円周上にプロットできるデータ Ex. 風向、樹冠の向き

周期データ(24時間, 季節)に拡張可能

確率分布 probability distribution

Def. 確率変数 X (random variable X, rvX): ある試行特性を表わす変量
→ Def. (s.s.) X = X(ω), ω ∈ Ω
1) 離散型 discrete rv: Σ___──┼┼┼─┼──┼───>
2) 連続型 continuous rv: ∫_ ───▇▇▇▇▇▇▇────>
Def. X = a_j, j = 1, 2, …

→ 確率分布, P(X = a_j) 各確率の分布状況を示したもの

Def. (確率)分布関数 (probability) distribution function
F(x): 離散型 ^∃X → F(X) ⇒ F(x) = P(X ≤ x): Xの分布関数

[discrete: Σ_{x_k ≤ k}P(X = x_k), continuous: ∫_-∞^xf(x)dx]

1) discrete rvX: x = x₁, x₂, …, P(X = x_k) = P_k, P_k ≥ 0 → Σ_kP_k = 1

(Ex. 2項分布)

2) continuous rvX: 現実には完全なcontinuous rvは不可能
Ex. 1枚のコインを投げ表の出る確率を1/2 → 5回投げ表の出る確率をx。分布関数とグラフを書く
A. 確率分布, P(x_i), X, F(x)

x = 3, ₅C₃(1/2)⁵, 2 ≤ x < 3, 16/32
x = 4, ₅C₄(1/2)⁵, 3 ≤ x < 4, 26/32
x = 5, ₅C₅(1/2)⁵, 4 ≤ x < 5, 31/32
_____________ 5 ≤ x,___ 32/32

x = 0, ₅C₀(1/2)⁵, x < 0, 0
x = 1, ₅C₁(1/2)⁵, 0 ≤ x < 1, 1/32
x = 2, ₅C₂(1/2)⁵, 1 ≤ x < 2, 6/32

収支相当の原則: B = E(Z)
Ex. 生命保険: x歳で加入、n年契約、死亡保険金C円

年利率i ⇒ Def. 現価率 v = 1/(1 + i)
⇒ j年後のA'円の契約時(現在)の価値はv^jA'円
Z (保険会社側支払金額の現在価値) = C·v^j, (j - 1 ≤ X < j), j = 1, … n

B (保険料) = E(Z) = CΣ_j=1ⁿv^jP(j - 1 ≤ X < j)

Xの分布が分かればBが求まる → 保険料

Def. (確率)密度関数 (probability) density function (pdf), f(x): 連続型

グラフ: 決して沈降線をとらない

^∃I = [a, b], P(X ∈ I) = P{a ≤ x ≤ b} = ∫_a^bf(x)dx, f(x) ≥ 0 → ∫_-∞^∞f(x)dx = 1

distribution

Ex. pdf f(x) = 0 (x < 0, 1 < x), 2x (0 ≤ x ≤ 1) → 関数と分布関数のグラフ
i) x < 0 → F(x) = ∫_-∞^xf(x)dx = 0
ii) 0 ≤ x < 1 → F(x) = ∫_-∞^xf(x)dx = ∫_-∞⁰f(x)dx + ∫₀^xf(x)dx = 0 + ∫₀^xf(x)dx = x²
iii) 1 ≤ x → F(x) = ∫_-∞^xf(x)dx = ∫_-∞⁰f(x)dx + ∫₀¹f(x)dx + ∫₁^xf(x)dx = 1

条件付分布 conditional distribution
→ 条件付確率密度関数 conditional density function

分布関数 F(x)・確率密度関数 f(x)の性質

1) F(x) = P(X ≤ x), 0 ≤ f(x) ≤ 1
2) x₁ < x₂ → F(x₁) ≤ F(x₂) 単調増加関数
3) P(x₁ < x < x₂) = F(x₁) - F(x₂) → F(∞) = limx→+∞F(x) = 1, limx→-∞F(x) = 0
rvX分布 := F(x), (F(x)既知)

→ rvY = G(x)の分布 → 標本分布sample distributionを求める

Y = aX + b (a > 0)の分布 ⇒ Yの分布 := G(x)

G(y) = P(Y ≥ y) = P(aX + b ≥ y) = P(X ≥ (y – b)/a) = F((y – b)/a)
⇒ Yの分布はXで表わせる

確率モデル (具体的確率分布)

Def. x₁, x₂, …, x_n → 成功率Pのベルヌーイ試行列 Bernoulli trial

≡ 1回毎の事象生起確率pが一定であるとき実験を繰り返し行うこと

以下の3条件満足
1) 二元データ binary (0/1データ) ≡ 各回の試行でA, A^-の一方のみ生起
2) x₁, x₂, …, x_n: 独立 ≡ 各試行は他の試行に影響を及ぼさない
3) P(X_i = 1) = p: 生起(成功)する

⇔ P(Xi = 0) = q = 1 - p: 生起しない(失敗する)
S_n = x₁ + x₂ + … + x_n (0 ≤ S_n ≤ 1)
→ S_nはn回の試行中の生起回数を示す確率変数

分布形: J/L/U字形分布 J-/L-/U-shaped distribution
ノッチ notch: V・U字形等の溝の部分

確率分布族

1. 離散型確率分布 discrete distribution

a. x = 0, 1, 2, …, n

2項分布 binomial distribution
ベルヌーイ試行列におけるn回の試行での確率分布
B_i(^∃n, p) (p: 母数) → P(X = k) = _nC_kp^kq^n-k

k = 0, 1, 2, …, n. p + q = 1, p > 0, _nC_k: 2項係数

確率分布の確認 Σ_k=1ⁿ_nC_kp^kq^n–k = (p + q)ⁿ = 1
[(p + q)ⁿ = Σ_k=1ⁿ_nC_kp^kq^n–k: binomial law]

binomial

Def. 階乗モーメント factorial moment, μ(k)

= E[X(k)] = E[X(X – 1)Λ(X – k + 1)]

Ex. 十分大きなサイズの住民の5%がある感染症に罹患 → 無作為に500人抽出 → 抽出集団中に罹患者が30人以上いる確率
A. 抽出集団中に含まれる罹患者数を確率変数 x

f(p) = P(x ≥ 30) ~ B_i(n, p) = B_i(500, 0.05)

ベルヌーイ分布 Bernoulli distribution = B(1, p)
2項分布で n = 1
多項分布 polynomial (multinomial) distribution, M(n; p₁, p₂, …, p_m)
3通り以上結果 (2項分布拡張一般化)
P(X₁ = k₁, X₂ = k₂, …, k_m)

= (n!/k₁!k₂! … k_m!)·p1k₁p₂k₂ … p_mk_m (n = k₁ + k₂ + … + k_m),
= 0 (others)

2項分布はk = 2の多項分布
Ex. 3項分布trinomial distribution
超幾何分布 hypergeometric distribution
M, N中から非復元抽出でn個取り出す時の確率分布
P(X = k) = _nC_k·_MC_n–k/_M+NC_n
n, k, N/(M + N) = p, constant, M + N → ∞ → _nC_kp^kq^n-k 2項分布
負の超幾何分布 negative hypergeometric distribution
別名: ベータ2項分布 beta binomial dist., ポリア(-エッゲンバーガ)分布 Polya(-Eggenberger) dist.
階乗分布 factorial distribution
スターリングの公式 Stirling's formula
ln(n!) = nln(n) – n + 1/2·logn + 1/2·logπ + O(1/n), O(1/n): 定数

スターリング近似: ln(n!) = nln(n) – n

b. x = 0, 1, 2, …, ∞

ポアソン分布 Poisson distribution, P₀(λ) (λ: 母数)
P(X = k) = e^–k·λ^k/k! (k = 0, 1, 2, …)
ポアソン分布は2項分布の特殊例:

2項分布で期待値 = 分散 → E(X) = Var(X) = λ

上限がない(設定できない)カウントデータ Ex. 種数・個体数
ある事象の生起する確率が十分に小さい場合の確率現象に適合

Ex. 株価暴落, ポーカーでロイヤルストレートフラッシュの出る頻度

確率分布の確認 Σ_k=1^∞e^-k(λ^k/k!) = e^-kΣ_k=1^∞λ^k/k! = e^–ke^k = 1

(∵ e^x = 1 + x + x²/2! + x³/3! + … = x^k/k!)

2項分布からポアソン分布導出: np = λ = constant, n → ∞

P(X = k) = _nC_kp^kq^n–k = {n(n – 1) … (n – k + 1)}/k!·(λ/n)^k·(1 – n/λ)^n–k

= λ^k/k!·(1 – 1/n)(1 – 2/n) … (1 – (k – 1)/n)·(1 – λ/n)ⁿ·(1 – n/λ)^–k

-λ/n = x, n → ∞, x → 0, limx→∞(1 + x)^1/x = e
∴ (1 – 1/n)ⁿ = [(1 + x)^1/x]^xn → e^–λ → _nC_kp^kq^n–k → (λ^k/k!)·e^–λ

Law. ポアソンの小数の法則 law of small numbers (≡ ポアソンの極限定理)

低確率で変化する独立試行列の和の分布 ~ ポアソン分布に収束
☛ ポアソン分布の再生性 reproducing property

Q. 病院4床。A/B町からの搬送患者数 P(λ_A) = 2, P(λ_B) = 1 ⇒ P(Y > 4)
A. Y = X_A + X_B ~ P(λ = λ_A + λ_B)

P(Y = k) = 1/k!·λ^k·e^-λ, k = 0, 1, 2, …
P(Y > 4) = 1 - Σ_k=0⁴P(Y = k)

= 1 - e^-λ(1 + λ + 1/2·λ² + 1/6·λ³ + 1/24·λ⁴)

λ := 3 ⇒ 1 - 0.815 = 0.185 [かなり危険]

負の2項分布(パスカル分布) negative bionomial distribution, B_n(λ)
2項分布の拡張: 0多、分散大なカウントデータ
Def. 複数存在

統計的に独立なベルヌーイ試行 → r回の「成功」得るのに必要な試行回数の分布
Ex. 反復実験 → 生起確率 = p → 事象生起回数 ~ 2項分布
⇔ 事象がk回起きるまでにその事象が起きない回数 ~ B_n
統計的に独立なベルヌーイ試行 → r回の「成功」をする前に失敗した試行回数の分布
数学的に2番目の意味でのベルヌーイ試行のrを整数から実数に拡張

P(X = k) = _r+k–1C_k·p^r–1·q^{r+k–1–(r–1)p} = _r+k–1C_k·p^r·q^k

Case. r = 1 → 幾何分布

幾何分布 geometric distribution
ベルヌーイ試行列で初めて事象A(success)が生起するに要する試行回数X

N_B(1, 1 – 1/p), P(X = k) = pq^k-1 (k = 1, 2, ,3 … , p + q = 1, p > 0) → 初項p, 公比qの無限等比級数と考える
S_n = p/(1 – q) = p/p = 1

B3型一般超幾何分布 generalized hypergeometric distribution of type B3

別名多
逆負の超幾何分布 inverse negative-hypergeometric distribution
逆ポリア-エッゲンバーガ分布 inverse Polya-Eggenberger distribution
β負の2項分布 β negative-binomial distribution
一般ウェアリング分布 generalized Waring distribution

c. x = 1, 2, …, ∞

対数(級数)分布 logarithmic (series) distribution
f(x; p) = xⁿ/{x·ln(1 – p)}, 0 < p < 1

μ = -p/{(1 – p)·ln(1 – p)}, σ = -(p + ln(1 – p))/{(1 – p)·ln(1 – p)}²

2. 連続型確率分布 continuous distribution

pdf f(x)を定めることが目標

a. x = (0, 1)

一様分布 uniform distribution (短形分布 rectangular distribution), U(a, b) uniform

U(a, b) (a, b: 母数)
→ f(x) = 1/(b – a) (a ≤ x ≤ b), = 0 (others)

確率分布の確認 ∫_-∞^∞f(x)dx = ∫_a^bf(x)dx

= ∫_a^b1/(b – a)dx = 1/(b – a)[x]_a^b = 1

P₀(λ)~B_i(n, p) → x~U(-0.5, 0.5)

Ex. U(0, 5): F(3 ≤ X ≤ 5) = ∫₃⁵(1/5)dx = 1/5·[x]₃⁵ = 0.4

uniform

(第1種)ベータ分布 β distribution (Gini 1911)
= β-distribution of first kind, B(a, b)
B(a, b) = ∫₀¹t^a–1(1 – t)^b–1dt

E(x) = a/(a + b)
V(x) = ab/{(a + b)²·(a + b + 1)}
事前分布を一様分布とし､尤度が2項分布であるときの事後分布

Th. 一様分布はベータ分布の特殊例 B(1, 1) = U(0, 1)
一般化ベータ分布B_g(x; a, b, c, p, q)

= {|a|x^ap-1(1 - (1 - c)(x/b)^a)^q-1}/{b^apB(p, q)(1 + c(x/b)^a}^p+q
一般化第1種ベータ分布 generalized β of first kind: c = 0
一般化第2種ベータ分布 generalized β of second kind: c = 1

逆正弦分布 arcsine distribution: f(x) = 2/π·sin^-1(√x), 0 < x < 1

→ B(1/2, 1/2)に等しい Ex. 酔歩モデル、ゲームでの「つき」

b. x = (-∞, ∞)

正規分布 normal distribution
= ガウス分布Gauss(ian) distribution, 誤差分布error distribution
値の散布度は確率変動のみ → 平均と標準偏差によって記述
N(μ, σ²): μ = ∫_–∞^∞xf(x)dx, σ² = ∫_–∞^∞(x – μ)²f(x)dx

→ f(x) = 1/{√(2π)·σ}·e–(x – μ)^{2/2^σ²}
normal

連続的パラメトリック変量(パラメトリック連続変量) continuos, parametric variables

確率分布の確認
∫_–∞^∞f(x)dx = 1/{√(2π)·σ}∫_–∞^∞e^{-(x – μ)2/2^σ²} [(x – μ)/σ ≡ t, dx = σdt]

= 1/√{(2π)·σ}∫_–∞^∞e^–t²/2σdt [x → ∞ → t → ∞, x → –∞ → t → –∞]
= 1/√(2π)∫_–∞^∞e^–t²/2dt = {1/√(2π)}·√(2π) = 1

2乗積分: ∫_–∞^∞e^–t²/2dt = √(2π), ∫_–∞^∞t·e^–t²/2dt = 0

→ x = μ: Max, x = μ – σ: 偏曲点

σ = constant (μを動かす) → Max変化。恐らく曲線形は変わらない
μ = constant (σを動かす) → 曲線勾配変化

→ 標準正規分布 standard normal d (z分布) ≡ N(0, 1)

≡ N(0, 1), f(x) = (1/√2π)·e^–x²/2 (s = ± 0), I(x) = ∫₀^x(1/√2π)e^–x²/2dx

x = 1.96 → I(x) = 0.95 = 95%, x = 2.58 → I(x) = 0.99 = 99%
両側確率: ある分布で、ある値の絶対値より大きい値をとる確率

Ex. N(0, 1), P(|Z| ≥ 1.96) = 0.05

上側(下側)確率: ある分布で、ある値より大きい(小さい)値をとる確率

Ex. N(0, 1), P(Z ≥1.96) = 0.025

%点 (パーセンタイル percentile)

ある分布関数で上側(下側、両側)確率がQ%となる値

Th. X~N(μ, σ²) → T = (x – μ)/σ~N(0, 1) [~: Xという確率分布は~以下に従う]
Pr. Tの分布関数: Φ(t) = P(T < t) = P(X < μ + σt)

= 1/√(2π)·σ∫_–∞^μ+σ_te^{–(x–μ)²/2σ²}dx = 1/√(2π)∫_–∞^te^–t²dt →^set (x – μ)/σ = t

∴ pdf of t is Φ(t) = (1/√2π)e^–t²/2 → N(0, 1)のpdf

→ 全ての正規分布は標準正規分布に帰着出来る //

→ 正規分布での標準偏差の意味:

P(μ ± σ) = 0.68__ P(μ ± 2σ) = 0.95__ P(μ ± 3σ) = 0.99
→ 2σ, 3σがよく使われる

Q. X~N(75, 100) → P{X < 89} = 0.90, P{X < 94} = 0.95。μとσを求めよ
A.__X~N(75, 100),

P(X < 60) = P((X - 75)/10) < (60 - 75)/10)) = P(T < -1.5)

= P(T > 1.5) = 0.5 - 0.4332 = 0.0668

Ex. 5段階評価法評点

X
1
2
3
4
5

Y
(-∞, μ - 1.5α)
(μ - 1.5α, μ - 0.5α)
(μ - 0.5α, μ + 0.5α)
(μ + 0.5α, μ + 1.5α)
(μ + 1.5α, +∞)
確認: 評点2 = 24%

(-∞, -1.5)
(-1.5, -0.5)
(-0.5, +0.5)
(+0.5, +1.5)
(+1.5, +∞)

確率
7
24
38
24
7
(%)

P(μ- 1.5σ < X < μ - 0.5σ)

= P(-1.5 < T < -0.5) = 0.4332 - 0.1915 = 0.2417

ロジスティック分布 logistic distribution
f(x) = 1/ξ·exp((x – μ)/ξ)/(1 + exp((x – μ)/ξ))², -∞ < μ < ∞, 0 < ξ < ∞
グンベル分布 Gumbel distribution (二重指数分布)
f(x) = 1/ξ·exp(-(x – η)/ξ) – exp(-(x – η)/ξ)), -∞ < ξ < ∞, 0 < ∞
(スチューデントの)t分布 Student's t distribution 平均に関係
t = (m – μ)/√(u/n)~t(n – 1)
pdf f(t) = [Γ((n + 1)/2)/{√(nπ)·Γ(n/2)}]·(1 + t^2/n)^{–(n + 1)/2} for ^∀t

→ t(n): t-分布(df = n)

E(t) = 0, V(t) = n/(n – 2),

b) n → ∞, t分布はN(0, 1)に近づく
[Γ((n + 1)/2)/(√(nπ)·Γ(n/2)) → 1/√(2π)]
(1 + t2/n)^{-(n + 1)/2} → e^–t²/2

t分布統計量 t-statistic
u~N(0,1), χ²~χ²(n), u ⊥ χ² → t = u/√(χ²/n)~t(n),

b) X₁, X₂, …, X_n~N(μ, σ²), X(= m)~N(μ, σ²/n)
(m – μ)/(σ/√n) = √n(m – μ)/σ~N(0, 1)
n·S²/σ²~χ²(n – 1)
[{√n·(m – μ)}/σ]/√{1/(n – 1)·(n/σ²)·S²} = (m – μ)/[{√1/(n – 1)}·S]

= {(m – μ)√(n – 1)}/S~t(n - 1)

(Gosset 1908, Fisher 1926)

コーシー分布 Cauchy distribution

= t(df = 1), f(x) = (1/π)·(1/(1 + x²)), -∞ < x < +∞
Me = λ。積率存在しない → 平均・分散存在しない
x~U(-π/2, π/2) → tan^-1(x)はコーシー分布

両側指数分布 bilateral exponential distribution
= ラプラス分布 Laplace dist.

f(x) = 1/2ξ·exp(1/ξ·|x|), ξ > 0

c. x = (0, ∞)
ガンマ分布 gamma distribution (自由度nのχ²分布)
f(x, k, θ) = 1/(Γ(k)θ^k)·x^k–1e^–x/θ (x ≥ 0), = 0 (x < 0) → pdf ≡ Γ(k, θ)

k: 形状母数 shape parameter (> 0)
θ: 尺度母数 scale parameter (> 0, 平均値), λ = 1/θ (> 0)
[θ = 1 → 標準形]
期間μに1回程度起こるランダム事象がn回起こるまでの時間の分布
Ex. データ: 平均 < 分散、下限 = 0、等
Ex. 電子部品の寿命

a) E(X) = kθ
b) V(X) = kθ² = k/λ²
Γ分布特殊型: 指数分布､χ²分布､アーラン分布
指数分布 exponential distribution: Γ(λ) or Exp(λ): Γ分布でa = 1

f(x) 指数分布
exponential
x → ∞ f(x) → 0

→ f(x) = λ·e^-λ_x (x ≥ 0), = 0 (x < 0)
Ex. 病院の患者待時間・診療時間、部品故障し次に故障する時間

確率分布の確認
∫_-∞^∞f(x)dx = ∫₀^∞λ·e^–λ_xdx = λ[e^–λ_x/(–λ)]₀^∞ =

λ{-0/λ – (-1/λ)} = 1

χ²分布 chi-squared distribution: Γ分布でa = n/2 (n = 1, 2, …), b = 2
食い違いの測度 ⇒ 分散に関係

Ex. 赤玉白玉が十分に多く、同数入る箱から20個選択 - 赤12個、白8個

期待値: 赤玉・白玉各10個 → 実現値と期待値食い違う = χ²分布

pdf f_n(χ²) = 1/{2^n/2·Γ(n/2)}(χ²)^n/2–1·e^–χ²/2 (χ ≥ 0), = 0 (others)

→ χ²(n), ∫₀^∞f_n(χ²)dχ² = 1

a) E(χ²) = n, V(χ²) = 2n, X~χ²(n) → E(X) = n, V(X) = 2n
b) χ₁²~χ²(n₁), χ₁²~χ²(n₂) → χ₁² + χ₁²~χ²(n₁ + n₂), χ₁² ⊥ χ₂²

拡張: ウィシャート分布 Wishart distribution – 多変量解析で使用

アーラン分布 Erlang distribution: Γ分布でaが整数
χ²分布統計量 chi-squared statistics
a) X~N(0, 1) → X²~χ²(1), X₁, X₂, …, X_n~N(0,1)

→ X₂ ≡ X₁ + X₂ + … + X_n~χ²(n)

b) X₁, X₂, …, X_n~N(μ, σ²) → (X_i – μ)/σ~N(0, 1)

→ {(X_i – μ)/σ}²~χ²(1) → Σ_i=1ⁿ{(X_i – μ)/σ}²~χ²(n)

c) X₁, X₂, …, X_n~N(μ, σ²) → m = 1/nΣ_i=1ⁿX_i, S² = 1/nΣ_i=1ⁿ(X_i – m)²

→ nS²/σ² = 1/σ²Σ_i=1ⁿ(X_i – m)~χ²(n – 1)

ワイブル分布 Weibull distribution (1939 Weibull)
時間に対する劣化現象や寿命を統計的に記述

最弱リンクモデル Ex. 鎖を引く → 最も弱い輪が破壊 = 鎖全体破壊

f(x) = m/η(x/η)^m-1·exp{-(x/η)^m}

m: ワイブル係数 (形状パラメータ) → m = 1ならば指数分布
η: 尺度パラメータ

μ = ηΓ(1 + 1/m), Γ(1 + 1/m): ガンマ分布
→ 逆数ワイブル分布(フレシェ分布) / 負のワイブル分布
一般化極値分布 generalized extreme value distribution
代表的3型の極値分布をまとめた確率分布
累積分布関数 F(x; μ, θ, γ) = exp{-[1 + γ·((x – μ)/θ)]^-1/γ}

1 + γ·((x – μ)/θ > 0

Ex. 年最大風速の分布

Type 1 グンベル型 Gumbel: γ = 1/n, μ = 0, θ = 1
Type 2 フレシェ型 Furéchet
Type 3 ワイブル型 Weibull

第2種ベータ分布 beta distribution of the second kind, B₂(α, β; ξ)
i) F分布 F distribution (フィッシャー分布) (Fisher 1924)
F_s(k₁, k₂) = B₂(k₁/2, k₂/2; k₂/k₁) ⇒ 2標本問題
2標本: X₁ … X_n₁~N(μ₁, σ²) (n₁), Y₁ … Y_n₂~N(μ₂, σ²) (n₂)

(m_x – m_y)~N(μ₁ – μ₂, σ²/n₁ + σ₂/n₂)~N(0, 1)
(n1 – 1)s₁²/σ² + (n2 – 1)s₂²/σ²~χ²(n₁ + n₂ – 2) →
t = (m_x – m_y)(μ₁ – μ₂)/{σ√(1/n₁ + 1/n₂)}/

√[1/(n₁ + n₂ – 2){(n₁ – 1)s₁²/σ² + (n₂ – 1)s₂²/σ²}]

= √{n₁n₂(n₁ + n₂ – 2)/(n₁ + n₂)}·{(m_x – m_y) – (μ₁ – μ₂)}/

√{(n₁ – 1)s₁² + (n₂ – 1)s₂²}~t(n₁ + n₂ – 2)

ii) パレート分布: B₂(α, β; ξ), x = (1, ∞)
正規分布の変形(負値をとらない)
i) 対数正規分布 logarithmic normal distribution

μ < s² → 片側にデータが歪んだデータ

ii) 逆正規分布 (逆ガウス分布, inverse Gaussian distribution)
= ワルド分布 Wald distribution

正(非負)に歪むデータ
f(x; γ, μ, σ²)
f(x) = (l/2πx³)^1/2·exp[-{l(x - μ)²}/2μ²x]
m = μ, σ = μ³/λ

混合分布 mixed distribution

離散分布と連続分布が組み合わさった分布
pdf f₁(x), f₂(x), …, f_k(x) → 離散確率分布 p₁, p₂, …, p_k
p(x) = Σ_i=1^kp_if_i(x) ≡ (有限)混合分布 (pdf)

教師付き学習 supervised learning: 各学習パターン所属クラス既知
教師なし学習 unsupervised lerning: 各学習パターン所属クラス未知 → 混合分布

確率変数特性値 characteristic values on statistical variables

Ex 1. pdff(x) = 1 – |X| (|X| ≤ 1), = 0 (others)

E(x) = ∫_-1¹xf(x)dx = ∫_-1⁰x(1 - x)dx + ∫₀¹x(1 + x)dx = 0
V(x) = E(x²) – E²(x) = ∫_-1⁰x²(1 + x)dx + ∫₀¹x²(1 - x)dx = 1/6

_________密度関数______________________分布関数
Ex 2. X₁, X₂, … X_n 成功率PのBernoulli試行列

S_n = X₁ + X₂ + … + X_n (成功回数を表わすrv) → E(S_n), V(S_n)を求める

A. Bernoulli試行列は独立性がある

E(S_n) = E(X₁ + X₂ + … + X_n) = E(X₁) + E(X₂) + … + E(X_n) = np
V(S_n) = npq

∵ E(X_i) = 0·(1 – p) + 1·p = p, E(X_i²) = 0²·(1 – p) + 1²·p = p

V(X_i) = E(X_i²) – E²(X_i) = p – p² = p(1 – p) = pq

Summary: S_n

型: 分布名 S_n (定義域), 確率, 平均 E(X) ± 分散 V(X)

離散型 discrete

2項分布 Bi(n, p)____(0, n) P(X = k) = 0, np ± npq
Poisson分布 Po(X) (0, ∞), P(X = k) = 0, λ ± λ
幾何分布_________(0, ∞), P(X = k) = 0, 1/p ± q/p²

連続型 continuous

一様分布 T(a, b)__(0, 1),_f(x), (a + b)/2 ± 1/12(b – a)²
指数分布 Γ(1, λ)__(0, ∞),_f(x), 1/λ ± 1/λ²
正規分布 N(μ, σ²) (-∞, ∞), f(x), μ ± σ²
Ex. 幾何分布 P(X = k) = pq^k-1 (k = 1, 2, …)の平均・分散

Σ_k=0^∞x_k = 1 + x + x² + … + = 1/(1 – x) (|x| < 1),
Sの両辺にxをかけて微分するとTが求まる

Def. 確率母関数 probability generating function:
P(X = x) = p_i → G(T) ≡ E(T^X) = Σ_i=1ⁿp_iTⁱ

G'(1) = p₁ + 2p₂T + … + np_nT^n–1 = E(X),
G''(1) = E(X²) – E(X) = V(X)___⇒ 期待値と分散が求まる

Def. モーメント母関数 moment generating function, φ(θ) ≡ G(e^θ) = E(T^θX)

→ 逆モーメント inverse moment

Def. キュムラント(累積率) cumulant (= 半不変値semi-invariant), κ_r

N(μ, σ²) → κ_r = 0 (r ≥ 3) → μ, σのみで正規分布は表現可
キュムラント母関数 cumulant generating function → 逆キュムラント

和の分布

XΠY, h(x, y), Z = X + Y → f(z) = P(Z < z) = P(X + Y < z)
Case. 一様分布: pdfX = f(x), pdfY = g(Y)

→ f(x) = f(y) = 1/(b – a) (a < x < b, or a < y < b), or = 0 (others)
2a < x ≤ a + b, x + y < z → P(Z < z) = {1/2·(z – 2a)²}/(b – a)²
a + b ≤ y < 2b, x + y < z → P(Z < z) = {1/2·(2b – z)²}/(b – a)²
zで微分 → pdfz: φ(z)

= (z – 2a)/(b – a)² (2a < x ≤ a + b),
= (2b – z)/(b – a)² (a + b ≤ y < 2b), or
= 0 (others)

Def. 三角分布 triangular distribution (シンプソン分布)

f(x) = 1 – |x| (|x| ≤ 1), = 0 (|x| > 1)
一様分布に従う2つの確率変数の和は三角分布に従う

Def. 合成積 convolution: f(t), g(t), continuous

→ f(t) ≠ g(t) = ∫₀^τf(t – τ)g(τ)dτ

非心分布 noncentral distribution

非心母数 noncentral parameter → 検出力問題と関連

非心ガンマ分布noncentral γ distribution: x = (0, ∞)
非心χ²分布 noncentral χ² distribution
非心F分布 noncentral F distribution
非心t分布 noncentral t distribution

大数の法則と中心極限定理 law of great numbers and central limit theorem (CLT)

Th. 0. チェビシェフの不等式 Chebyshev's inequality: あらゆる分布で成立
平均(m)から標準偏差(s)のλ倍(λ > 0)以上ずれた値の変動 variability (変異 variation)は総度数nの1/λ²以下
Q. 400人に100点満点試験 → m ± s = 45 ± 20 ⇒ 5点以上85点以下人数
A. λ = 2 ⇒ P{|X - m| ≤ 2s} > 1 - 1/2² = 3/4 ∴ 400 x 3/4 = 300 (人)__//
Q. 次々に100人に面接: 面接時間/人 = X(分), m = 1, s² = 0.64 → 既知

1) 各人面接時間は互いに独立な確率変数とし面接終了までの時間Sの平均値と分散を求めよ
2) λ = 3としチェビチェフの不等式を利用しSを求めよ

A.1) S_nの分布未知。知りたいのはS = X₁ + X₂ + … + X₁₀₀

E(S) = E(X₁ + X₂ + … + X₁₀₀) = 100
V(S) = V(X₁ + X₂ + … + X₁₀₀)__(互いに独立 ⇒)

= V(X₁) + V(X₂) + … + V(X₁₀₀) = ΣV(X_i) = 100 × 0.64 = 64

∴ s = √V(S) = √64 = 8

__2) k = 3 ⇒ P{(|S - 100|) ≥ 3 × 8 = 24} ≤ 1/3²

∴ S ≥ 124 or 76 ≥ Sになる確率は1/9以下

Def. {X_n} = X₁, X₂, … X_n, ^∃θ, lim_n→∞{|X_n – θ|} = 0 (θ = constant > 0) →

{X_n}はθに確率収束 convergence in probability, X_n
→ θ in prob. (or pr.)

Def. {Xn}, ^∃θ, X_n → θ exept for P = 0 →

{X_n}はθに概収束, X_n → θ a.e. (= "殆んど至る所の{X_n}はθに収束")

Th. 概収束 converge almost surely → 確率収束 (逆は必ずしも成立しない)

弱収束 weak convergence

Th. チェビシェフの定理 Chebyshev's theorem
Th. (ベルヌーイの)大数の法則 law of large numbers, S
Th. コルモゴロフの定理(大数の強法則): {X_n}独立, Σ_k=1^∞V(X_k)/k² < +∞

→ 1/n·Σ_k=1ⁿX_kはΣ_k=1ⁿE(X_k)に概収束
viz. P{lim_n→∞(1/n·Σ_k=1ⁿX_k – Σ_k=1ⁿE(X_k)) = 0} = 1

Th. Bernoulliの大数の法則: X₁ + X₂ + … + X_n, 成功率PのBernoulli試行列

→ lim_n→∞p{(X₁ + X₂ + … + X_n)/n – p ≥ ε} = 0
(number of occurrence)/n → P in prob.
E(X_i) = 1 × p + 0 × (1 – p) = p → 大数の法則に帰着

Th. 正規分布の再生性 reproductivity: X~N(μ₁, σ₁²), Y~N(μ₂, σ₂²)

→ Z = (X + Y)~N(μ₁ + μ₂, σ₁² + σ₂²)

拡張: X₁ + X₂ + … + X_n independent, X_i~ N(μ_i, σ_i²)

→ Σ_i=1ⁿC_iX_i~N(Σ_i=1ⁿC_iμ_i, Σ_i=1ⁿC_iσ_i²) C: 定数

Pr. 特定関数(和の分布関数)を用いる: X~N(μ₁, σ₁²), Y~N(μ₂, σ₂²) →

(X + Y)~N(μ₁ + μ₂, σ₁² + σ₂²)

= (-3X + 4Y)~N(-3μ₁ + 4μ₂, 9σ₁² + 16σ₂²)

Th. Xの分布, X₁ + X₂ + … + X_n: independence, X_i~N(μ, σ²) 同一分布 →

m = 1/n·(X₁ + X₂ + … + X_n)~N(μ, σ²/n)

Pr. 正規分布の再生性 → μ_i ≡ μ, σ_i² ≡ σ, C ≡ 1/n

Th. 中心極限定理 (CLT): 1-3式の内1つ利用出来ればよい
X₁ + X₂ + … + X_n: independence,
全て同一分布に従う(分布は何でもよいか未知), E(X_i) = μ, V(X_i) = σ² →
1) X_avg = 1/n·Σ_i=1ⁿX_i ≈ N(μ, σ²/n)
2) X_avg(σ/n) = {√n·(X_avg – μ)}/σ ≡ T ≈ N(0, 1)
3) lim_n→∞p(a < T < b) = 1/√(2π)·∫_a^be^-t²/2dt
Pr. (1) ↔ S_n ≈ N(nμ, nσ²), (2) (S_n – nμ)/(√n·σ) ≈ N(0, 1)
Ex. mの分布: m = 1/n·(X₁ + X₂ + … + X_n),
___S_nの総和の分布: S_n = X₁ + X₂ + … + X_n
[利用] 漸近正規性 asymptotically normal: 標本抽出を無作為に十分多抽出 → 標本平均値は抽出母体の母集団分布がどうでも、その確率分布はN(0, 1)で近似可能 → 確率近似(法) stochastic approximation
Th. ラプラスLaplraceの極限定理 (2項分布の正規近似):

S_n ~ B_i(n, p) → (S_n – np)/√(npq) ~ N(0, 1)

Pr. CLT → {S_n – E(S_n)}/√V(S_n) = (S_n – np)/√(npq)~N(0, 1), n十分大
Def. 不連続補正: 離散型分布を連続分布近似

↔ 連続修正(連続補正) continuity correction

P(np + a√npq) ≈ I(b + 1/2√(npq)) + I(a – 1/2√(npq)) ⇒ 誤差は上式より小
Ex. 1. 面接の例でP(S > 120)を求めよ (CLTを使う)
A. Xi, Sの分布未知。S = X₁ + X₂ + … + X_n (n = 100)

E(S) = 100, V(S) = 64
P(S > 100) = P((S – 100/8 > (120 – 100)/8)

= P((S – 100)/8 > 25) ≈ 0.5 - I(2.5) = 0.5 - 0.4938

Ex. 2. 75個の数値を測定して小数点以下を四捨五入する時の誤差を求める
A. (Hint) Hint: X₁ + X₂ + … + X_n → 互いに独立

分布U(-0.5, 0.5)に従うと仮定
N = 75(誤差の総和の絶対値)をCLTから解く

N = |X₁ + X₂ + … + X₇₅|, P(|X₁ + X₂ + … + X₇₅| < α) = 0.95 → αを求める

Xi~U(-0.5, 0.5), S = X₁ + X₂ + … + X₇₅の分布
E(Xi) = 0, V(Xi) = 1/12 → E(S) = 0, V(S) = 75/12 = 25/4
∴ √(25/4) = 5/2
P(-α < S < α) = P(-5/2α < S < 5/2α)
∴ I(5/2·α) = 0.475, 5/2·α = 1.96___∴ α = 4.9

Ex. 3. X ≡ 1個の硬貨をn回投げた時に表の出る確率。|X/n – 1/2| ≥ 0.05となる確率を0.01 (1%)以下にするにはnを幾つにしたらよいか
A. Hint: nの最小数を求める
A1: 正規分布近似で解く → 2項分布

E(X) = n/2, V(X) = n/4 → E(X/n) = 1/2, V(X/n) = 1/4n
P{|X/n – 1/2| ≥ 0.05} = P{|X/n – 1/2|/(1/√(4n)) ≥ 0.05/(1/√(4n))}

≈ 1 - 2·I(0.1 × √n) ≤ 0.01

I(0.1n) ≥ 0.495 = I(2.58), 99%
∴ 0.1√n ≥ 2.58, n ≥ (25.8)² = 666___最低666回を必要とする

A1: Chebyshevの不等式で解く

P{Y – E(Y) ≥ λ√V(Y)} ≤ 1/λ²,
P{|X/n – 1/2|} ≥ l·λ/√(4n) ≤ 1/λ² = (0.05² × 4n) ≤ 0.01
∴ n ≥ 1000

→ 比較結論: Chebyshevの不等式は極めて効率が悪い

確率密度関数の近似表現

エルミート多項式 Hermite polynomial
確率密度関数による直交多項式 orthogonal polynomial
(グラム-)シャリエ級数 (Gram-)Charlier series

標本理論 sampling theory

母集団 population, π

全体集合 universe: 現実に把握できるかどうかを別とした理想の対象集団
Def. 母集団 population: 一般に抽出されたある標本に対し、その源泉となる対象集団全体 ⇔ 標本集団

= 時間と場所を特定し実際にサンプリング可能な集団

Ex. ≠ 東京と大阪を1母集団とする

Def. 母集団転移: 調査途中で母集団が変化 → 標本理論適用できない

Ex. 質問内容が最初は回答者家族(の誰でも)、途中から回答者のみ

Def. 有限infinite母集団: 大きさNの母集団 {e₁, e₂, … e_n}

⇔ 無限finite母集団(n → ∞): 理想化状態

rvX (or 分布F(X)): 確定集団 - Xの動きを推定

→ 手掛かり= 標本(試料) sample = 任意標本random sample

(X₁, X₂, …, X_n): 大きさNのsample, X: 母集団確率変数

Xと同じ分布をするn個のrv(X₁, X₂, …, X_n)
→ sample x₁, x₂, …, x_nは(X₁, X₂, …, X_n)の1つの実現値とみなす

標本変動性 sampling variability: 標本集団は動く
標本平均 sample mean
標本標準偏差 sample standard deviation
標本分散 sample variance
母数 parameter: 母集団分布を規定する定数 constant

Ex.母平均 E(X) = μ, 母分散 V(x) = σ², 母百分率 p

統計量(標本特性値) statistic (for inference)

Def. 標本関数f(x₁, x₂, …, x_n)を実現するrv(X₁, X₂, …, X_n) = F(X)

→ 通常母集団のある母数推定量(標本関数)とし計算

Def. 統計量 statistic: 標本毎に変動する確率変数 → 統計量分布(標本分布)

↔ 母数: 既知でも未知でも定数

Ex. 平均値統計量, m = 1/n·Σ_i=1ⁿx_i

分散 s² = 1/n·Σ(x – m)², (x₁, x₂, …, x_n) → (X₁, X₂, …, X_n)

m = 1/nΣx_i → μ = 1/nΣX_i, s² = Σ(x_i – m)²

→ σ² = Σ(X_i – μ)², [X_i equiv; 基本統計量: x_iとX_iを区別]

標本分布とランダムサンプリング(無作為抽出)

全数調査(悉皆調査, センサス) complete survey, census: 調査対象全調査
Ex. 国勢調査 = 母集団全体 → "直接"母集団特性記述

→ 標本抽出に伴う誤差等考慮不要

統計法(法律): 目的 = 偽り排除、重複調査の無駄省く、秘密保護

→ 指定統計 designated statistics

標本調査 sampling (survey): 調査対象集団から1部分を取り出し調査対象集団情報を得る統計調査法

統計的推測 inference: 標本集団 → 母集団全体法則性を見出す手続

標本誤差 sampling error: 標本抽出に伴う誤差 - 調査で必ず生じる

Ex. 世論調査: 母集団 = 成人国民全員

無作為抽出標本集団調査 - 母集団特性推定

標本抽出誤差は、統計学理論で評価可 - 統計的推測精度を知る

標本(サンプル)サイズ sample size: 大 = 精度↑コスト↑
有限母集団 → n ≥ N/[(ε/t)²·(N – 1)/{P(1 – P) + 1}]

n: 標本数, N: 母集団数, ε: 推定値絶対誤差, t, P: 母比率

Ex. 母比率50%, 推定信頼度95%, ε ≤ 10% ⇒

n ≥ N/[(0.1/1.96)²·(N – 1)/{0.5(1 – 0.5) + 1}]

標本抽出法 sampling

層 stratum(–ta): 母集団構成員特性に基づく等質集団

Ex. 男女別、職業別 → 層化(層別化) stratification

1. 復元抽出 sampling with replacement: 重複を許し抽出
2. 非復元抽出 sampling without replacement: 重複を許さず抽出
a. 無限母集団から抽出 = 復元・非復元抽出区別必要なし
b. 大きさNの有限母集団から非復元抽出

X₁, X₂, …, X_n: 独立independentではない → 復元抽出不可

標本抽出(調査)法 sampling survey technique

母集団から良い標本を抽出する方法
無作為抽出(ランダムサンプリング) random sampling

→ 完全無作為化 completely randomizedは可能か ⇔
有意抽出: 標本抽出の主観性排除できず誤差の影響の統計的推定困難

実施容易であり、反復調査を行う場合等や予備調査に用いる

割当抽出 quota sampling: 無作為抽出と有意抽出の折衷的なもの

Ex. 年齢構成は母集団と同じだが他は有意抽出 - 結局は有意抽出

無作為化 randomization → 無作為標本

抽出段階の主観排除のため実施(客観性)
コンピュータ化無作為選別法 computerized random selection

1. 単純無作為抽出 simple random sampling

「でたらめ」か「公平な籤びきlot原理」で抽出対象決定 → 大母集団で困難

2. 層別(層化)抽出 (確率比例層化抽出) stratification sampling

層化した各層中から無作為抽出 - 層化により精度が下がることはない

a. 比例割当法: 層の大きさに比例proportionalして各層にサンプル割当
b. 層化多段抽出 multi-stage stratification samping

Ex. 全体 → X村、Y町 → Z小学校、A小学校 →○君、×さん

3. 集落抽出(多段抽出) cluster sampling

実際的手続きを配慮し最終的調査単位をまとめて抽出
集落分割 ≈ 母集団縮図 → ランダムに集落選び抽出集落要素を全て標本

Ex. 小学生100人調査

4. 確率比例抽出 probability proportionate sampling

各標本集団の標本数に応じサンプル数を決める方法 ⇔ 等確率抽出

5. 系統抽出(等間隔抽出) systematic interval

母集団Nに、ある順序で1-Nの番号をつけ、n標本をとるのに最初のk単位中から無作為に1個とり、その後k個おきにとる (抽出間隔 sampling interval)

乱数 random number

Def. 乱数: 無規則性(無相関性)数列 → i番目に出るa_iは、それ以前のa_j (j < i)と無関係に定まる

Def. 乱数列 radnom sequence: 数字が無作為randomに並んだもの

1. 一様乱数

等確率性: lim_n→∞(n_i/n) = 1/10

Ex. 0, 1, 2, 3, … 9 (10数)をrandomに並べる

a. 乱数表 randomized table (table of random numbers)

0-9の整数が等確率で独立に作られた表

b. 乱数サイ dice: 正20面体各面に0-9の整数が2度示してあるサイコロ
c. 均一乱数発生器 uniform random number generator (PC不在の時代)
d. 擬似乱数 pseudo random number: 計算機中に一定規則で発生

→ 統計シミュレーション statistical simulation
乗算合同法: x₀を適当に置く

Ex. x₀ = 1, x₁ = 15 × x₀, x₂ = (x₁ × 15) mod (10⁶ + 1)

i = 1 … 4使用しない

線形合同法(混合型合同法): X_n+1 = (a·X_n + c) mod m (n = 0, 1, 2 …)

mに対し適切なa, cを選ぶと周期(最大の)mで乱数的性質を持つ数列が得られる

2. (擬似)正規乱数

正規確率性: lim_n→∞P{X}~N(0, 1) → 一様乱数から生成可能

Ex. 2つサイを振った和の分布

正規標本論 normal sample theory

推定・検定に必要な特殊確率分布
標本分布論 → 確率 P{X₁ … X_n ≤ x}を計算 Ex. X~N(μ, σ²/n), x_i~N(μ, σ²) Def. 自由度 degree of freedom, df: 母数推定に用いられた独立項の数

≡ (全データ点) – (データから推定された母数の数)
→ 本概念により各種統計表を汎用的に作成可能 → dfは(n – 1)とは限らず注意
Ex. x_m = X_mとなるn個標本採取: (n – 1)標本は自由に抜けるがn個目の標本はそれしか抜けない → df = (n – 1)
Ex. 直線回帰 y = ax + b → df = n – 2 [2つの母数a, bを推定する]

反復と擬似反復 replication and pseudoreplication

反復 = n (number of samples)
擬似反復 ≥ n → 実験単位の過ちにより実際の反復数よりも多い

原因:
空間的自己相関 spatial autocorrelation
時系列自己相関 temporal autocorrelation

正規性 normality

確率プロット(法) probability plotting (method)

分位数プロット – あらゆる確率分布適合度を視覚的に判断

y軸: 観測値 → 順序統計量(xi ≤ xj, i < j)
x軸: 理論値(4分位) → 観測変量が完全に理論分布にあえば全ての点が対角線(直線)上に並ぶ
4分位変動係数 quartile variation

a) 正規確率プロット normal probability plot(正規プロットnormal plot)

理論値(x) = N(0, 1)の%点
b) Q-Qプロット quantile-quartile plots, Q-Q plots: 理論分位値(y)
c) P-Pプロット, P-P plots: 観測された累積分布関数(y)-理論累積分布関数(x)

→ 正規normal Q-Qプロット/P-Pプロット
→ 傾向化除去detrendec正規Q-Qプロット/P-Pプロット

確率紙 probability paper (死語かも)

グラフ上で(x, y)をプロットし直線性見ることで分布適合性を判断

幾何的手続きで、母数評価可能

正規確率紙 normal probability paper: 横軸に変数x、縦軸に正規分布関数yを目盛るグラフ用紙

他にワイブル確率紙等がある

★ 古典的解析査読のために

正規性検定 normality test

正規性仮定した検定 → 正規性確認必要
H: f(x), N(μ, σ²)~f(x)
データ数多 = n (or k)大 → 棄却域狭くなる

→ nを妥当な線に置く問題 = 標本数問題

Kolomogorov-Smirnov test

コロモゴロフ-スミルノフ1標本検定 Kolmogorov-Smirnov one-sample test
理論分布からの予測頻度と比較
N(μ, σ²), μ = m, σ² = s² → m, s²を標本集団から求める
H: 母集団分布N(μ, s²) → 母数μ, σ²のm, s²を推定値としてよい

C₁, C₂, …, C_k → Total
f₁, f₂, …, f_k → N
H_i, p_i, X~N(m, s²) → Γ = (m - μ)/s~N(0, 1)
p_i = p(X ∈ x_i) = p(a_i-1 < X ≤ a_i)
= p{(a_i-1 - m)/s < T < (a_i - m)/s} = p{T < (a_i-1 - m)/s} - p{T < (a_i - m)/s}
この確率分布は正規性検定ではN(0, 1) → m_i = mp_i, χ²(df = k - 1 - s)

コロモゴロフ-スミルノフ-レリーフォス検定 Kolmogorov-Smirnov-Lelliefors test (K-S-L test) (n > 2000)

H: 標本は特定分布(理論的に仮定された)母集団から抽出
F_o(x): 理論分布関数(= レリーフォース確率 Lilliefors probability) ↔ S_n(x): 実験の相対累積度数
D_α = max|F_o(x) - S_n(x)|, P(D ≥ D_α) = α
Ex. N = 35, (P = 0.05) → D_α = 1.36/√N

ド・アゴスチノ-ピアソン検定 D'Agostino-Pearson test (D'Agostino,1986)

当人いわく、正規性検定として最も優れる
歪度と尖度から正規性を検定

シャピロ-ウィルク検定 Shapiro-Wilks test: 頻度分布

シャピロ-ウィルク統計量, W

シャピロ-フランシア検定 Shapiro-Francia test
ギアリの検定 Geary's test: 自己相関に関連

ギアリ統計量Geary, G

クラメール・フォンミーゼス検定 Cramer-von Mises test

多変量の正規性検定

オムニバス検定 (omnibus test, global test or overall test): 3群以上

標本数 sample number

標本数問題 → 標本数決定基準

α: 検定有意水準 Ex. 1%, 5%
β: 有意性を見逃す確率(通常10-20%)
s: ばらつきの大きさ
Δ: 予想される差(生物学的に検出する際に価値のある差)

1群あたり必要標本数, n = 2{z_α/2 + z_β}²SD/Δ², z_α/2

正規分布 α/2%点 (両側 → 2で割る), z_β: 正規分布β%点
t-value = Δ/√(s²/n + s²/n) = Δ/√(2/n), n → ∞ → f(t)~N(0, 1)

Ex. z_0.025 = 1.96, z_0.20 = 0.84

定量限界 (不検出): 定量下限 limit of detrmination

→ 分析で目的の定量(検定)可能最小量(値) = 通常SDのx倍

(浜田 1999)

外れ値(異常値) outlier

他因子から極端に離れた(Ex. Max, Min)要素

平均値に影響大 → 中央値・最頻値は殆んど(全く)影響なし

1. 異常値検出

異常値ない分布 → 平均値 ≈ メディアン, 歪度(N.d. = 0)・尖度(N.d. = 3)

a) 異常値棄却検定(外れ値検定) Ex. スミルノフ-グラブス検定
b) 箱ひげ図: 髭上下端を1.5 x IQRとする
c) クラスター分析: 大きく離れた枝 = 異常値の可能性

2. 異常値処置

データを安易に棄却しない → 外れ値生じた真の原因を突き止めるのが先決
a) 測定ミス → 再測定
b) 現実(生物学)的異常: 異常値存在明記(箱ヒゲ図) → 統計処理から除く
c) 現実値範囲内 – 観測値非正規分布の可能性 → ノンパラメトリック

正規分布から外れた標本検出法

外れ値検出 = 異常値棄却検定 rejection test (of outliers)

1. 観測値が本来非正規分布なら無意味
2. 値自体が異常値としての意味を持つ

ディクソン検定 Dixon's test: ディクソン統計量 Dixon statistic, τ, 25 > n > 3
ロスナー検定 Rosner's test: n > 25, two-sided。R static

R_i+1 = |x⁽ⁱ⁾ – m⁽ⁱ⁾|/s⁽ⁱ⁾

スミルノフ・グラブスの(棄却)検定 Smirnov-Grubbs' test (Grubbs' test)

H: ^∀x_i ∈ π_A~N(m, s) ⇔ K: Maxx_i or Minx_i ∈ π_B
(最大(小)値は外れ値) → αで片側検定(両側検定定義可)
→ t検定: Minx_iのT_iを求める: T_i = max|x_i - m|√s,

sは不偏分散(標本分散)

Ti < t → accept H = 最大(小)値は外れ値といえない

↔ Ti ≥ t → reject H = 最大(小)値は外れ値

Ex. 133, 134, 134, 134, 135, 135, 139, 140, 140, 140,
___141, 142, 142, 144, 144, 147, 147, 149, 150, 164

μ = 140,σ = 8, 正規母集団 → 20 標本抽出: 測定値中164を検定
m = 141.7, U = 55.0632

A. T20 = |164 – 141.7|/√55.0632 = 3.0052 > t_0.05 = 2.557

→ reject H = 164 = outlier

複数個: 1回に1外れ値検出 → 最大値を検定

→ 外れ値ならそれを除きn - 1個データで同様に検定(反復)

トンプソンの棄却検定 Thompson's test
ギッブスの棄却検定 Gibbs' test
増山の棄却限界 Masuyama's rejection limits (棄却限界 critical value)

拡張(正規分布以外)

分布に適合していないものを検出する (Ex. half-normal plot)

標準化(基準化) standardization

変数間関係単純化 Ex. 変数間の量に差 ⇒ 変数間比較可能
分布幅一定 – 集団間比較 Ex. 異なる単位の2測定値分布比較(z変換 → μ = 0, σ = 1、無単位)
正規分布(+ 他の標準分布)近似: (多)統計手法 = 正規分布仮定 ↔ 生データ: 正規分布と限らない

現象が正規分布仮定可能 → データ加工(標準化等)し正規分布仮定した検定

正規分布仮定できない(正規分布でも) → ノンパラメトリック検定

データ変換(再表現) data transformation

変量間で重み異なる Ex. 非正規分布 → 重み付け必要

Ex. 群集調査データ: 超優占種 → これに大きくデータ解析結果が依存する場合実施すべき

ボックス-コックス変換 Box-Cox transformation (Krebs 1999)

x' = (x^λ – 1)/λ (λ ≠ 0), or x' = log(x) (λ = 0)
λ = 1 → 無変換 no transformation
λ = 0.5 → ルート変換(平方根変換) square root transformation

x' = √(x + a), a = 0.5 良 (Bartlett 1936)
分布低値に偏る時有効

λ = -1: 分数変換 reciprocal transformation

x' = 1/(x + a), a = 0 or 1が多い
x' = (x – Min(x_i))/(Max(x_i) – Min(x_i)) → 上限・下限がある時有効

→ λ選択: 対数尤度関数, L = –(v/2)·log_es_T² + (λ – 1)(v/n)Σ(log_ex)

→ Max(L) [v: df = n – 1, s_T² = σ(x')]

得たλをそのまま採用せず、意味の明らかな近傍の値を採用すべき

(片)対数変換(semi-)logarithmic transformation

x' = ln(x + a), 通常 a = 0, 1 → 0値がある, x > 0
折り重ね対数変換: p' = ln√p – ln√(1 – p)

→ 比率データの両極を引き伸ばす

指数変換 exponential transformation

x' = ae^x
べき乗変換 power transformation: x' = x^a → Max(x_i)/Min(x_i) ≤ 20

アークサイン変換(逆正弦変換) arcsine transformation

= inverse sine, sin^-1 or angular
p' = arcsin√p

p: 比率 proportion → 値が0-1間で変動時のみ可能

フーリエ変換 Fourier and inverse Fourier transformation

→ backtransform – フーリエ変換の一種?
low frequencies, high frequencies, create band filtersで有効

分散安定化変換
還元 reduction: 処理treatmentで変数減少

Ex. シャノン-ヴィーナ多様性指数: 種数・均等度を1値で表現

対数変換 logarithmic transformation

1) 片対数変換 semi-logarithmic transformation
a) 従属変数: y = ae^bx ⇒

logy = loga + bx → Y = A + bx (線形式 x-logy平面で直線)

b = dY/dx = dlogy/dx = (dy/y)/dx → 時系列ならYの変化率となる

b) 独立変数

Law. Weber-Fechnerの法則: 同量の反応増加を起こすには刺激は同じ比率で増加させねばならない

2) 両対数変換 (≡ アロメトリー allometry): y = ax^b

今後の課題

1. 仮説生成型 Ex. データマイニング data mining

↔ 仮説検証型: 多くの統計解析

2. 探索的データ解析 exploratory data analysis, EDA

↔ 確認的データ解析

データ構造を探索的に探り出す = モデル構築以前の解析初期期に情報把握

抵抗性 = 抵抗性高い中央値使用
残差分析 → データ「ならし」やモデル適合ではなく潜在的パターン発見や再表現につながる点を重視
再表現(データ変換): データ構造探索使用
a) 単純関係
b) 安定分散
c) 確率分布 (Ex. 正規分布)近似(べき乗変換か比率変換)
– ノンパラメトリックと判断されることもある
d. 図示

勾配法 method of gradient – 最適化問題

推定論 estimates

母集団推定 population estimates: X ≡ 母集団分布

F(x, θ): θ, 母集団未知数 → 標本(x₁, x₂, … x_n)から推定

Def. 標本特性量: 母集団特性量: 母集団分布の何らかの特性を示す量

母平均 μ = E(X)___母分散 σ = V(X)
平均値統計量 X = 1/n·Σ_i=1ⁿX_i 分散 S = 1/n·Σ_i=1ⁿ(X_i – m)²

抽出母集団  E(X)  V(X)                            E(s²)                            V(s²)
無限母集団  μ        σ²/n                           (n – 1)n·σ²                   V(σ²)
有限母集団  μ       (N – n)/(N – 1)·σ²/n    N/(N – 1)·(n – 1)/n·σ²  V(s²)*

*: 複雑で実用性ない

Pr._1) E(m) = E{1/n·(X₁, X₂, … X_n)}

2) S² = 1/nΣX_i² – m² = 1/nΣX_i² – {1/nΣX_i}² = 1/nΣX_i² – 1/n²{ΣX_i}²

= 1/nΣX_i² – 1/n²{Σx_i² – Σ_{1≤i≤j≤n}X_iX_j}
= (n – 1)/n²ΣX_i² – 2/n²Σ_i<jX_iX_j

Cf. (a₁ + a₂ + … + a_n) = Σa_i² + 2Σ_1≤i<j≤nE(a_i)E(a_j)
∴ E(s²) = (n – 1)/n²·ΣE(X_i²) – (2/n²)·Σ_i<jE(X_i)E(X_i)

= (n – 1)/n·ΣE(X_i²) – 2/n²·[{n(n – 1)}/2]{E(X)}²
= (n – 1)/n·(E(X²) – E²(X)) = (n – 1)/n·σ²

Def. F(x), P(x₁, x₂, …, x_n), x_i fixed

→ F_n(x): 経験分布関数(標本分布関数) emprical distribution function

Pr. "大数の法則"よりtrivial
Th. グリベンコ-カンテリの定理: F_n(x)はF(x)に一様に概収束する

≡ lim_n→∞P(|F_n(x) – F(x)| > ^∃ε) = 0

Th. 大数の弱法則: m_n → μ確率収束: サンプル数↑ → 真の平均

X₁, X₂, …~f(μ, σ²), X₁ ⫫ X₂ ⫫ …, ^∀ε > 0
⇒ lim_n→∞P(|(X₁ + X₂ + … + X_n|/n - μ| ≥ ε) = 0

Pr. Y_n := (X₁, X₂, … X_n)/n → E[Y_n] = nμ/n = μ, V[Y_n] = nσ²/n² = σ²/n

P(|Y_n - μ| ≥ ε) ≤ σ²/(nε²) [チェビシェフの不等式]
n → ∞ ⇒ lim_n→∞P(|Y_n - μ| ≥ ε) = 0

良い推定の4条件

1) 一致性 consistency

Def. 一致推定量 consistent estimator

n十分大, lim_n→∞P(|θ_n^(X₁, X₂, … X_n) – θ| ≥ δ) = 0
→ θ_n^ = θ_n^(X₁, X₂, … X_n)
一般にE(θ_n^|θ) → θ, V(θ_n^|θ) → 0 → θ_n^は一致推定量となる

Pr. |θ_n^ – θ| ≤ |θ_n^ – E(θ_n^|θ)| + |E(θ_n^|θ) – θ|

^∃θ > 0 → P(|θ_n^ – θ| > δ) ≤ P(|θ_n^ – E(θ_n^|θ)| > (δ > |E(θ_n^|θ) – θ|))

≤ V(θ_n^|θ)/(δ - |E(θ_n^|θ)| – θ)² → 0 //

2) 効率(有効性, 最小分散性) efficiency

2推定量: E(S) = θ , E(T) = θ → 2推定量S, Tは共に不偏
Def. 効率: e(S; T) = V(S)/V(T) < 1 → SはTより効率がよい →

Def. 絶対効率: e(θ^) = V_θ/V(θ^|θ)

平均値の有効性 = データ分布重心 → 最小分散 → 母平均推定値として最も誤差小

利点: 統計学の中心根拠: 最尤性・不偏性に関係する推定理論の根幹
1) 理論的取扱容易: a) 各変量値同等に関与, b) 標準偏差(分散)最小
2) 計算楽

3) 十分性

Def. 十分統計量: あるパラメータに関する全情報を含む統計量

Ex. θ^ = θ^(X₁, X₂, …, X_n)

→ Def. 最適推定量: (1-3)を共に満たす推定量(Fisher)

→ 最尤法により求められる

4) 不偏性(不偏推定量) unbias

= 偏りがない
Def. 不偏推定量(不偏統計量) unbiased statistics (unbiased estimator)

未知母数θ ⇒ 統計量T = T(X₁, X₂, …, X_n)が存在しE(T) = θの時のθに対するT
Def'. E(θ^|θ) = θ + b(θ), b(θ): 推定量θ^の偏り, b(θ) = 0

→ θ^ ≡ 不偏推定量

Def. V(^∀θ^*|^∀θ) = V_θ ≤ V(θ^|θ), exist

→ θ^^* ≡ 一様最小分散不偏推定量

σ²未知, 2標本(X₁, X₂, …, X_m) (Y₁, Y₂, …, Y_n)

→ E{(Σ_i=1^m(X_i – m_x) + Σ_j=1ⁿ(Y_j – m_y))/(m + n – 2)} = σ²

Th. N(μ, σ²), E(X) = μ

→ (標本)平均値推定量(X)は母平均μに対する不偏統計量 → 点推定
不偏分散 unbiased variance, u = n/(n – 1)·s²

= n/(n – 1)·1/nΣ(X_i – m)² = 1/(n – 1)Σ(X_i – m)²

E(s²) = (n – 1)/n·s²はσ²に対する不偏統計量ではないが、E(u²)は、母分散σに対する不偏統計量

Def. 最良不偏推定量(最小分散不偏推定量) best unbiased estimator:

最もバラツキ小
V(θ^) = E((θ – θ^)²) → 最小 → 最良不偏推定量

Eq. (クラメール-)ラオの不等式(Rao's V): V[θ^(X)] ≥ {n·i(θ)}^-1

→ 有効推定量 efficient estaimator ≡ θ^(X)
フィッシャー情報量 Fisher information, i(θ) ≡ V_θ(∂l/∂θ),

∂l/∂θ ≡ スコア統計量 score statistic
→ V(T) ≥ i(θ)^-1

(Fisher 1936)

最尤法 maximum likelihood method, ML

点推定の具体的方法
Def. 尤度関数 likelihood function: L(θ) = f(x₁, x₂, …, x_n; θ)
→ θ: 最尤推定量 maximum likelihood estimator, m.l.e.
pdf f(x) = f(x₁; θ), f(x₂; θ) … (x_n; θ)のMax(L(θ))となるθ(固定値)求める
Def. 対数尤度関数 log-likelihood function, l = logL(θ) = Σ_i=1ⁿlogf(x_i; θ)
尤度関数は積 → 和の形(扱い楽)
最大対数尤度 maximum log-likelihood →

尤度方程式(最尤方程式): ∂logL(θ)/∂θ = Σ_i=1ⁿ∂logf(xⁱ; θ)/∂θ = 0

N(μ, σ²), θ(μ/σ²)より解θ求める → 偏微分

Ex. 成功 s = 6, 失敗 f = 4

→ 成功確率Pの尤度: l = (p)^s·(1 – p)^f = p⁶·(1 – p)⁴
対数をとる: 6logp + 4log(1 – p) → 偏微分 l = 0.6

十分統計量 sufficient statistic

Th. 分解定理(ハルモス-サベッジの判定条件)

統計量 θ^ = θ^(X₁, X₂, …, X_n)が十分統計量
→ ^N.C/S.C. f(x₁, x₂, …, x_n; θ) = g(θ^; θ)h(x₁, x₂, …, x_n)

Ex. 正規母集団N(μ, σ²): μ, N(μ, σ²)共に未知 → 最尤推定値を求める

pdf f(t) = L(μ, σ²) = 1/{(2π)^n/2·σ²}·e^{(–1/2σ²)Σ_i=1ⁿ(x_i – μ)²}
L(θ) = L(μ, σ²) = (n/2)·log(2π) – nlogσ – (1/2σ²)·Σ(x_i – μ)²
1/L·∂L/∂μ = 1/σ²·Σ_i=1ⁿ(x_i – μ)², 1/L·∂L/∂σ = -1/σ² + 1/σ³Σ_i=1ⁿ(xⁱ – μ)²
μ = m = 1/n·Σx_i, σ² = 1/n·Σ(x_i – m)²
Σ(m) = μのunbiased statisticsを除けばE(s) ≠ 0

一般命題: 十分統計量存在 → 最尤推定量は十分統計量に基づいた推定量
Pr. θ^ = θ^(X₁, X₂, …, X_n)は十分統計量, ハルモス-サベッジ判定条件

(X₁, X₂, …, X_n) 同時確率密度関数

→ f(x₁, x₂, …, x_n; θ) = g(θ^, θ)h(x₁, x₂, …, x_n)

θ^^* = θ^^*(x₁, x₂, …, x_n) → g(θ^, θ)最大, f最大 → θ^^*: 最尤推定量 //

Th. n十分大 → θ^^*~N(μ, σ²), or √(n/τ²(θ))·(θ_n^^* – θ)

≈ N(0, 1), τ²(θ) = E{[∂logf(X; θ)/∂θ]²}

Pr. S(x_i; θ) = ∂logf(x_i; θ)/∂θ, μ = 0, σ² = τ²(q)

CLT → 1/n·Σ(x_i; θ) ≈ N(0, τ²(θ)/n), n十分大

→ (θ_n^^* – θ) ≈ ΣS(x_i; θ) //

Def. 最小十分統計量 minimal sufficient statistic

完備性 completeness (v. 完備であるcomplete)

推定方式

パラメトリック推定 parametric estimation: 適当な統計量を選び標本値と標本分布法則からθを推定

信頼度(限界) conficence limit (危険率, 有意水準fiducal limit)
→ 検定力(推定幅) power: 効率の良さ
↔ 誤判別率 missclassfication rate

1. 点推定 point estimation

θ = θ₀ → ある1つの値がどの位の確率で当てはまるか

推定量 estimator (統計量), T = (X₁, X₂, …, X_n)
≡ 推定値 estimate (実現値) t = (x₁, x₂, …, x_n)
一つの母数に対し、点推定値としての標本統計量は複数あることがある
Ex. μ → m, M_o, M_e. σ²

→ V, U. p (母比率) → m/n (比率), ρ (母相関係数) → r, r_k, r_s

M-推定量 M-estimator: 位置中心推定のための標本平均値と中央値に頑健な最大尤度推定量

極値は、中央に近い値よりも少ない重み付け – データ: スソの長い対称分布、極値を持つ → M-推定量は平均値や中央値よりも良い推定値 (a-d: 標本適用重み付け法異なる)

AndrewのM推定量 (Andrewsのウェイブ推定量): 正弦曲線を使い標本重み決定
標本割当て重みに急激変化ない再降順推定量。絶対値がcより大きい標準化値には0の重みを与える
HuberのM推定量
HampelのM推定量 M-estimator: 3定数(a, b, c)で特長づくM推定量
絶対値 > cの標準化観測値に0の重み、(0, a)の値に1の重み、(a, b)と(b, c)に0からの距離に基づく重み
TukeyのM推定量 (Tukeyのバイウェイト推定量)
標準化値が4.685より大きい観測値に0の重み、他の全観測値には中心からの距離と反比例した重み

極値統計量 extreme value statistics: 独立同一分布の確率変数の最大値

2. 区間推定 interval estimation

[T₁, T₂], P(T₁ ≤ θ ≤ T₂) = 1 – α

≡ 信頼区間(係数) confidence interval (coefficient)
区間を設け精度を表わす(グラフ → エラーバーerror bar) ≈ 信頼領域 → パラメータ複数

θの条件

1) 信頼区間を得ようとするパラメータだけを含む = 他パラメータ含まない
2) 未知パラメータに無関係な分布

→ 2') 推定するパラメータだけに関係した分布

母平均値(μ)推定
正規母集団 normal population X₁, X₂, … X_n~N(μ, σ²), μの信頼区間
σ既知 → m~N(μ, σ²/n = 1) → (m – μ)~N(0, 1)
∴ α_0.05 → P(|m – μ| ≤ 1.96} = P(m – 1.96 < μ < m + 1.96)
σ未知 → t-分布(t-推定): m = 1/n·Σx_i, S² = 1/n·Σ(x_i – m)²
t = {√(n – 1)·(m – μ)}/S ~ t(n - 1)
∴ α_0.05 → P{-t_0.05 ≤ {√(n – 1)·(m – μ)}/s ≤ t_0.05} = 0.95
Ex. n = 10 (df = 9) → P(m – 2.262/3·s ≤ μ ≤ m +2.262/3·s)

∴ P(m – 2.262/3·s ≤ μ ≤ m +2.262/3·s)
Ex. t-推定による99%信頼区間:
P{m – 1.96·σ/√n ≤ μ ≤ m + 1.96·σ/√n},
[m – 1.96·σ/√n ≤ μ ≤ m + 1.96·σ/√n]
μの信頼区間 → 未知母数でも動かない
正規母集団 N(μ, σ₀²)の母分散σ²信頼区間
→ χ²乗分布: P(|s² – σ²| ≤ χ²_α)
μ既知 → σ² = Σ_i=1ⁿ(X_i – μ)²/χ₀²
μ未知, u = 不偏分散 → σ² = Σ_i=1ⁿ(X_i – m)²/χ₀² = (n – 1)U/χ₀²
母百分率(出現比率)信頼区間
(大標本large sample論的取扱) → 正規分布
n十分大(np > 5) → np^ ≈ N(np, npq) [≈: 標本数が増加すると成立]
P(|np^ – np| ≤ 2√{np(1 – p)}) = α, p := p^
→ P(|np^ – np| ≤ 2√{np^(1 – p^)}), pについて解く
(p^ - 2√{p(1 – p^)/n}, p^ + 2√{p(1 – p^)/n})
母百分率信頼区間
(精密標本論的取扱) → F-分布及び2項分布
x₁, x₂, …, x_nはP(X = 1) = p = 1 – P(X = 0)からの標本
p^ = 1/nΣ_i=1ⁿx_i, np^ ~ B(n, p), p: fixed
→ Σ_i=0^i₁–1_nC_i·pi(1 – p)^n–i ≤ α/2, Σ_i=i₂+1ⁿ_iC_n·pⁱ(1 – p)^n–i ≤ α/2
なる最大の自然数をi₁ = l(p), 最小の自然数をi₂ = u(p)
→ P(l(p)/n ≤ p^ ≤ u(p)/n) ≥ α

Q. 虫垂炎手術後ビタミンB1を与えた9人の患者のガスが出るまでの時間 = 8, 12, 13, 25, 26, 28, 28, 33, 34分。平均時間に対する95%信頼区間
Q. σ未知, n = 9, m = 1/n·Σx_i = 23, s = 9.55

∴ (m – s/√n, m + s/√n) ≈ (23 – 3.18, 23 + 3.18)

Q. 溶液pHを5回測定し7.92, 7.90, 7.94, 7.91, 7.93の結果を得た。真のpHに対する99%信頼限界を求めよ
A. σ未知, m = 7.92, s = 0.0158 ∴ (7.887, 7.952)

今後の課題

乱数試験 (確率化検定) randomization test

現象生起に偶然chance cuase的変動伴う → 確率的現象シミュレーション → 乱数使用
コンピュータ指向型統計的推測方法: 解析的導出を大量反復計算
→ 推定量標準誤差やバイアス(偏り)推定、信頼区間構成や仮説検定を行う
未知母集団分布を経験分布から推定 → 単純 → 柔軟性に富み広範囲の問題に適用可
解析的解を得るのが困難な多くの現実問題に対し数値的解を得られる → 応用: 共分散構造分析等

変動幅評価

サンプリングで得たサンプル異なれば、母集団特性に対する推定値も異なる

反復調査実験 → 結果が大きく変動 = 低精度 ↔ 結果があまり動かない = 高精度
→ データから調査実験・推定作業を反映させシミュレーションし調査・実験間結果の変動幅評価

1. ジャックナイフ法 jackknifief method

個々の1標本を除いた時の推定量変化を評価
(x₁, x₂, … x_n) → 推定量T_n(X₁, X₂, … X_n)

標本nの中から1つ除いた推定量 T_(i)(X₁, X₂, … X_n) (i = 1, 2, …, n)
Ex. n - 1個の標本を使いモデル構成し、残した1標本に対しモデル適用し結果判定。作業をn回実施

T_nの標準誤差 = √(n – 1)/n·Σ_i=1ⁿ(T_(i) – T_(·))², T_(·) = 1/n·Σ_i=1ⁿT_(i)

2. ブートストラップ(靴紐かけ)法 bootstrap method (Efron 1979)
法螺吹男爵が自分を吊るのに靴紐かけを引いた
分かりやすさと簡便さから現在はジャックナイフよりブートストラップの方を多用
標本集団(x₁, x₂, … x_n)からm(< n)個の標本をランダムにk回抽出したk個の偽標本集団 (通常2000回程度実行)
→ 平均偽標本集団統計量 → 統計量の性質を調べる
a. パラメトリックブートストラップ

推定された確率構造に従う乱数で標本生成 → 統計的仮説検定むき

b. ノンパラメトリックブートストラップ

繰り返しを許したデータ再抽出resamplingにより標本生成
構造に仮定を置かずデータ自身を母集団模型とみなす → 頑健な精度評価期待
再抽出により統計的仮説検定行う時は、データが帰無仮説に従わない可能性に配慮し、データが帰無仮説下での分布を反映させるよう工夫する必要 (Hall & Wilson 1991)

3. モンテカルロ法 Monte Carlo method (simulation)

カジノ(ギャンブル)で有名なモナコの都市名由来
実行: 現象に確率変数を含む形でモデル化 → 確率変数部分に乱数生成し系の振る舞いを解析
→ ベイズ推定に応用
モンテカルロ積分: 定積分値計算方法の1つ(総合検定overall test)
マルコフ連鎖モンテカルロ法 (Metrololis et al 1953)

クロス・バリデーション(交差妥当化, 相互検証法) cross-validation, CV

a. 折半法(ホールドアウト法) hold-out method = CV (s.s.)

標本をランダム2分割し一方をモデル構成(母数推定)
→ 得た母数モデルを他方データに適用しモデルの良さ検証
(N: 分割しても十分大)

b. ジャックナイフ法: 複数方法
c. ブートストラップ法

ベイズ統計 (Bayesian statistics)

ベイズ推定 Bayesian estimation or inference

θを確率変数として扱う
経験的ベイズ(手)法 empirical Bayes (or Baysian) procedure (= 古典的ベイズ法)
ハイパーパラメータ hyperparameter 推定法: 事前分布の主観性から推定結果信頼性に不安
→ 頑強性改善(Gelman et al 1995): 事前分布を超パラメータで表現 + これに分布導入
各ステップで尤度を比較し更新値取捨(複雑なモデルでも事後分布計算可能)

Ex. P(x₁, x₂, …, x_n), p(θ) → p(θ|X₁) → p(θ|X₂) → …

制限付最尤法 restricted maximum likelihood estimation
Bayesian

ギッブスサンプリング Gibbs sampling

条件付事後分布を利用し、同時事後分布からの確率標本を発生させる
マルコフ連鎖モンテカルロ法 (Markov chain Monte Carlo, MCMC)

複雑な多次元分布から乱数を発生させる方法
Ex. Metropolis-Hasting (MH)アルゴリズム
Ex. Simple component MHアルゴリズム
Ex. Gibbsサンプリング

受信者操作特性 (receiver operating characteristic, ROC)

信号処理の概念 → 観測された信号からあるものの存在を判定する際の基準となる特性

臨床検査等 → EBM(要曖昧さ回避)の基礎をなすものの一つ

ROC曲線

AUC (area under the curve)

多変量相関論 multivariate correlation

回帰分析: 独立変数 x ≥ 1 → 1従属変数yを説明

重回帰分析: 2つ以上の独立変数 – 変数増加に伴う問題
オーディネーション: 主成分分析(因子分析)、クラスター分析等

内挿(補間) interpolation ⇔ 外挿 extrapolation

→ 外挿は注意がいる Ex. 時系列分析

一般線形モデル general linear model

(SPSSのGLM, 通常GLMは一般化線形モデル)
= ANOVA + 重回帰分析 + ANCOVA
= 質的独立変数も扱える重回帰分析
Y = a + bX + ε

a, b: パラメータ, Y: 従属変数, X: 独立変数, ε: 誤差(正規分布)

回帰分析 lm: X = 連続変数
分散分析 anova: X = カテゴリ変数
共分散分析 ancova: X = 連続変数 + カテゴリ変数
→ Y = a + b₁X₁ + b₂X₂ + b₁₂X₁X₂

lm, anovaはancovaの特殊型と見ることができる

連結関数 link function
誤差構造 error structure (ランダム成分random component)
線形予測変量 linear predictor

二変量(2次元) bivariate/two-dimensional

相関 correlation: f(x, y) → y [xが知らされた時にyを推定]
x: 説明変数(変量) (独立変数) explanatory variable
y: 被説明変数(変量) (目的, 従属, 予測変数) dependent variable → 因果関係: 応答変数 response variable

2度数(次元)の度数分布(相関表)

(x, y) = (x₁, y₁), (x₂, y₂), …, (x_n, y_n) (n十分大でのn個の度数分布)

最小2乗直線 least square line

y = ax + b → 1次回帰(線型回帰、直線回帰) linear regression

= 単回帰 simple regression
a: 勾配 slope。b: 切片 intercept (定数項 constant term)

積和 cross product = Σ(xy) = Σ(x – m_x)·Σ(y – m_y)
y = ax + bの回りのyの分散, w = 1/n·Σ_i=1ⁿ{y_i – (a + bx_i)}² … (1)
min(w)なるa, b → ∂w/∂a = 0, ∂w/∂b = 0

→ 最小2乗法 method of least squares

∂w/∂b = 1/n·Σ_i=1ⁿ2{y_i – (a + bx_i)}(–1) = 0
∴ 1/n·Σ_i=1ⁿy_i – a(1/n·Σ_i=1ⁿx_i) – b = 0
m_x = 1/n·Σ_i=1ⁿx_i, m_y = 1/n·Σ_i=1ⁿy_i
∴ b = m_y – am_x … (2)
(2)を(1)に代入 w = 1/n·Σ_i=1ⁿ{(y_i – m_y) – a(x_i – m_x)}²
∂w/∂a = 1/n·Σ_i=1n2{(y_i – m_y) – a(x_i – m_x)}{–(x_i – m_x)} = 0 →
1/n·Σ_i=1ⁿ(x_i – m_x)(y_i – m_y) – a{1/n·Σ_i=1ⁿ(x_i – m_x)} = 0 … (3)
Def. xの分散, s_x² = 1/n·Σ_i=1ⁿ(x_i – m_x)
Def. yの分散, s_y² = 1/n·Σ_i=1ⁿ(y_i – m_y)
Def. xとyの共分散 covariance, s_xy = 1/n·Σ_i=1ⁿ(x_i – m_x)(y_i – m_y)

2変数関係の強さを表す一指標

(3)に代入 a = s_xy/s_x² … (4) ⇒ a, b ≡ 回帰係数 regression coefficient
(2)と(4)よりy = m_y + s_xy/s_x²(x – m_x)

⇒ Def. x上のyの回帰直線 ≡ 点(m_x, m_y)を通り傾きs_xy/s_x²の直線

直線の周りのy軸に平行な分散を最小化

= この直線に垂直な方向の分散ではない

→ 同様、y上のxの回帰直線も求められるが普通は同じ直線にならない

一般化最小2乗法 generalized least-squares method, GLS

一般化最小2乗推定量 GLS estimator

2段階最小2乗法 two-stage least-squares, TSLS

重みなし最小2乗法 unweighted least squares, ULS
重み付き(付け)最小2乗法 weighted least-squares method (WLS)

→ WLS回帰 WLS regression
重み付き最小2乗推定量 weighted least-squares estimator (WLS estimator)
一般重み付き最小2乗法 geleralized weighted least squares
対角重み付き最小2乗法 diagonally weighted least squares, DWLS
加重回帰 weighted regression
結合推定量 combined estimator

回帰分析 regression analysis

説明変数から被説明変数予測
Def. 相関係数 correlation coefficient, r ≡ ピアソンの積率相関係数
2変量散らばり度合
= 0次相関 zero-order correlations: 他全説明変数を無視した時の相関

Ex. Pearson, Spearman, Phi (φ)

r = 1/nΣ_i=1ⁿ{(x_i – m_x)/s_x}{(y_i – m_y)/s_y}

= {1/nΣ_i=1ⁿ(x_i – m_x)(y_i – m_y)}/(s_xs_y) = s_xy/(s_xs_y)

無名数(単位無) |r| ≤ 1

r = ±1 完全相関
r = 0 無相関 (直線傾向なし → "関係ない"という意味ではない)

Def. 決定係数 (寄与率) coefficient of determination, 0 ≤ r² ≤ 1

x(説明変数), y(目的変数)との2変量の間に直線的関係が見出せる時のみ用いる
実質的科学的考察においてのみ使用可能 → x, yの両関係に論理的意味があるものに限る

Def. xとyの共分散 covariance, s_xy

s_xy = 1/nΣ_i=1ⁿ(x_i – m_x)(y_i – m_y) = 1/nΣ_i=1ⁿx_iy_i – m_xm_y

Pr. 1/nΣ_i=1ⁿ(x_i – m_x)(y_i – m_y) = 1/nΣ_i=1ⁿ(x_iy_i – m_xy_i – x_im_y + m_xm_y)

= 1/nΣ_i=1ⁿx_iy_i – 1/nΣ_i=1ⁿm_xy_i – 1/nΣ_i=1ⁿx_im_y + 1/nΣ_i=1ⁿm_xm_y
= 1/nΣ_i=1ⁿx_iy_i – m_x(1/n)Σ_i=1ⁿy_i – m_y(1/n)Σ_i=1ⁿx_i + (1/n)n·m_xm_y
= 1/nΣ_i=1ⁿx_iy_i – m_xm_y – m_ym_x + m_xm_y //

u_i = (x_i – a)/h, v_i = (v_i – b)/h
r_xy = r_uv; (x_i, y_i) → (u_i, v_i) → m_u, m_v → r_uv (uとvの共分散)

回帰直線(線形回帰) linear regression

一方の変量から他変量の平均的値を推定
line

分散が異なっても同じ回帰直線が表れる → 推定誤差 error of estimation
→ 回帰直線の回りの分散

勾配異質性 heterogeneity in slope

散布図(相関図) correlation diagram, scatter plots (diagram)

2変量xとyの関連を示す図
s_y = 1/nΣ_i=1ⁿ[y_i – {y + r(s_y/s_x)(x_i – m_x}²]

= 1/nΣ_i=1ⁿ[(y_i – m_y) + r(s_y/s_x)(x_i – m_x)]² = s_y²(1 – r²)

s_y² ≥ 0 → 1 - r² ≥ 0 ∴ -1 ≤ r ≤ 1,
|r| = 1, sy² = 0: 全変量回帰直線上(完全相関) ⇔

r = 0, S_y² = s_y² = 0 ∴ y = m_y: y-x間関係推定不可能

Σ_i=1ⁿ(x_i – m_x)(y_i – m_y)

> 0: 正 positive, < 0: 負 negative, = 0: 無相関 no correlation

線形回帰 y = a₁ + b₁x, y = a₂ + b₂xのa, b間の有意差検定

a: 勾配の検定 testing slope (平行性の検定 test of homogeneity of slopes)
n = 2 (two samples): 回帰係数値(平均値)とその標準誤差を用いF検定
df = n₁ + n₂ – 4
F_s = (b₁ – b₂)²/{(Σx₁² + Σx₂²)·s_xy}

s_xy: 2グループの加重平均(標本数異なれば標準誤差を標準化)
s_xy = {(Σd²_yx)₁ + (Σd²_yx)₂}/df

→ 2本の回帰直線異なる → 傾斜, 高さ(切片), 誤差分散の3つの可能性
その各々について検定比較する必要
n ≥ 3: 回帰係数値の直接検定不可 → 共分散分析(ANCOVA)
y軸(従属変数)をx軸(連続変数)と種(名義変数)の2説明変数で要因分析
x軸と種間に相互作用 = x軸に伴うy軸の増加が種ごとに異なる → 傾きbに有意な種間差
相互作用なし: 分散分析構造模型から相互作用項除き、x軸に伴うy軸増加は種間で等しい仮定の元で検定をやり直す → 種間に有意差 = 切片aが種間で異なる
傾きに有意差 → 切片検定できない
ホランダーの検定 Hollander test for regression lines
回帰直線の平行性に関する推定と検定

回帰モデル regression model

= 一般回帰モデル general regression model

内生変数 endogenous variable: 分析が計算し作り出す値(1度は他変数の結果となる)
外生変数 exogenous variable: 一定値となる計算使用値(1度も他変数の結果とならない = 外から導入)
無関係変数: 分析に当てはまらない値(計算で取り扱わない)

y_i = β₀ + β₁x_i + ε_i (i = 1, 2, … n)

Def.: ε_i: 誤差項 error term (残差 residual) →

(Y_i – y_i) ≡ 予測誤差 error of prediction

条件: 1) ε_iΠε_j (i ≠j)

_2) ε_iの期待値(平均)は0
_3) ε_iの分散は全て等しい(一定)

系列相関 serial correlation: 目的変数独立ではない
→ 推定結果信頼には誤差項に系列相関なしが前提
0) 影響力係数: h_i = 1/n + (x_i – m_x)²/Σx² comb.

基準化された残差, d_yx/s = d_yx/(s_yx·√(1 – h_i))
hi (> 4/n)↑, d_yx/s↑ → 系列相関大

1) ダービン-ワトソン検定 Durbin-Watson test, D-W test

D-W比 Durbin-Watson ratio, DW = Σ(e_t – e_t–1)²/Σe_t²

線形モデル linear model

y = f(x) + ε → 理論的簡略さのため未知係数に関しよく使用される
変量間平均的関係から個々標本個体の変量間関係は逸脱

→ 関係不規則性を誤差項(ε)が集中代表

線形式: Y = a + bX [線形回帰] → Y = a + b₁X₁ + b₂X₂ [重回帰]
トービット分析: 打ち切りのある回帰モデル
分位回帰 quantile regression, Q-regression

従属変数全データではなく、ある一定範囲のデータ(分位)に絞り、それと説明変数との相関を見る。従属変数分布特定する必要なく幅広く利用可
単回帰モデル → 分位の取り方により推定パラメータ異なる

曲線回帰分析 cursive regression analysis

線形回帰に帰着できる
Def. リンク関数(連結関数) link function: 式変形し線形にする関数

多項回帰: Y = a + b₁X₁ + b₂X₂²

X₂² := Z → Y = a + b₁X₁ + b₂Z → 線形

指数曲線 exponential curve: Y = e^a+bX

対数変換 → lnY = a + bX → 線形
指数型減衰法則 y = a(b^-x) = a(e^-cx)

漸近回帰 asymptotic regression: f(α, β, ρ, x) = α + β(ρ^X)

(0 < ρ < 1, β < 0)
簡便法: 第2次近似で解(有効数字2-3桁) →

Mitscherlich則: y = a + b(ρx) = a + b(e^-cx)

修正指数 modification indices

非線型回帰分析 nonlinear regression analysis

現象に非線形関係(推定) → 線形回帰ではいけない
Ex. 線形対数モデル(対数線形モデル) log-linear model
Ex. 多次元分割表 multi-way (テスト要因 test factor)

非線型回帰モデル nonlinear regression model

回帰関数 regression function, y_i = f(α, β, γ, x_i) + e_i (i = 1, 2, … n)

f: regression function, α, β, γ: 母数
→ 回帰最小二乗法式: minΣ_i=1ⁿ[y_i – f(α, β, γ, x_i)]²
標準回帰係数 standardized partial regression coefficient: 独立、従属変数を標準化し算出する回帰係数
標準回帰重み standardized regression weights: 回帰による重み付け

平滑化(スムージング) smoothing

原データ系列のノイズnoiseをとり平滑化smoothingし宿約化する方法
移動平均 moving average (running mean), M_Ak
= 1/j·Σ_i=k-2/j^k+2/jx_i (k: 求める移動平均の項 j: 前後の項数)
荷重移動平均 weighted moving average: 近傍に荷重をかけた移動平均

Ex. 指数移動平均 exponential moving average

回帰(方程)式 regression equation

回帰分析で観測値(x, y)の分布を近似的に表す方程式
母回帰係数 population regression coefficient Ex. y = ax + bのa, b
⇔ 標本回帰係数
1) パラメトリック: スプライン回帰、Box-Cox変換等
a) 多項式回帰 polynomial regression: y = a + b₁x + b₂x² + … + b_nxⁿ

n = 2 → 2次多項式回帰: x2 → √x, logx, 1/x等を使うこともある

b) スプライン(区分多項式)関数 spline function

連続条件を満たしつつ接続した区分多項式(補完法)
近似関数: 滑らかな関数を局所的に近似 → 多項式利用(スプラインspline: 自在定規)
→ 大区間上で関数近似 → 多項式次数大

回避法: 近似区間を小区間に分け、各区間上で相対的に低い次数 lower order 多項式で近似 → 良好な次数 better order (同じ次数 same order) (3次が良く使われる)

2) 非パラメトリック
a) プリンシパル曲線 principal curves ⊂ 平滑化曲線

説明変量/目的変量区別不明確 → 外的基準ないデータに対し、一般的な曲線あてはめ手法少ない
→ 主成分分析等で得られた初期値 → [反復] 期待値ステップ
↔ 射影ステップ → 収束(= 計算終了)

射影ステップ: 各データ点から折線上の最近隣点を探索する必要
直接的方法探索: データ数N → N²オーダの計算量
最近隣点探索アルゴリズム: 曲線(折線)を2分木構造に割当て、2分木再帰的探索に帰着(効率的) (Hastie & Stuetzle 1989)

b) 局所回帰 locally weighted regression
= 局所的荷重をした平滑化 (LOWESS or LOESS)

c) カーネル平滑化: 確率密度関数生成使用曲線の形状を推定

変量関係の分布

Def. 同時確率(結合確率) joint probability: ある2事象同時生起確率, P(x, y)
Ex. サイコロを2回投げる: 1回目の実現値をa, 2回目の実現値をb

1) 1, 2回目共に1が出る確率 → P(a∩b) = P(a)P(b) = 1/6·1/6 = 1/36

Def. 周辺確率 marginal probability: 他事象に関わりなく1事象だけに起こる確率 (= 条件なし確率)

2) 1回目の目が1から6で2回目の目が1 → Σ_i=1⁶(1/6)·(1/6) = 1/6

Def. 同時分布(同時確率/結合確率/結合分布) joint (probability) distribution:

X = x₁, x₂, …, x_m, Y = y₁, y₂, …, y_n
離散型確率変数, P(^∃xi, ^∃y_j) := p_ij, (i = 1, 2, … , m, j = 1, 2, …, n)

^∀i, ^∀jについてp_ijの系列(p_ij)をXとYの同時分布 (→ 同時確率)

Σ_jP(X = x_i, Y = y_j) = P(X – x_i) = p_i → Xの周辺分布 marginal distribution (周辺確率)
Σ_iP(X = x_i, Y = y_j) = P(Y – y_j) = p_j → Yの周辺分布

確率分布としての性質より Σ_ip_i = Σ_jp_j = Σ_iΣ_jp_ij = 1

two variables

Def. X, Y continuous distribution, ^∃a, ^∃b, ^∃c, ^∃d

→ 同時確率密度関数: P(a ≤ X < b, c ≤ Y < d) = ∫_ab∫_cdf(x, y)dxdy
P(a ≤ X < b) = ∫_a^b∫_–∞^∞f(x, y)dxdy = ∫_a^bh(x)dx
→ Def. Xの周辺確率密度関数, h(x) = ∫–∞∞f(x, y)dy

2次元正規分布: [記号] N(μ₁, μ₂, σ₁², σ₂², ρ)

f(x, y) = 1/2πσ₁σ₂·√(1 – ρ²)·

exp[–1/2(1 – ρ²){((x – μ₁)/σ₁)² – 2ρ(x – μ₁)/σ₁)(y – μ₂)/σ₂)}]

Def. E(X) := μ₁, E(Y) := μ₂ → XとYの共分散 covariance , cov(X, Y)

cov(X, Y) = E{X – E(X)}{Y – E(Y)}

Cp. s_xy = 1/nΣ_i=1ⁿ(x_i – m_x)(y_i – m_y)

cov(X, Y): discrete = Σ_i=1ⁿ(x_i – μ₁)(y_i – μ₂)
________continuous = ∫_-∞^∞(x_i – μ₁)(y_i – μ₂)dx

Def. ρ(X, Y) = cov(X, Y)/(√V(X)·√V(Y)) → X-Y間の相関係数

(Cf. 級内相関 intraclass correlation)

Th. 共分散の性質

1) cov(X, Y) = E(XY) – E(X)E(Y)
2) XΠY → cov(X, Y) = 0

Pr. 1) cov(X, Y) = E{X - E(X)}{Y - E(Y)}

= E{XY - XE(Y) - E(X)Y + E(X)E(Y)}

___2) cov(X, Y) = E(XY) – E(X)E(Y)

= E(X)E(Y) – E(X)E(Y) = 0 [期待値の性質より]

確率楕円と信頼楕円 density ellipse and confidential ellipse

正規分布曲面 z:

z = φ(x, y) = 1/(2π√(1 – r²))·

exp{–(x² – 2rxy + y²)/(2(1 – r)²)}

r: correlation coefficient between x and y

→ μ_x = μ_y = 0, σ_x = σ_y = 1

max(z) = φ(0, 0) = 1/(2π√(1 – r²))

→ a) rによってzの最大値が決まる

z = ^∃c (0 < c ≤ 1/(2π√(1 – r²)))
→ c = φ(0, 0)·exp{–(x² – 2rxy + y²)/(2(1 – r²)}

x² – 2rxy + y² = –2(1 – r²)log{c/φ(0, 0)},
–2log{c/φ(0, 0)} = log{φ(0, 0)/c}–2 = k² ≥ 0
→ x² – 2rxy + y² = (1 – r²)k² → 確率楕円(等確率楕円)
(x, y) → (ξ, η),

x = ξcos(π/2) – ηsin(π/2) = 1/√2·(ξ – η),
y = ξcos(π/2) + ηsin(π/2) = 1/√2·(ξ + η)

→ (1 – r)ξ² + (1 – r)η² = (1 – r)k²
∴ ξ/(1 + r)² + η/(1 – r)² = 1 → 楕円の標準形
a = 1 + r, b = 1 – r → ξ/a² + η/b² = 1 → 扁平度, b/a = (1 – r)/(1 + r)

→ b) rから確率楕円扁平度定まる

→ a) b)より(確率)楕円確定 //
Def. 信頼度αの信頼楕円(集中楕円 ellipse of concentration)

x² – 2rxy + y² = (1 – r²)/k² → P((x, y) ∈ D) = α

∫∫_Dχ(x, y)dxdy = α, χ² := (x² – 2rxy + y²)/(1 – r²)

→ P(x² – 2rxy + y² ≤ (1 – r²)/k²) = P(χ² ≤ k²) = α

ポアソン回帰 poisson regression (event count model)

コックスの比例ハザードモデルと密接な関連

従属変数 = ポアソン変量
λ = exp(X^β)

ゼロ膨張ポアソン回帰 zero inflated poisson regression

zero inflation: 0になる原因が複数存在 → ポアソン分布で算出される理論値より0多くなる

→ 過(剰)分散 overdispersion の原因

1) Y = 0となる確率 → ロジスティック回帰 → P(y = 0) = p + (1 – p)·e^-λ
2) Y = kとなる確率 → P(y = k) = (1 – p)·e^-λ·λ^k/k!
3) pとλをモデル化

p: ロジスティック回帰 → logit(p) = Gr, or p = 1/(1 + e^-Gγ)
λ: ポアソン回帰 → log(λ) = Xβ, or l = exp(Xβ)
→ γ, βを最尤法(EM algorithm)で解く

(多)重回帰 multiple (linear) regression analysis

(岡田 1980)

1) 回帰平面方程式

回帰直線(2次元)を回帰平面(3次元)に拡張 f(x, y, z) = [(x, y) → z]
multiple

平面 z = ax + by + cの回りのzの分散, w

w (= s_x²·_xy) = 1/n·Σ_i=1ⁿ{z_i – (ax_i + by_i + c)}² … (1)

Min(a, b, c)が平面方程式の解

→ ∂w/∂a = 0, ∂w/∂b = 0, ∂w/∂c = 0 → a, b, c求まる

∂w/∂c = 1/nΣ_i=1ⁿ2{z_i – (ax_i + by_i + c)}( –1) – c = 0
m_x = 1/nΣ_i=1ⁿx_i, m_y= 1/nΣ_i=1ⁿy_i, m_z = 1/nΣ_i=1ⁿz_i
∴ c = m_z – am_x - bm_y … (2)
(2)を(1)に代入
w = 1/n·Σ_i=1ⁿ{(z_i – m_z) – a(x_i – m_x) – b(y_i – m_y)}²
∂w/∂a = 1/nΣ_i=1ⁿ2{(z_i – m_z) – a(x_i – m_x) – b(y_i – m_y)}{–(x_i – m_x)}
∂w/∂b = 1/nΣ_i=1ⁿ2{(z_i – m_z) – a(x_i – m_x) – b(y_i – m_y)}{–(y_i – m_y)}
分散: s_x² = 1/nΣ_i=1ⁿ(x_i – m_x)², s_y² = 1/nΣ_i=1ⁿ(y_i – m_y)²,

s_z² = 1/nΣ_i=1ⁿ(z_i – m_z)²

共分散: s_xy = s_yx = 1/nΣ_i=1ⁿ(x_i – m_x)(y_i – m_y),

___s_yz = s_zy = 1/nΣ_i=1n(y_i – m_y)(z_i – m_z),
___s_xz = s_zx = 1/nΣ_i=1ⁿ(z_i – m_z)(x_i – m_x)

∴ a·s_x² + b·s_xy = s_xz, a·s_yx + b·s_y² = s_yz
∴ a =

∴ z =

·y + c

⇒ (x, y)の上のzの回帰平面, or

z = m_z + a(x – m_x) + b(y – m_y)
→ 最良1次推定関数: 同様4次元以上にも拡張可能
→ > 3次元: 視覚的に理解しがたい(グラフ理論)

(Andrews 1972)

2) アンドリュース・プロット Andrews plot

3) 重回帰 (multiple regression)

y = b₁x₁ + b₂x₂ + … + b_nx_n + b₀

y: 回帰推定値
b₁, b₂, …, b₀: 重回帰係数 multiple regression coefficients

b₀: 誤差項

Def. r (重相関係数 multiple correlation coefficient)

= {Σ(y_i – m_y)(y_i^ - m_y)}/{√Σ(y_i – m_y)²Σ(yi^ - my)²}

Def.. 寄与率 proportion (決定係数), r²

= Σ(y_i^ – y_avg)²/√{Σ(y_i - y_avg)Σ(y_i^ – y_avg)}²
= √{Σ(y^ – y_avg)²/Σ(y_i – y_avg)²} = √(s_r/s_yy),

(⇒ Σ(y_i – y_avg)(y^ – y_avg) = Σ(y_i^ – y_avg)²)

r²/(1 – r²)·(n – p – 1)/p

= (s_r/s_yy)/[(s_yy – s_r)/s_yy]·(n – p – 1)/p
= (s_r/s_e)·(n – p – 1)/p
= (S_R/s²)/(S_e/s²)·(n – p – 1)/p
= (χ_p²/χ²_n–p–1)/(n – p – 1)/p = F_{p, n–p–1}

Def. r (偏相関係数 partial correlation coefficient), -1 ≤ r ≤ 1

Y_i: 実測値y_iをx₁を除くx₂, …, x_nからの予測値 predicted values

→ 予測誤差 prediction error, u_i = y_i – Y_i

X_1i: 実測値x_1iに対しx₂, … , x_nからの予測値

→ 予測誤差, v_i = x_1i – X_1i

→ 変量uとvの相関係数

= 「x₂, …, x_nの影響を除いたyとx₁の偏相関係数」(記号 r_y1·2…n)

→ 見かけ上の相関: 変量yとx₁間に本来相関関係ないが相関得られる
→ 隠れた変量 x₂: x₂ → x₁ → yなる関係

→ 見かけ上yとx₁の間に相関関係があるように見える

Ex. 小学校全学年児童: 身長(y)-成績(x₁)関係 → 「身長-成績間に正の相関」

変量年齢(x₂)を考え、この影響を除いた偏相関係数を計算すると身長-成績間相関は消える

Def. n次偏相関: n個の制御変数のときの偏相関

Ex. 1次偏相関 first-oder partial correlation, 単回帰 r = 0次
部分相関係数 part correlation coefficient
自由度調整済決定係数 adjusted R square, R²

= 1 – (S_E/(n – p – 1))/(S_T/(n – 1))
S_E: 残差変動
S_T: 全変動

残差分析: てこ(梃)比 leverage

重回帰と他解析との関係

説明変数 = 名義尺度 ≡ 分散分析や数量化I類
説明変数 = 名義尺度/計量尺度混在 ≡ 共分散分析
被説明変数 = 名義尺度 ≡ (線形)判別分析

多重共線性(マルチコ) multicollineality

共線性 collinearity: 複数点が同一線上に存在 → 線形回帰モデルに影響
説明変数多 → 残差平方和小 → 重相関係数大 /

→ 偏回帰係数の分散大 → 安定性少

説明変数↑ = モデル推定値と実測値の(重)相関係数↑
説明変数間に(強い)相関 → 回帰係数推定値の分散大きくなり変数推定結果不安定 (多重共線性)
Ex. y = a₁x₁ + a₂x₂ + a₃, x₂ = bx₁ [x₁-x₂に高い相関]

→ y = a₁x₁ + a₂(bx₁) + a₃ = (a₁ + a₂b)x₁ + a₃
→ a₁, a₂, a₃の3未知数を求めることは不可能 – 多重共線性がある

説明変数採択基準

1) 理論的基盤 → 独立変数選択
2) 探索的 Ex. 「総当たり法」、変数選択法

リッジ回帰ridge regression (RR)

多重共線性対処にリッジ回帰定数を組入れ回帰係数安定性高める
シュリンケージ法 shrinkage method: 回帰係数安定推定が通常最小2乗法で得られない時使用

定数(λ)を相関行列対角線に加え、相関行列は全対角要素を1に再標準化(非対角要素は定数で割る)
より安定した(が偏りある)推定値(β係数)計算するよう相関係数小さくする

Bとβの標準誤差が、標準回帰公式を用い計算できることに注意する

(Box & Jenkins 1976, Sokal & Rohlf 1995)

自己相関 autocorrelation

Def. 自己相関: k個観測値をずらしたときの自分自身との相関 self-similarity of variates adjacent in space or time

Case. 1次元(時間) → 前向き予測/後向き予測

Def. 自己回帰 autoregression: 自己相関を持つ系列を逐次的に決定する構造 – 通常回帰に還元
X(μ, σ) → 観測間隔tにおける値をX(t) (仮定: tは離散型整数値)
H: 確率変数X(t)は値X(t - 1)との間に二次元正規分布構造

→ 標準化 x(t) = (x(t) – μ)/σ ~ N(0, 1)

→ x(t) = r_k·x(t - 1) + u, u = z(1 - r_k²)^1/2, z ~ N(0, 1), tに独立
→ 一階自己回帰過程 autoregressive process 標準形
Def. 一期(一階)自己相関係数 autocorrelation coefficient, r_k: -1 ≤ r_k ≤ 1
観測されるX(t)について書き直す
(X(t) - μ)/σ = r_k[X(t - 1) - μ]/σ + u → X(t) = (1 - r_k)μ + r_k·X(t - 1) + σu
X(t) = (1 - r_k)μ + r_k·X(t - 1) + U, U = zσ(1 - r_k²)^1/2
Y = α + βX + U の特殊ケース

→ Y = X(t), X = X(t - 1), α = (1 - r_k)μ, β = r_k,

U = zσ(1 - r_k²)^1/2 ~ N(0, σ_U = σ(1 - r_k²)^1/2

→ r_k = β, μ = α/ (1 - β), σ = σ_U/(1 - β²)^1/2
→ α, β, σ_Uの標本推定値a, b, sよりr_k, μ, σが求められる

SE(r_k): 系列内移動平均系列次数がk - 1という仮定の下でr_kの標準誤差

SE(r_k) = √{(1/N)(1 + 2Σr_i²)}, i = 1, 2 …, k – 1 (N: 系列内の観測値数)
系列 = ホワイトノイズ(攪乱項) →

仮定: 全自己相関 = 0 → 標準誤差(rk) = √{(1/N)(N – k)/(N + 2)}

Def. ホワイトノイズ標準誤差: ボックス-リュングのQ, Box-Ljung static:

ラグkが与えられたときQ統計量

Q_k = n(n + 2)·Σ[r_i²/(n - l)] for i = 1 to k

観測値が十分多いとき → Q統計量: χ²(df = k – p - q)

p, qはそれぞれ自己回帰と移動平均パラメータ数

コクラン・オルコット法 Cochran-Orcutt method: 自己相関修正法
Def. 偏自己相関係数 partial autocorrelation, P^m
m次のP^mはt - 1次前向き予測誤差 ∈ f^m–1とt - 1次後向き予測誤差 ∈ b^m+1の相関係数
P^m = Σ_i=m^t–1∈f^m–1(i)∈b^m–1/√[Σ_i=m^t–1{∈f^m–1(i)}²{∈b^m–1(i)}²]

→ 線形予測係数と違いモデル次数に非依存な量

r_kと密接に関係しm次のP^mはm次自己回帰モデルのm次自己回帰係数a^m(m)かb^m(m)に一致
r_kやP^mはRの逆行列で求まるが1次モデルから次数を大きくする再帰的アルゴリズム(Levinson-Durbinアルゴリズム)で1次からm次までの全r_kとP^mをO(m²)計算量で高速計算できる
Ex. 音響特性: 声道断面積関数予測与える等の利点から音声信号処理利用

階層的重回帰分析 hierarchical multiple regression

重回帰で変数投入順序に階層性を持たせたもの - データの階層性を扱っているわけではない

生物検定 biological assay

回帰分析の応用 = 複数物質の生物活性を相対評価

量分反応 all or nothing response

→ 従属変数二値応答 (2値データbinary data) Ex. 生存・死亡
用量-反応曲線: 用量を横軸に反応を縦軸にとる曲線 → 単調増加曲線仮定
P(y = 1|x) = f(α + β₁x₁ + β₂x₂ + … + β_nx_n + u) = f(y^*)

y_i = 1 if y_i^* > 0, or 0 if y_i^* ≤ 0

P(y^* > 0) = P(β'x + u > 0) = P(u > -β'x) = 1 – f(-β'x) = f(β'x)

標準正規分布仮定 → f(y^*) = φ(y^*) → プロビットモデル
ロジスティック分布仮定 → f(y^*) = exp(y^*)/(1 + exp(y^*)) → ロジットモデル

係数の意味
E[y|x] = 0·[1 – f(y^*)] + 1·f(y^*) = f(y^*)
∂E[y|x]/∂x_j = ∂f(y^*)/∂x_j = (∂f(y^*)/∂y^*)·(∂y^*/∂x_j) = F(y^*)β_j (F(x): p.d.f.)
yの期待値に与える影響を知るにはF(y^*)を知る必要
→ x₁, x₂, …, x_nの水準に依存(他説明変数がとる値によっても異なる)

ロジットモデル logit model: 最尤法を用いたパラメータ推定

1. プロビット分析 probit analysis

プロビット曲線 probit curve: 反応率が用量の対数に対し正規分布累積確率(正規分布関数)関係をもつ曲線

= 対数正規モデル log-normal model: 対数正規確率紙に用量をx軸、P_bをy軸にプロット → 直線近似

プロビット変換 (probability unitの略) probit transformation: 不等分散性は除去されない

p = r/n → 正規分布%点 ≡ プロビット(P_b) → 5を加え使用(負値を扱わない, 慣例的)

Ex. 10匹中4匹死亡 → p = 0.4の正規分布%点 = -0.253 (+5 → 4.747) = プロビット probit 値

LD₅₀: p (死亡率) = 0.5の時の用量

2. ロジスティック回帰モデルlogistic regression model

= ロジット分析 logit analysis
p(x) = 1/(1 + e^-z), z = f(x) → L(p) = {1/(1 + e^z)}p{1/(1 + e^z)}^{(p – 1)}

f(x) = -(ax + b) → 多変量に拡張
f(x) = -(a + b₁x₁ + b₂x₂ + … + b_nx_n),

交互作用はb₁₂x₁x₂とし組込む

ロジスティック分布関数: p_i

= ∫_-∞^log₁₀d_i(e^{(x – μ)/τ}/(τ(e^{(x – μ)/τ})²)dx = e^{(log₁₀d_i – μ)/τ}/(1 + e^{(log₁₀d_i – μ)/τ})
pdf f(x) = e^{(x – μ)/τ}/(τ(1 + e^{(x – μ)/τ)2}), –∞ < x < +∞,

平均 = μ(–∞ < μ < +∞), 分散 = π²τ²/3

ロジット変換 (logistic unitの略) logit transformation: 2値データ変換に使用(正規性は決して表われない)

Def. 対数オッズ(= ロジットlogit), x' = log_e(p/(1 – p),

p = 観察比率, [p = 0, 1変換できない] → –∞ ≤ x' ≤ +∞

交絡因子をモデルに取りこみ変数の影響調整
Case 1. 2群(グループ) log(p/(1 – p)) = b₀ + b₁x₁
Case 2. 3群 log(p/1 – p)) = b₀ + b₁x₁ + b₂x₂
Case 3. 変量: 定量データ log(p/(1 – p)) = b₀ + b₁x₁
[x₁ = dose]

Def. 調整オッズ比 adjusted odds ratio: ロジスティック回帰で調整されたオッズ比 ↓利点

低事象発生なら相対リスクを近似
ケース対照研究とコホート研究は結果同
ロジスティック回帰と関連し数学的に扱い易い
対称性
(0 ≤ p ≤ 1) → 0 ≤ p/(1 – p) ≤ +∞

3. トービットモデル Tobit model

y^* = x'β + u
u~N(0, σ²)
y = max(0, y^*)
P(y = 0) = P(x'β + u ≤ 0)

= P(u ≤ -x'β)
= P(u/σ ≤ -x'β/σ)
= f(-x'β/σ)
= 1 – f(x'β/σ)

P(y > 0) = f(x'β/σ)
a) 途中打ち切り回帰モデル censored regression model

y_i^* = x'_iβ + u_i

y_i = (y_i* if y_i^* > 0, or 0 if y_i^* ≤ 0)

y_i（被説明変数）が観測されない(0の場合)でもx_i(説明変数)は観測される

b) 切断回帰モデル truncated regression model

y_i^* = x'_iβ + u_i, y_i = y_i^* (if y_i^* > 0)
y_iが観測されない(0の場合)とx_iも観測されない

4. Cochran-Armitage検定 Chochran-Armitage trend test

= Cochran-Armitageの(傾向)検定

外的基準が連続変数 → 各群の比率が外的基準と線形傾向があるかどうかを検定

量分反応 all or nothing response

計数値データ → 多値応答 Ex. 反応割合proportion reacting

(Walker & Buncan 1967, Truett et al. 1967)

多重ロジスティックモデル multiple logistic model

外的基準変数: 0/1型データ
→ 重回帰式予測値は負値や1以上の値をとり不適当
→ (2)式ロジスティックモデル適用 = ロジットを独立変数線形結合式で表す
ある事象発生確率, P(0 ≤ P ≤ 1) → P/(1 – P) = オッズ比。log(P/(1 – P)) = ロジット

log(P/(1 – P)) = b₀ + b₁X₁ + b₂X₂ + … + b_pX_p = λ … (1)
∴ P = 1/(1 + exp(–λ))

= 1/{1 + exp(–(b₀ + b₁X₁ + b₂X₂ + … + b_pX_p))} … (2)

b₀, b₁, b₂, …, b_pは最尤法で求める
係数決定 → 初期値必要: Truett-Cornfield判別係数を初期値とすると多くは解をもつ

a) 追跡調査データ分析に用い断面調査データ分析には使用不可

Ex. 現在の疾病状態をリスクファクタ(喫煙、飲酒習慣等)で説明するのはリスク曝露期間一定でなく誤り

b) 得たリスク予測は一定期間後のもの

Ex. 5年間追跡調査による予測は5年以前以後の予測と無関連。3年後予測にはデータ調整し(Ex. 4年後死亡は3年後では生存)再度分析

c) 各変数が予測にどの程度寄与しているかの判断 → 標準化係数を見る
d) 予測式は分析使用標本群で最適

→ 別群適用可能性不明
Ex. ある医療機関受療患者に適用可 → 別医療機関受療患者には不明
→ 予測式が他集団でも有用(交差妥当性を持つ)か検討すべき

e) 交差妥当性検証困難な場合 → 便法(折半法)により予測式有用性検討

対数用量反応(直)線 log dose response line

生存時間解析[生存解析(分析)] survival analysis

ある時点から事象eventが起こるまでの時間を分析
→ [必要情報(変数)] 事象発生の有無(打ち切り問題) + 事象発生時間
考慮: 事象発生は観測より以前である
特定対象: 基準時間(T₀) → 非可逆変化(死亡・発芽等)生起(T)必要時間

Ex. 術後再発時間(≈ 生存時間 s.s.)

評価指標(エンドポイント) end-point: 事象発生までの時間 time to event

→ 生存時間 survival time (s.l.)
P(T ≤ t): 時間tまでの非可逆的変化生起確率
→ Tの確率分布関数, F(t)

Ex. tまでの累積死亡割合 → pdf. T = f(t)
Ex. 時点tでの死亡率

打切 censor: 標本中に事象未発生標本がある時点で試験を止める

打切標本 censored data生存時間は、生存時間が打切り時間より長いという情報のみ = 正確生存時間未知
脱落標本 ≡ 追跡不能標本: 長時間追跡 → 打切・脱落多 → 過小評価 = 解析バイアス → 対処必要

Def. 競合リスク competing risk: 複数の事象において、ある事象が観測されると他の事象が観測されないこと

Ex. 「肺癌発症」と「心疾患による死亡」 → 片方の事象が発生するともう一方は観測されない

A) パラメトリックモデル

→ 正規分布仮定(成り立たないこと多)
生存関数 survival function, S(t) = Pr(T > t) = 1 – F(t) → tまでの生存確率

リスク集合 risk set: 時点t_iでの事象未発生数と発生数を含めた全体

ハザード関数 hazard function, λ(t) = f(t)/(1 – F(t)): 瞬間(発芽・死亡)発生率

寄与危険度 attributable proportion: 罹患率(死亡率等)の差。要因暴露による対象疾病の観察集団内変化量
作用特性曲線(動作特性曲線・検査特性曲線) operating characteristic curve, OC curve

生存時間モデル

指数分布 exponential
ワイブル分布 Weibull distribution
対数正規分布 lognormal

survival

B) ノンパラメトリックモデル

1. カプラン・マイヤーKaplan-Meier曲線, S(t)
= 積極限推定量 product limit estimator
各事象発生時点での生存時間推定値 → 打切発生時点特定できる時に使用
S(t) = (1 – d₁/n₁) × (1 – d₂/n₂) × … = Πti<t(1 – d_i/n_i), (Π product)

survival
t_i: 事象発生時間I
d_i: t_i時点事象発生数
n_i: t_i時点リスク集合サイズ(事象発生直前標本数)
リー・デス統計量 Lee-Desu statistic

2. コックス回帰 Cox regression
= (コックスの)比例ハザードモデル Cox's proportional hazards models
寿命データモデル life data model: 生存時間考慮し説明変数の生死への影響分析
ハザード比 hazard rate (Barlow 1996), h_r

=(期間単位時間あたり死亡数)/(期間中間点での生存ケース数)
→ セミパラメトリックなモデル
ワルド統計量 Wald statistic, W = β·(1/V(β))·β~χ²(W)

3. 生命表解析 life table analysis (生命表検定life table test)
官庁統計等大規模データ使用(Greenwood): 打切時点未詳の時利用
拡張: 単位時間毎に単位期間を越え生存する確率を求め積算し生存率求める
有効観察症例, N_i = L_i – w_i/2 (打切が期間の真中で起こった場合)

i: 時間i – 1とi間の期間
L_i: 期間i開始時点生存者数
d_i: 期間_i間死亡数
w_i: 期間中打切・脱落標本数

期間i生存率 p_i = 1 – d_i/N_i

→ 累積生存率 S_i = p₁ × p₂ × … × p_i
→ 累積生存率分散 V(S_i) = S_i²[Σ_i(d_i/(N_i·(N_i – d_i))]

2群間累積生存率の差の検定: A, B →

S_iA, S_iB, H: z₀ = |S_iA – S_iB|/√{V(S_iA) + V(S_iB)}~N(0, 1)
棄却限界比(棄却比) critical ratio, CR = 必要時間/使用可能時間

生存関数検定

= ノンパラメトリック [必要条件]

ログランク検定 log-rank test

= Cox-Mantel-Haenszel test, Peto-Peto test
2本の生存曲線(f(t), g(t))を比較

H₀: f(t) = g(t)
初期生起事象を重く評価 - 比例ハザード性の下で検出力高

生存率曲線の差の検定 test for equality-of-survival function

M-H test: 個々の生存時間で2 × 2表作成

→ 結合し全体生存カーブ有意差検討

ブレスロー-デイ検定 Breslow-Day test: n個の2 × 2分割表の解析

タローン・ウェア検定 Tarone-Ware test

階層データ

一般化ウィルコクソン検定 generalized Wilcoxon test

後期生起事象を重く評価 (Mantel 1967)

打ち切り例のない場合 → Wilcoxon検定 → 拡張

固定効果fixed effectと変量効果random effect

Ex. 携帯における送信メール文字数は送る相手の親密度、送信者により変化

「あなた」が「親しい友人」に「明日の予定を聞く」場合でも状況によりメール長は異なる

→ データ(送信メール長) = 複数効果 + 相互作用 + 誤差

2種類の効果 = 固定効果 fixed effect + 変量効果 random effect

固定効果 fixed effect: その因子に対し有限個の水準を想定し、それらは研究で評価したい全ての水準を含む

Ex. 性差: 男女という有限個(2個)水準 = 固定 (固定効果真値は定数)

変量効果 random effect: その因子に対し無限個の水準(水準の母集団)想定

→ 研究で検討する水準は母集団からの標本
Ex. 被験者効果 = 被験者水準はA, B, Cさん → 被験者となりうる集団から選ばれた標本
→ 興味 = 被験者全体での効果のばらつき ≠ A/B/Cさん
変量効果の真値は確率変数と考えられ、正規分布に従うとされる

Ex. 次同実験調査時に変わらない = 固定効果 ⇔ 変わる = 変量効果

性差実験: 性別は全実験で男女両方採る(= 固定効果)が、被験者は(経時データでない限り)異なる(= 変量効果)

Ex. 関心個々人 = 対象特定の人 → 被験者効果 = 固定効果 ≠ 変量効果

⇒ 固定か変量かは解釈で決まる = 決まっているものではない

今後の課題

一般的総説: 複数文献紹介し特定結論提示 – 客観性乏しく意見止まり多

[バイアス = 独断偏見] 他研究者が同文献参考 ×同結論となる保証なし

系統的総説(概説) overview: [原則] 別研究者が同手続きをとれば殆ど同結論を得られる客観性の高い総説

明確な目標、文献選択方針、それらの質の評価システム、結果を結合する客観的方法が必要

時系列分析 time series analysis

時系列が与えられた場合の変量について分析 =
時系列time series: 変量(= 時系列データtime series data)を時間順に並べたもので、ある変量の時間的推移
経時測定データ repeated measurement or measures
時系列表示 (Malinvaud 1970)

時間軸 time profileグラフ
コレログラム correlogram
ピリオドグラム periodogram → 洗練されたもの = スペクトル分析

1. 時系列データの時間要素に関わる特性の分析全般 (s.l.)

定常過程 stationary process: 平均値 → 測定時間伸ばすと徐々に安定
定常時系列 stationary series, Pr(t)

定常性 stationary → 時間により決定 – 大変動伴うものに適用不可
↔ 非定常時系列 nonstationary series: 非定常法 nonstationary

a) 等差級数法 arithmetic progression: y_n = y₀ + nr, r = (y₀ - y_t)/t (r: 定数)
b) 等比級数法 geometric progression: y_n = y₀(1 + r)ⁿ, r = ^t√(y₀/y_t) – 1
c) 放物線: y = at^b, or logy = loga + blogt → Y = A + bT: 一次式に還元
d) 修正指数曲線: y = K - ab^t, or log(K - y) = loga + tlogb
e) ロジスティック曲線 logistic curve:

y_t = K/(1 + me^at), or 1/y_t = 1/K + m/K·e^-at
→ y_t' = k + AB^t, k = 1/n[Σy_t' - (B_n - 1)/(B - 1)A]

f) ゴンペルツ式 Gompertz curves:

Ex. x = 年齢 vs y = 死亡率の対数 → 成人後は直線関係
⇒ logm(t) = A₀G_t + M₀

m(t) = 年齢tでの死亡率, A₀ = 傾き, G_t = 年齢,
M₀ = 初期死亡率(0歳の仮想死亡率)

2. スペクトル分析 spectrum or spectral analysis (s.s.)

時間の遅れ(ラグ lag)の検討が必要 → 交差相関cross correlation
時系列データと時間変動の特性
循環変動と固有値解析

不規則変動と時系列モデル

不規則変動解析 → スペクトル解析と相関分析が応用された

スペクトル解析: 不規則変動を各周波数の合成波と考え、各周波数成分の重要度等を分析
相関分析: y(t)に周期的要因有

→ y(t)とy(t – m)間相関を調べ検出
→ y(t), y(t – 1) … 結びつき示せる

→ スペクトル解析と相関分析はフーリエ変換を通じ相互に等価

変動特性解析 trend analysis

傾向変動(トレンド, 趨勢変動) trend, T: 時系列の長期的傾向
循環変動 cycle, C: トレンドの周りの周期的変動
季節変動 seasonality, seasonal variation, S: 1年単位の変動
季節調整法 seasonal adjustment
不規則変動 irregularity, random variation, I: 不確定事象

時間的変動をX(t)とすると変動は加法的か乗法的に表わせる

加法: X(t) = T(t) + C(t) + S(t) + I(t)

⇑ 循環変動、季節変動は一定

乗法: X(t) = T(t) × C(t) × S(t) × I(t)

⇑ トレンド推移に伴って循環変動、季節変動は変化 - 一般的

0) トレンド分析 trend analysis

トレンド関数 trend function: 単調傾向 monotonic trend
→ 陽性トレンド(指向性) positive trend

a) α + βt: 線形トレンド linear trend
b) αe^βt: 指数トレンド → 指数平滑化法 exponetial smoothing
c) K/(1 + αe^-βt): ロジスティックトレンド
時系列Y(t)標本データ使用

→ Y(t)を(離散的)時刻tで回帰分析
→ トレンド得られる

Ex. y_i = at_i + a₀ + ε_i, i = 1, 2, …, n (a₀: 平均値, ε_i: 誤差時系列)

単純モデル → y = f(t): 線形関数(非線形関数使用もある)

トレンド分析は比較的単純な分析から得られる
→ 予測時点が分析期間から離れると予測精度に問題が生じる
→ 長期分析期間に対してのトレンド分析でなければ、そのトレンド値使用は十分注意必要

テクニカル分析・罫線分析: 局所的最大(小)値予測に関心ある場合、極値のみを使用しトレンド分析

t: 期、(b₁ … b_p), (b₁ … b_q): パラメータ, u: ホワイトノイズ white noise →
1) 自己回帰モデル auto-regressive model, AR model, AR(p)

分析対象時系列Y(t)が循環的変動する場合は、直線的トレンド分析は明らかに不適当
→ 移動平均分析有効(循環的でも周期は不規則 → 分析に工夫必要)
Y_t = a + b₁Y_t–1 + b₂Y_t–2 + … + b_pY_t–p + u_t

2) 移動平均モデル moving average model, MA model, MA(q)

Y_t = μ + u + b₁u_t–1 + b₂u_t–2 + … + b_qu_t–q

3) 混合モデル
a) 自己回帰移動平均モデル
= autoregressive moving average, ARMA

ARMA(p, q)
ARとMAの混合タイプモデル – 時系列解析典型モデル

b) 自己回帰和分移動平均モデル
= autoregressive integrated moving average, ARIMA

ARIMA(p, d, q)
= ボックス・ジェンキンス法 Box-Jenkins method (Box & Jenkins 1976)

c) 自己回帰条件付き分散モデル
= autoregressive conditional heteroscedasticity, ARCH
d)一般化自己回帰条件付き分散モデル
= generalized autoregressive conditional heteroscedasticity, GARCH

他に扱う変数を多変量に拡張したモデル vector autoregressive, VAR等

トレンド検定(傾向検定) trend test: 時間経過(暴露量増加)に伴う反応変化を検定
自己共分散:
プライス・ウィンステン法 Prais-Winsten method (Prais & Winsten 1954): 時系列データ自己相関修正法
コックス・スチュアート検定 Cox and Stuart's test: トレンド解析に用いる

ゆらぎ fluctuation

Def. ある量(Ex. エネルギー、密度)の平均値からの変動

二乗平均ゆらぎ (= 分散)

分類: スペクトル密度(パワースペクトル密度 power spectral density)による

1/f⁰ゆらぎ(→ ホワイトノイズ): 完全にランダムで予測不能
1/fゆらぎ(→ ピンクノイズ): 中間的
1/f²ゆらぎ(→ ブラウンノイズ): 一つ前の値を起点としたランダム変動

モデル選択 (model selection)

変数選択法: 最良予測変数 best predictor を選ぶ方法 (オッカムの剃刀)

変数増加法 forward selection method: 最予測有効独立変数Max(r)を回帰式に入れる → 残り独立変数中最も予測有効な独立変数を入れる。予測精度改善が一定限度以上の間反復
変数減少法 backward elimination method: 最初に全独立変数を含む重回帰式作成 → 予測に有効でない独立変数を除去。予測精度低下が一定限度以内である間この操作を反復
変数増減法 stepwise method: 重回帰式に入れた独立変数を除去しないと後の段階に入れた独立変数の重要性が低くなる事がある。変数増減法は各段階で変数追加後、除去すべき独立変数をチェックする
変数減増法: 全独立変数を含む重回帰式を作り、続いて既に重回帰式に入れている独立変数中から最も予測に有効でない独立変数を除き、入れていない独立変数中に取り入れるべきものがないかチェックする

0) ステップワイズ法 stepwise method

F-値 (F-value) → 独立変数追加・除去基準: 各変数偏F値によるF_in，F_out

→ 有意確率換算 P_in，P_out
変数選択時の統計的有意性(各変数貢献度)を表す: 各独立変数偏回帰係数の有意性検定と関連

H₀: 重回帰式が含む全独立変数の偏回帰係数が0 → P_in = P_out = α

→ 有意水準α%で棄却
F値 > F_in値: 投入による残差平方和減少分を残差分散で割った統計量

→ モデルに変数加える

F値 < F_out値: それぞれの変数のt値を2乗した統計量

→ モデルから変数削除

経験的には、どちらも2.0にするのが良い
変数増加法 = F_inのみ使用(F_out不要), 変数減少法 = F_outのみ使用

F_out < F_in可能 ↔ F_in < F_out不可能 ∵ 中間のF値を持つ変数は、その変数はF_inより大きいから投入されF_outより小さいので除去されループから出ない
Def. 報量基準 information criterion: モデル良否の指標

1) 赤池情報量基準 AIC method (Akaike’s information criterion)

モデル相対評価 → 真のモデルを当てるものではない
AIC = –2·log_ea^ + 2p,

log_ea^: 最大対数尤度
p: 自由パラメータ数 (測定誤差a^が既知か未知かでa^値算出法違う)

Def. 逸脱度 deviance, D = -2log_ea^

D = null model → 最大逸脱度 ⇔ D = full model → 最小逸脱度

a^2↓ [モデルのデータへの当てはまりのよさ] → AIC↓
p↑ [モデルの複雑さ] → AIC↑

∴ log_ea^とpのバランスでよりよいモデル決まる
AIC使用範囲は、経験的には説明変数数がデータ数の半分程度まで

a) MDL, minimum description length, MDL = –a^ + (p/2)·logn
b) シーピー統計量 Cp statistic (Mallows's Cp statistic)

Cp = S^e/σ² + 2(p + 1) – n: 小 → 良いモデル

c) ベイズ情報量基準 Bayesian Information Criterion, BIC
= シュワルツのベイズ情報量基準 Schwarz's Bayesian Information Criterion (1978)
BIC = -2·loga^ + logn·p, n: サンプル数

BIC↓ ⇒ モデル適合度↑ (AICと同じ)

AICと比較: 選択は一致性

標本数多 → 真の次数に近づく + 母数少ないモデル選択傾向

2) 予測平方和 predicted sum of square, PSS

PSS = Σ_i=1ⁿ(e_i/(1 – c)): 小 → 良いモデル

c: 関数hatによって計算されるモデルの変数で回帰した時のレベレッジ
e_i: 残差
レベレッジ(梃比) leverage, c: 各標本の回帰に対する影響度

外れ値 → 回帰直線が外れ値にひきずられ、この外れ値の残差が小さくなることがある → cにより、全体に過大な影響を与えるサンプルを検出 = cが大きいものは影響度も大きい
1/cは「そのサンプルの予測値推定に実質的に使用したサンプル数」とも考えらる。Ex. レベレッジ = 0.9のサンプルでは、そのサンプルの予測値はそのサンプル自身でほとんど決定されている

3) カルバック-ライブラー情報量 Kullback-Leibler information

= K-L情報量, カルバック情報量
真の確率分布密度p(y)と推定確率分布密度q(y)のずれ → p(y)からq(y)分布が得られる確率の逆数
I(p, q) = ∫p(y)·ln(p(y)/q(y))dy = Σ_i=1ⁿp(y_i)ln(p(y_i)/q(y_i))

→ I(p, q) ≥ 0, p(y) = q(y) → I(p, q) = 0

–I(p, q) ≡ 負のエントロピー
Ex. 勝率予想: ある球団の勝つ確率

予測A = 7割: p_A = (0.7, 0.3) ↔ 予測B = 5割: p_B = (0.5, 0.5)

→ 実際の結果 = 勝率6割: q = (0.6, 0.4)

I(q, p_A) = 0.6ln(0.6/0.7) + 0.4ln(0.4/0.3) = 0.0226
I(q, p_B) = 0.6ln(0.6/0.5) + 0.4ln(0.4/0.5) = 0.0201
→ Bの予測の方が(わずかに)良い

Def. シャノンのエントロピー, H(q)

= Σ_i=1ⁿq_ilog(1/q_i) = H(p₀) – I(q, p₀), H(p₀) = logn,

p₀ = (1/n, …, 1/n)

I(p, q) = Σ_i=1ⁿp(y_i)ln(p(y_i)/q(y_i)) = Σ_i=1ⁿp(y_i)lnp(y_i) –Σ_i=1ⁿp(y_i)lnq(y_i)

第1項は定数となる → 第2項を大きくするモデルが良い
Def. 平均対数尤度, l^*(q) = nΣi=1np(yi)lnq(yi)

4) minimum description length, MDL

データを最も圧縮できるモデルが最良

5) cross validation (別掲)

6) final prediction error, FPE

拡張線形回帰分析 (extended linear regression model)

一般化線形モデル (generalized linear model, GLM)

Y = a + bX → 独立変数の質問わない [ただし線形]
Y ~ P(f(X)) → 指数関数族確率分布(正規分布・2項分布・ポアソン分布等)のバラツキを見る

連続型因子(変数)に拡張可 → 実験計画内に共変量とし取り込む

最尤推定によりパラメータ決定

過分散 overdispersion

分散変数 dispersion parameter, φ: 確率分布ごとに想定された値

Ex. 正規分布 φ = σ², 二項分布/ポアソン分布 φ = 1

一般化線形混合モデル (generalized linear mixed model, GLMM)

GLMにおいて変量効果 random effect を考慮
変量効果 → 擬似反復 pseudo-replication 避けられる
Ex. 個体A = 10データ + 個体B = 5データ → 15個プールした分析は誤り(データ独立性保たれない)
→ 個体 = ランダム要因 → 個体差を統制した上で固定効果調べられる

演習 (practice)

N(0, 1), ∫₀^2.45φ(t)dt = 0.492 (df = 9)の分布で∫_-2.26^2.26φ(t)dt = 0.95。φ(t) → その分布の確率密度関数pdf
1) 銅貨を100回投げる時、表の出る確率をXとする。X/100の平均値と標準偏差を求めよ。
表の出る確率 p = 1/2 裏の出る確率 q =1/2, X~B(100, 1/2)

∴ E(X) = np = 100·1/2 = 50, V(X) = nqp = 100･1/2･1/2 = 25
E(X/100) = E(X)/100 = 0.5 (回) V(X/100) = (1/100)²V(X)
SD = √(V(X/100)) = 0.05

2) 300人の「統計学」成績分布~N(75, 15²) → 上位60人を「優」 → 何点以上が「優」。(∫₀^0.84(1/√(2π)·e^{-t^2/2}dt = 0.3)

P(x ≥ x₀) = P{t ≥ (x₀ - 75)/15} = 0.2
→ P{t ≥ (x₀ - 75)/15} = 0.5 - P{0 ≤ t ≤ (x₀ - 75)/15} = 0.5 - 0.2 = 0.3
条件より、P(0 ≤ t ≤ 0.84) = 0.3 ∴ (x₀ - 75)/15 = 0.84 → x₀ = 87.6
→ 88点で優

3) X₁, X₂ … が互いに独立。X_i~N(0, 1), Y_n² := X'₁² + X'₂² + … + X'_n² →
lim_n→p{Y_n² ≤ n + √(2nx) = 1/√(2π)} = 1/√(2π) ∫_-∞x^{et^2/2}dt 成立を中心極限定理から示せ(E(X_i⁴) = 3は既知)
X_i~N(0,1) → E(X_i) = 0, V(X_i) = 1, V(X_i) = E(X_i²) - E(X_i)² ⇒
E(Y_n²) = E(X₁² + X₂² + …+ X_n²) = E(X₁²) + E(X₂²) + … + E(X_n²) = n
V(Y_n²) = V(X₁² + X₂² + … + X_n²)

= V(X₁²) + V(X₂²)+ … + V(X_n²) = 3 - 1 … (1)

中心極限定理によりY_n² ≈ N(n, 2n), or (Y_n² - n)/ √2n ≈ N(0, 1)
∴ lim_n→∞{Y ≤ n + √(2nx)} = lim_n→∞{(Y_n - n)/√(2nx) ≤ x}

≈ ∫_-∞^xφ(t)dt = 1/√(2π)∫_-∞^xe^{-t^2/2}dt

4) 一様分布U(α, β)に従う確率変数Xの平均値E(X)と分散σ²(X)を求めよ From def., E(X) = ∫_-∞^∞xf(x)dx = ∫_α^β[1/(β - α)]xdx

= 1/(β - α)·∫_α^βxdx = (β² - α²)/[2·(β - α)] = (β - α)/2

E(X²) = ∫_-∞^∞x²f(x)dx = ∫_α^β[1/(β - α)]x2dx = (β³ - α³)/[3·(β - α)]

= 1/3·(α² + αβ + β²)

σ²(X) = E(X²) - E(X²) = (α² + αβ + β²)/3 - [(α + β)/²]2 = 1/12·(β - α)²
5) 連続的変量値を測定し整数位まで測定値が得られた時、測定値はU(-0.5, 0.5)に従う測定誤差が伴うとする。測定を50回行い合計算出時、その合計値に伴う誤差(e_i)の絶対値が5を越す確率を中心極限定理から求めよ。50個の誤差を表わす確率度数は互いに独立
e_i = X₁, X₂, …, X₅₀, S = X₁ + X₂ + … + X₅₀ → E(X_i) = 0, σ²(X_i) = 1/12 ∴ E(S) = 0, σ²(S) = 1/12·50 = 25/6
CLT → (S - E(S))/σ²(S) = (√6)/5 ≈ N(0, 1)
P{S ≤ 5} = P{-5 ≤ S ≤ 5} = P{-5·(√6)/5 ≤ (√6)/5S ≤ 5·(√6)/5}

= P{√6 ≤ (√6)/5S ≤ √6} ≈ 2∫₀^{√6 ≈ 2.45}φ(t)dt
= 2 × 0.472 = 0.984 ∴ P{|S| > 5} = 1 -0.984 = 0.016

6) 従来型電気炉で製造したカーバイドのアセチレン発生量平均値 = 15 l/kg

新型電気炉を設置し製造したカーバイドについてアセチレン発生量調査
16, 16, 17, 14, 13, 15, 19, 18, 15, 17 l/kg
→ 新炉製造カーバイドはアセチレン発生量が多いか

m = 1/10·(0 +0 +1 +(-2) -3 -1 +3 -2 -1 +1) = 0 ∴ m = 16
σ² = 1/10·Σ_i=1¹⁰(x_i - 16)² = 1/10·(0 +0 +1 +4 +9 +1 +9 +4 +1 +1) = 3
H: μ = 15 → df = 10 -1 = 9 (one-sided)

D_0.05 = p{|t| > 2.26} = 1 -∫_-2.26^2.26φ(t)dt = 0.25
∴ D = (-∞, -2.26)∪(2.26, ∞)

t = [√(10 -1)·(16 -15)]/√3 = √3 ≈ 1.732 ∉ D ∵ t = [√(n -1) × m -μ₀]/S
→ Accept H (= 多いといえない)

修士課程生態環境科学専攻入試問題(1996)

General statistics (一般統計学)

1. 以下の検定は差と傾向のどちらの検定に用いられるか

a. 分散分析. b. カイ二乗検定. c. 回帰. d. マンホイットニーのU検定

2. ある研究者が、スズメの雛が親から餌をもらう回数と体重増加の関係を調べた。その結果、雛が親から餌をもらう回数と体重増加には有意な正の相関があることを発見した(r²= +0.624, n = 122, P < 0.01)。このことからどのような結論が導けるか。
3. 下図a)およびb)の結果から、(1)-(2)の考察が導かれた。これらの検定手法および考察は正しいか。また、誤っている場合には、その理由を述べよ。

regression
(1) a)の結果より、薬物投与量が増加すれば死亡率は低下することが示唆された。
(2) b)の結果より、失業率が15%を超えると人口当り犯罪発生率は0.1%以上になると考えられる。

4. 以下の点を調査したい。あなたなら、どのようなデータ採集および解析を行いますか。a-cの中から一つ選び説明しなさい。解答には必ず、調査あるいは実験計画、およびその結果の検定法を述べること。つねに、研究には予算の上限があることを考慮に入れて計画を立てなさい。

a) 塩分摂取量には地域差があるため、脳卒中による死亡率にも地域差が生じる。
b) 蛇紋岩地帯は、土壌栄養分に乏しいため、ある種の植物の植物高が低くなる。
c) リサイクル意識の高い地域では、家庭ゴミ排出量が少ない。

修士課程生態環境科学専攻入試問題(1997)

一般統計学

1. 次のa-eにおいて2つの特性の違いを簡潔に説明しなさい。

a. 母集団と標本集団
b. 相関係数と順位相関係数
c. 標準偏差と標準誤差
d. 質的データと量的データ
e. 両側検定と片側検定

2. 次のa-bのデータ解析は誤りである可能性がある。まず、正しいか誤りかを述べ、次に誤りがある場合にはその理由を説明し、どのような解析を行うと適当かを述べなさい。

a. 2集団間の身長の違いを調べたい。標本抽出をくじ引きをもとに行い、おのおの10サンプルを採取し、t検定を用いて行った。
b. コウモリは月に向かって飛ぶ傾向があるかどうかを調べたい。月の方角を0°として10°刻みで1羽のコウモリが巣から飛び立つ方向を200回計測した。検定は、おのおのの方角とおのおのの方角へコウモリが飛び立った頻度間の相関係数を求めることにより行った。

3. データ変換の利点と欠点を述べなさい(具体例を用いて説明してもよい)。
4. 検定を行う場合に第一の過誤(type I error)と第二の過誤(type II error)は、一般にどちらを避けるべきか。具体的な例をあげて説明しなさい。

修士課程生態環境科学専攻入試問題(1998, 前期)

一般統計学 (Statistics)

1. 5桁の宝くじを2枚買うとする。あなたならどのように宝くじを買うか(以下の番号から選んでもよい)。またその理由を述べよ。

番号: 11111, 22222, 12345, 98765, 70531, 17896

2. 統計学における正規性の重要性を説明しなさい。具体例をあげて説明してもよい。
3. ピアソンの積率相関係数をr 、スピアマンの順位相関係数をsとしたとき、以下の3つの図に示されるデータから計算されるr, sについてa-cの問に答えよ。なお、図中の点線はX-Y間のおおまかな傾向を結んだ線にすぎないことに注意せよ。

図1________________図2_______________図3
regression
(a) 図1において、rとsの大小関係はどのようになり、rをとsではどちらを用いるべきか、理由を合わせて述べよ。
(b) 図2において、rとsはどのような値をとるか。
(c) 図3において、rとsはどのような値をとるか。変数Xと変数Yの相関関係はあるといえるか、理由を示して答えよ。

4. 以下の文章を読みa-dの問に答えよ。　「たこ焼」屋を経営する者が、以下のA-Dの条件を満たす場所に新しく屋台を開くことを検討している。

A. 一人で商う。
B. 毎日夕方4時から深夜12時まで屋台を開き、途中適宜1時間ほど休憩をとる。水曜、日曜は休みとする。
C. 場所(借地)代は無料である。
D. 経営時間中の通行人は5000人以上である。

これまでは、経験的にDの条件を満たしていると思われる場所に屋台を開いていた。しかし、経営者は、よりよい収入を得るためにはDの条件が実際に満たされていることが重要と考え、1ヶ月屋台を休み、すでにA-Cの条件を満たしていることが分かっているいくつかの場所において実地調査を行う決心をした。
さて、(a)どのような調査を行い、(b)どのような分析を行い、(c)どのような結果を得たら、屋台を開く候補地とすることができるのか答えよ。ただし、各々の場所において、通行人の中でたこ焼を買う人の割合は等しいと仮定する。
　 (d) この調査は、ある意味において現在の結果から未来を予測するモデルと捉えることができる。このモデルの欠点を列挙せよ。「たこ焼」屋を例に用いてもよい。

修士課程生態環境科学専攻入試問題(2000前期)

一般統計学 (Statistics)

問1. A-Cの説明にあたる適切な用語を記せ。

A. 母集団のN単位に、ある順序で1 – Nの番号をつける。大きさnの標本をとるのに、最初のk単位の中から無作為に1個をとり、その後はk個おきにとってゆくような標本抽出法。
B. 一組の観察値の逆数の算術平均の逆数。
C. 対立仮説が正しいとき、この対立仮説が検定によって採択される確率。

問2. 以下の問(1)および(2)を解け。

(1) 統計学において代表値として平均値を用いることが多い。平均値を用いる利点を3つあげ、それぞれについて説明せよ。
(2) 平均値以外の代表値を用いた方が、観察事実をよりよく説明できる場合がある。その例をあげよ。

問 3. ある商品の毎日の売り上げは確率的であり、1個のことが30%、2個のことが50%、3個のことが20%である。この商品が2日で売り上げる個々の個数の確率(2個から6個まで)をそれぞれ求めよ。また期待される平均売り上げ個数を求めよ(小数点1桁まで)。
問 4. ある薬品の副作用が問題になったとき、その薬品の副作用が許容水準を越えているかどうかを知りたい。この帰無仮説を設定し、第1種、第2種の誤りがどのような意味を持つか説明せよ。また、いずれの誤りの方が深刻か、その理由を述べよ。

修士課程生態環境科学専攻入試問題 (2001年前期)

一般統計学 (Statistics)

問1. A-Dについて、それぞれ2用語の意味の違いがわかるように説明せよ。

A. 「標準偏差」と「標準誤差」
B. 「第一の過誤」と「第二の過誤」
C. 「事前確率」と「事後確率」
D. 「母集団特性量」と「標本特性量」

サンプル
番号
  1
  2
  3

pH
1回目
  5.2
  5.2
  5.3

2回目
  5.2
  5.3
  5.3

3回目
  5.3
  5.3
  7.2

問2. ある畑内の3ヶ所から土壌サンプル(サンプル1から3)を採取し、それぞれのサンプルについてpHを3回ずつ測定したところ表の結果を得た。

この畑土壌で土壌が採取された時点での平均pHを求めたいが、サンプル3の7.2という値が気になる。どのように対処すべきか。

問 3. ある地域における脳卒中発生率と所得の度数分布表を作成し、この2変量間でスピアマンの順位相関係数を求めたところと有意な正の相関があることがわかった。このことから、「この地域において高所得者は脳卒中が発生しやすい」と結論づけることができるか。まず、「できる」、「できない」を明示し、次に、その理由を述べよ。
問 4. 表は、あるプロ野球選手の1996年から2000年までの試合数、打率、本塁打数、打点を示している。

年度
2000
1999
1998
1997
1996

出場
試合数
  105
  103
  135
  135
  130

打率
0.387
0.343
0.358
0.345
0.356

本塁打
   12
   21
   13
   17
   16

打点
73
68
71
91
84

この選手が、2001年もプレーすると仮定できたときの打点を予測したい。上記の表の情報だけをもとにモデルを可能したとすると、どのようなモデルが作成できるか。その原理(根拠)を説明せよ。また、作成されたモデルの予測精度はどのようにして確かめればよいか。解答には、モデルの計算結果を示す必要はない。
(参考) 打率: 打数に対する安打数の比率。
本塁打: ホームランともいう。
打点: 安打・犠牲打・四死球による押し出しなどによって､その打者が味方にもたらした得点。

修士課程生態環境科学専攻入試問題(2002年前期)

一般統計学 (Statistics)

1. 設問A-Cについて、それぞれ答えよ。

A. 「データ」と「情報」の違いを説明せよ。
B. 「平均値」と「メディアン」の値が大きく異なる場合、どのような問題が考えられるか述べよ。
C. ノンパラメトリック検定(分布によらない検定)の利点と欠点を説明せよ。

2. 以下言葉から、枠内に示した言葉を最低3つ用いて、以下のそれぞれの問に答えよ。

相関係数、最小2乗法、誤差、平均、標準偏差、予測、棄却、共分散
問1. 区間推定とは何か説明せよ。
問2. 一次回帰(線形回帰)とは何か説明せよ。

3 以下の文を読み問に答えよ。　ある大学の教務課に、１時限の出席率が著しく悪いという苦情が教員から寄せられた。特に出席率の悪い学生数名に話を聞いたところ、授業料を払うために夜間にコンビニエンスストア等のアルバイトをして寝過ごしてしまうという意見があった。昨年、この大学の授業料は3倍に値上げされた。そこで、授業料値上げは、学生の1時限の出席率を下げる要因なのかどうかを確かめようということになった。なお、この大学の全学生数は10万人である。

問1. 帰無仮説と対立仮説を示せ。
問2. 仮説を検証するために、どのような調査を行えばよいか。実際に調査できるように、調査方法、調査項目を考え、具体的に記述せよ。
問 3. そのような調査方法にした根拠を示せ。
問4. 得た結果をもとに、どのような解析(検定)を行うのかを説明せよ。また、その結果がどのような場合には帰無仮説は棄却されるか。

統計学 (statistics)

歴史と分野

生データ(素データ) raw data

統計分析

確率の哲学的基礎に関する問題

統計生態学 statistical ecology

数理モデル mathematical model

組み合わせと順列 (combination and permutation)

統計リテラシー

記述統計学 descriptive statistics

度数分布表 frequency distribution table

尺度水準と属性 scales and attributes

二元データと(定)量的データ (Orloci 1968)

順序統計量

1. 代表値 representative

2. 散布度(バラツキ) dispersion (measure)

3. 特性値 characteristic value

データ表現 (data presentation)

グラフ化

ヒストグラム (柱状グラフ, histograms)

棒グラフ bar graph (chart)

帯グラフ stacked bar chart (compnent bar charts)

円グラフ pie chart

三角グラフ triangular chart

折線グラフ line chart

各種描画法

解像度 resolution

品質管理

平均 (mean)

(単純)算術平均 (相加平均) arithmetic mean, m or x-

幾何平均 geometric mean, xg

調和平均 harmonic mean, mh

分散 (variance), s2

1) 非決定論的 non-deterministic

2) 集団的規則性

条件付確率 conditional probability

独立性 independence

Th. ベイズの定理 Bayes theorem

ベイズの規則 Bayes' rule

確率行列(統計行列) stochastic matrix

ランダムウォーク random walk

角度統計学 (circular statistics)

分布関数 F(x)・確率密度関数 f(x)の性質

確率モデル (具体的確率分布)

確率分布族

1. 離散型確率分布 discrete distribution

a. x = 0, 1, 2, …, n

b. x = 0, 1, 2, …, ∞

c. x = 1, 2, …, ∞

2. 連続型確率分布 continuous distribution

a. x = (0, 1)

b. x = (-∞, ∞)

混合分布 mixed distribution

確率変数特性値 characteristic values on statistical variables

Summary: Sn

離散型 discrete

連続型 continuous

和の分布

非心分布 noncentral distribution

大数の法則と中心極限定理 law of great numbers and central limit theorem (CLT)

確率密度関数の近似表現

母集団 population, π

統計量(標本特性値) statistic (for inference)

標本分布とランダムサンプリング(無作為抽出)

標本抽出法 sampling

標本抽出(調査)法 sampling survey technique

1. 単純無作為抽出 simple random sampling

2. 層別(層化)抽出 (確率比例層化抽出) stratification sampling

3. 集落抽出(多段抽出) cluster sampling

4. 確率比例抽出 probability proportionate sampling

5. 系統抽出(等間隔抽出) systematic interval

乱数 random number

1. 一様乱数

2. (擬似)正規乱数

反復と擬似反復 replication and pseudoreplication

正規性 normality

確率プロット(法) probability plotting (method)

確率紙 probability paper (死語かも)

正規性検定 normality test

Kolomogorov-Smirnov test

(単純)算術平均 (相加平均) arithmetic mean, m or x^-

幾何平均 geometric mean, x_g

調和平均 harmonic mean, m_h

分散 (variance), s²

Summary: S_n

線形回帰 y = a₁ + b₁x, y = a₂ + b₂xのa, b間の有意差検定