統計・機械学習 用語辞典

データ分析を行う際に耳にする統計・機械学習の専門用語を簡単に紹介します。(随時更新予定)

あ行

EMアルゴリズム

欠測が含まれたデータにおいて、観測データの尤度(欠測データを積分消去した尤度)の評価が困難である場合に利用されるアルゴリズム。欠測データに対する期待値計算を行うE-stepと、完全データの尤度の最大化を行うM-stepを交互に繰り返し計算を行う。 ⇨ 詳しい解説

一致推定量

サンプルサイズを無限に大きくした時に、パラメーターの真値に確率的な意味で収束するような推定量の総称。

一般化線形混合モデル

一般化線形モデルの線形予測子に、ランダムな効果(変量効果)を組み込んだモデルの総称。 ⇨ くわしい解説

一般化線形モデル

目的変数が連続データ以外である場合にも拡張した回帰モデル。正規分布を仮定した線形回帰モデルを含む他、ポアソン回帰(目的変数がカウントデータ)、ロジスティック回帰(目的変数が二値データ)などを含むモデルのクラス。 ⇨ 詳しい解説

インポータンス・サンプリング (重点サンプリング)

ターゲットとなる確率分布からの直接的なサンプリングが不可能なときに、インポータンス密度と呼ばれるサンプリングが可能な密度からサンプリングし、重みをつけて修正することで、ターゲットとなる確率分布からのサンプリングを行う手法。 ⇨ 詳しい解説

AIC

適切な統計モデルを選択をするための規準。観測データへの当てはまりの良さと統計モデルの複雑さを考慮して定義される。

か行

回帰モデル

興味がある変数(目的変数・従属変数)を、他の変数変数(説明変数・独立変数)で説明する統計モデルの、クラス。線形回帰モデルの場合、目的変数の平均的な動きをモデリングしている。 ⇨ 詳しい解説

カルマンフィルター

線形ガウス状態空間モデルのフィルタリング密度と予測密度を逐次的に求めるアルゴリズム。 ⇨ 詳しい解説

関数データ

曲線や曲面など、値が関数として得られるデータのこと。観測データが高頻度に得られるとき、離散観測を平滑化して得られた関数そのものをデータだとみなすことが多い。

観測誤差

観測された変数の値と真の変数の値の差のこと。

極値統計学

データの最大値や最小値、確率分布の裾の振る舞いなど、データの極端な値を分析する統計学の一分野。

空間データ

位置情報などの空間的な情報をもつデータのこと。

決定係数

モデルの観測データへの適合度を表す指標の一つ。モデルによって説明できた観測データのバラつきと説明できなかった部分の比を用いて定義され、0から1の間の値を取る。1に近いほど適合度が高い。⇨ 詳しい解説

検出力

仮説検定において、帰無仮説が誤っているときに帰無仮説を棄却する確率をさす。

交互作用項

回帰モデルにおいて複数の説明変数の積の項。ある説明変数の目的変数に与える影響が、別の説明変数の値に依存する場合に、その効果をとらえるために導入される。 ⇨ 詳しい解説

高次元データ

サンプルサイズに対して、データの特徴量の次元が高いもの。

さ行

survey weight (サーベイウェイト)

標本調査において、ある個体がその調査に含まれる確率(包含確率)の逆数に比例した量で、調査のバイアスを補正する際に役立つ。直感的には、その標本が母集団のいくつの個体を代表しているかを表す。 ⇨ 詳しい解説

サブサンプリング

リサンプリング法の一つ。データの一部を用いた計算を繰り返すことにより、様々な統計量の標本分布の近似する方法。

時空間データ

時系列データ・空間データの両方の性質をもつデータのこと。

時系列データ

時間の経過とともに観測されるデータのこと。

状態空間モデル

マルコフ連鎖に従う観測できない潜在変数と、その潜在変数に依存して観測される観測値2つの変数からなる統計モデル。特に時系列データの分析で用いられることが多い。

情報量規準

統計モデルの良さを測定する規準のこと。AIC、BIC、DIC等が有名である。複数の統計モデルが与えられている時、情報量規準の値が一番小さいものを最も良いモデルとして採用することが考えられる。 ⇨ 詳しい解説

深層学習

機械学習の手法の一つで、特にディープニューラルネットワークを利用したデータ分析手法のこと。

推定量

観測値(データ)から、統計モデルのパラメーターを定める関数の総称。

漸近理論

サンプルサイズを無限に大きくしていった時の分布や推定量の振る舞いに関する理論のこと。中心極限定理や大数の法則等を主に用いて解析をする。

線形混合モデル

固定効果と変量効果の両方の効果の入った線形モデル。特に変量効果は、パネルデータ(経時データ)や地域データなど、データに何らかのクラスター構造が入っている場合、クラスターごとの効果として入れることができる。⇨ 詳しい解説

相関係数

二つの確率変数の線形関係の強さ・弱さを測る尺度の一つ。分子に二つの確率変数の共分散、分母にそれぞれの標準偏差で定義され、-1以上1以下の値を取る。

操作変数

説明変数とは相関するが,誤差項とは無相関な変数のこと。 ⇨ 詳しい解説

た行

第一種の過誤(Type I error)

仮説検定において、帰無仮説が正しい状況で帰無仮説を棄却してしまう誤りをさす。

大数の法則

サンプルサイズを無限に大きくしていくと、確率変数の実現値で構成した標本平均が、ある条件の下で確率変数の真の期待値に収束することを示している定理。

第二種の過誤(Type II error)

仮説検定において、帰無仮説が誤りの状況で帰無仮説を採択してしまう誤りをさす。

多重共線性

回帰モデルにおいて説明変数同士の相関が非常に大きい状況をさす。この場合、最小二乗推定の精度が悪化する可能性がある。 ⇨ 詳しい解説

中心極限定理

ある条件のもと、サンプルサイズが増加するに従って、標本平均の分布が正規分布に近づくことを示した定理。漸近理論に基づいた統計的推測において中心的な役割を果たす。

DIC

Deviance Information Criterionの略で、ベイズ的な情報量規準の一つ。マルコフ連鎖モンテカルロ法 (MCMC) の出力を用いて計算することができる。 ⇨ 詳しい解説

独立

2つの事象が同時に起こる確率がそれぞれの確率の積となるとき、この2つの事象は独立であると言われる。

な行

ノンパラメトリック回帰

回帰モデルにおいて、回帰関数の形に線形性などの特定の形状を仮定しない分析手法。

は行

パネルデータ

いくつかの個体の変数(世帯ごとの所得,企業ごとのなど)が、複数期間にわたって観測されたデータのこと。経時データとも呼ばれる。 ⇨ 解説1  解説2

BIC

適切な統計モデルを選択をするための規準。観測データへの当てはまりの良さと統計モデルの複雑さを考慮して定義される。AICよりもモデルの複雑さに強い罰則が与えられる。 ⇨ 詳しい解説

フィッシャー情報量 (フィッシャー情報行列)

確率変数がパラメーターに関して持つ情報量のこと。尤度関数によって定義され、最尤推定量の漸近分散を定める。

ブートストラップ

リサンプリング法の一つ。データの復元抽出を繰り返すことにより、様々な統計量の標本分布の近似する方法。

不偏推定量

期待値を取るとパラメーターの真値と等しくなる推定量の総称。

分位点回帰

データが従う確率分布の分位点に対して回帰モデルを当てはめる分析手法。

ベイズ統計

頻度論と並ぶ統計学の考え方の一つ。データと共に統計モデルのパラメーターも確率変数とみなし、事後分布と呼ばれる分布に基づいて統計的推論を行う。

マルコフ連鎖モンテカルロ法 (MCMC)

サンプルを生成したい分布が定常分布になるようなマルコフ連鎖を構成することによってサンプリングを行い、モンテカルロ積分を実行する方法の総称。ベイズ分析において事後分布を近似するために頻繁に用いられる。

ま行

モーメント(積率)

確率変数のベキ乗に対する期待値で与えられる特性値をさす。

や行

有効推定量

あるパラメータに対する推定量の中で、分散が最も小さい推定量をさす。

尤度関数

密度・質量関数をデータを固定してパラメーターの関数として捉えたもの。尤度関数を最大化してパラメーターを推定することを最尤推定と呼ぶ。

ら行 + わ