📖

Glossary of Terms

データ分析の記事によく登場する、少し難しい統計用語や分析手法。「で、結局どういうこと？」をエンタメの例え話でポップに解説する用語集です。

中央値 (Median)

ちゅうおうち

データを小さい順に並べたとき、ちょうど真ん中にくる値のこと。

Metaphor

クラス30人のテストの点数を順番に並べたときの「15番目の人の点数」。たまにいる100点満点の秀才（外れ値）に引っ張られず、クラスの「普通」を正確に表す指標です。

生存バイアス (Survivorship Bias)

せいぞんばいあす

「生き残った（成功した）」データだけを見て、失敗したデータを見落としてしまうことによる判断上の偏り。

Metaphor

「名作漫画はどれも10巻以上続いている」からといって「10巻まで描けば名作になる」わけではありません。そもそも面白くない漫画は3巻で打ち切られて消えている（データに残っていない）という事実を見落とす罠です。

相関関係 (Correlation)

そうかんかんけい

一方の数値が増えると、もう一方も増える（または減る）関係のこと。

Metaphor

「アイスクリームが売れる日ほど、プールで溺れる人が増える」。これはアイスが溺れる原因なのではなく、「気温が高い」という別の原因が裏に隠れているだけです（これを「疑似相関」と呼びます）。

R二乗値 (R-squared)

あーるにじょうち

データがどれくらい綺麗に直線上（予測通り）に並んでいるかを示す指標。0〜1（0%〜100%）で表される。

Metaphor

「気温が高いほどアイスが売れる」という法則が、どれくらい確実にあてはまるかの「信頼スコア」。0.8（80%）なら「かなり信頼できる法則」、0.1（10%）なら「ほぼデタラメの思い込み」と言えます。

P値 (p-value)

ぴーち

そのデータの結果が「ただの偶然（まぐれ）」で起きた確率を示す指標。通常、5%（0.05）以下なら「偶然ではない意味のある結果」とみなす。

Metaphor

ガチャでSSRを3回連続で引いたとき、「これ絶対確率イジってるだろ！」と疑う度合い。1%の確率が3連続で起きる（偶然起こる確率が極端に低い）場合、統計学は「これは偶然ではなく、本当に確率が偏っている（有意差がある）」とジャッジします。

外れ値 (Outlier)

はずれち

他のデータと比べて極端に大きかったり小さかったりする、グループから外れた異常値。

Metaphor

カラオケで全員が70点台を出している中、一人だけプロ級の99点を叩き出した人。平均点を大きく狂わせる原因になるため、分析する時は「この人はプロだから除外しよう」といった対応が必要になります。

因果関係 (Causality)

いんがかんけい

Aが起きたから、結果としてBが起きたという「原因と結果」の確実なつながりのこと。

Metaphor

「主人公が修行した（原因）」から「強くなった（結果）」。少年漫画の王道展開ですが、単に「時間が経ったから強くなった」だけかもしれないので、本当に修行のおかげなのか（因果関係があるか）を証明するのは意外と難しいのです。

回帰分析 (Regression Analysis)

かいきぶんせき

ある結果（例：売上）が、どんな要因（例：広告費、天気）によってどのくらい影響を受けているかを数式で予測する手法。

Metaphor

映画の興行収入を「主演俳優の人気度×30%」＋「原作の知名度×50%」＋「主題歌のヒット×20%」のように分解して、ヒットの要因を方程式にするイメージ。次にどんな映画を作れば売れるかの戦略リストになります。

交絡因子 (Confounding Variable)

こうらくいんし

原因と結果の両方に影響を与え、あたかもその2つに因果関係があるように見せかける「隠れた真犯人」。

Metaphor

「ライバルの出現」で「主人公が強くなった」と思いきや、実は裏で「伝説の師匠に出会っていた（交絡因子）」という展開。ライバルの存在は強くなった直接の原因ではなく、師匠の存在が見落とされている状態です。

標準偏差 (Standard Deviation)

ひょうじゅんへんさ

データの「ばらつき」の大きさを表す指標。この値が大きいほど、データが平均から離れて散らばっていることを意味する。

Metaphor

レビューサイトでの「星3」の評価。全員が「まあまあ（星3）」と評価した星3（標準偏差が小さい）なのか、「神ゲー（星5）」と「クソゲー（星1）」で真っ二つに割れた星3（標準偏差が大きい）なのかで、同じ「平均星3」でも意味が全く違ってきます。

N数 (Sample Size)

えぬすう

分析の対象となったデータの件数・人数のこと。データが多ければ多いほど、結果の信頼性が高まる。

Metaphor

Amazonのレビュー件数。「星5（レビュー1件）」の商品よりも、「星4.5（レビュー10,000件）」の商品の方が信用できるのと同じで、一部の熱狂的なファンの声だけを鵜呑みにしないために必要です。

DATA

Popping Data...

データ分析中

📖

Glossary of Terms

中央値 (Median)

ちゅうおうち

データを小さい順に並べたとき、ちょうど真ん中にくる値のこと。

Metaphor

生存バイアス (Survivorship Bias)

せいぞんばいあす

「生き残った（成功した）」データだけを見て、失敗したデータを見落としてしまうことによる判断上の偏り。

Metaphor

相関関係 (Correlation)

そうかんかんけい

一方の数値が増えると、もう一方も増える（または減る）関係のこと。

Metaphor

R二乗値 (R-squared)

あーるにじょうち

データがどれくらい綺麗に直線上（予測通り）に並んでいるかを示す指標。0〜1（0%〜100%）で表される。

Metaphor

P値 (p-value)

ぴーち

そのデータの結果が「ただの偶然（まぐれ）」で起きた確率を示す指標。通常、5%（0.05）以下なら「偶然ではない意味のある結果」とみなす。

Metaphor

外れ値 (Outlier)

はずれち

他のデータと比べて極端に大きかったり小さかったりする、グループから外れた異常値。

Metaphor

因果関係 (Causality)

いんがかんけい

Aが起きたから、結果としてBが起きたという「原因と結果」の確実なつながりのこと。

Metaphor

回帰分析 (Regression Analysis)

かいきぶんせき

ある結果（例：売上）が、どんな要因（例：広告費、天気）によってどのくらい影響を受けているかを数式で予測する手法。

Metaphor

交絡因子 (Confounding Variable)

こうらくいんし

原因と結果の両方に影響を与え、あたかもその2つに因果関係があるように見せかける「隠れた真犯人」。

Metaphor

標準偏差 (Standard Deviation)

ひょうじゅんへんさ

データの「ばらつき」の大きさを表す指標。この値が大きいほど、データが平均から離れて散らばっていることを意味する。

Metaphor

N数 (Sample Size)

えぬすう

分析の対象となったデータの件数・人数のこと。データが多ければ多いほど、結果の信頼性が高まる。

Metaphor