データ分析の記事によく登場する、少し難しい統計用語や分析手法。「で、結局どういうこと?」をエンタメの例え話でポップに解説する用語集です。
データを小さい順に並べたとき、ちょうど真ん中にくる値のこと。
クラス30人のテストの点数を順番に並べたときの「15番目の人の点数」。たまにいる100点満点の秀才(外れ値)に引っ張られず、クラスの「普通」を正確に表す指標です。
「生き残った(成功した)」データだけを見て、失敗したデータを見落としてしまうことによる判断上の偏り。
「名作漫画はどれも10巻以上続いている」からといって「10巻まで描けば名作になる」わけではありません。そもそも面白くない漫画は3巻で打ち切られて消えている(データに残っていない)という事実を見落とす罠です。
一方の数値が増えると、もう一方も増える(または減る)関係のこと。
「アイスクリームが売れる日ほど、プールで溺れる人が増える」。これはアイスが溺れる原因なのではなく、「気温が高い」という別の原因が裏に隠れているだけです(これを「疑似相関」と呼びます)。
データがどれくらい綺麗に直線上(予測通り)に並んでいるかを示す指標。0〜1(0%〜100%)で表される。
「気温が高いほどアイスが売れる」という法則が、どれくらい確実にあてはまるかの「信頼スコア」。0.8(80%)なら「かなり信頼できる法則」、0.1(10%)なら「ほぼデタラメの思い込み」と言えます。
そのデータの結果が「ただの偶然(まぐれ)」で起きた確率を示す指標。通常、5%(0.05)以下なら「偶然ではない意味のある結果」とみなす。
ガチャでSSRを3回連続で引いたとき、「これ絶対確率イジってるだろ!」と疑う度合い。1%の確率が3連続で起きる(偶然起こる確率が極端に低い)場合、統計学は「これは偶然ではなく、本当に確率が偏っている(有意差がある)」とジャッジします。
他のデータと比べて極端に大きかったり小さかったりする、グループから外れた異常値。
カラオケで全員が70点台を出している中、一人だけプロ級の99点を叩き出した人。平均点を大きく狂わせる原因になるため、分析する時は「この人はプロだから除外しよう」といった対応が必要になります。
Aが起きたから、結果としてBが起きたという「原因と結果」の確実なつながりのこと。
「主人公が修行した(原因)」から「強くなった(結果)」。少年漫画の王道展開ですが、単に「時間が経ったから強くなった」だけかもしれないので、本当に修行のおかげなのか(因果関係があるか)を証明するのは意外と難しいのです。
ある結果(例:売上)が、どんな要因(例:広告費、天気)によってどのくらい影響を受けているかを数式で予測する手法。
映画の興行収入を「主演俳優の人気度×30%」+「原作の知名度×50%」+「主題歌のヒット×20%」のように分解して、ヒットの要因を方程式にするイメージ。次にどんな映画を作れば売れるかの戦略リストになります。
原因と結果の両方に影響を与え、あたかもその2つに因果関係があるように見せかける「隠れた真犯人」。
「ライバルの出現」で「主人公が強くなった」と思いきや、実は裏で「伝説の師匠に出会っていた(交絡因子)」という展開。ライバルの存在は強くなった直接の原因ではなく、師匠の存在が見落とされている状態です。
データの「ばらつき」の大きさを表す指標。この値が大きいほど、データが平均から離れて散らばっていることを意味する。
レビューサイトでの「星3」の評価。全員が「まあまあ(星3)」と評価した星3(標準偏差が小さい)なのか、「神ゲー(星5)」と「クソゲー(星1)」で真っ二つに割れた星3(標準偏差が大きい)なのかで、同じ「平均星3」でも意味が全く違ってきます。
分析の対象となったデータの件数・人数のこと。データが多ければ多いほど、結果の信頼性が高まる。
Amazonのレビュー件数。「星5(レビュー1件)」の商品よりも、「星4.5(レビュー10,000件)」の商品の方が信用できるのと同じで、一部の熱狂的なファンの声だけを鵜呑みにしないために必要です。