皆さん、こんにちは!データサイエンティスト検定合格への道、着実に歩んでいますか?
今回は、DS検定の最重要テーマの一つである**「データサイエンス力②」**にスポットを当てていきます。このセクションでは、データサイエンスの根幹をなす「統計的仮説検定」の基本的な考え方や用語について学んでいきます。
「統計」と聞くと、ちょっと難しそう…と思う方もいるかもしれませんが、ご安心ください!今回の記事では、各スライドの内容をかみ砕いて、皆さんがしっかりと理解できるよう解説していきますね。
まずは、本章の全体像を示す目次スライドから見ていきましょう。
01 点推定と区間推定の違い ~統計学の二つの顔~
データサイエンスにおいて、私たちは常に「全体(母集団)」を知りたいと思っています。しかし、すべてを調査するのは時間もコストもかかりますよね。そこで登場するのが「推定」です。
まず、統計学には大きく分けて二つの種類があります。
- 記述統計学: 特定の集団のデータを、表やグラフ、平均・分散などの統計量で「記述」し、そのデータがどんな特徴を持っているのかを読み解きます。例えば、クラスのテストの平均点を出す、といったイメージです。
- 推測統計学: 無作為に集めたデータ(標本・サンプル)から、まだ知らない「母集団」の特徴や情報を「推測」する統計学です。視聴率や選挙の当確予想などは、まさにこの推測統計学が使われています。全体を調べるのが大変な場合に、一部のデータから全体を「おしはかる」ために用いられます。
そして、この推測統計学の中で重要なのが「点推定」と「区間推定」です。
-
点推定: 平均値など、たった「1つの値」で母集団の値を推定する方法です。例えば、「このクラスの平均身長は165cmです!」とズバリ言い切るようなイメージですね。手軽ですが、1つの値だけなので、どれくらい誤差があるのかが分かりません。
-
区間推定: これに対し、平均値などを「ある範囲(区間)」でもって推定する方法です。例えば、「このクラスの平均身長は163cmから167cmの間に収まるでしょう」というように、幅を持たせて推定します。 母集団の値がこの区間に収まる確率を**「信頼度」や「信頼水準」「信頼係数」**と呼びます。一般的に、90%・95%・99%といった値がよく使われます。例えば「95%信頼区間」であれば、「この区間に母集団の真の値が含まれる可能性が95%ある」という意味になります。誤差の幅を示すことができる点で、点推定よりも信頼性の高い情報を提供できます。
02 統計的仮説検定における帰無仮説と対立仮説 ~主張を検証するプロセス~
さて、ここからは「統計的仮説検定」の核心に入っていきます。これは、「ある仮説(主張)が正しいかどうかをデータに基づいて判断する」ための強力な手法です。
「検定」とは、母集団の特性についての予測(仮説)が正しいかどうかを、手元にある標本データから判断する方法です。このプロセスは、以下の手順で進められます。
- 主張を否定する仮説を考える(帰無仮説): 私たちが「これを言いたい!」という主張とは反対の仮説を立てます。例えば、「新しい薬は効果がない」といった仮説です。
- 主張したい仮説を考える(対立仮説): 私たちが実際に検証したい、つまり「これだ!」と信じたい仮説です。「新しい薬には効果がある」といった仮説がこれにあたります。
- 否定したい仮説(帰無仮説)が正しいとしたら、とても珍しいことが起きたことを示す: ここが統計的仮説検定のキモです。もし帰無仮説(例:「薬に効果がない」)が本当に正しいとしたら、今得られたデータは「ありえないほど珍しい」のか?を考えます。
そして、もし「帰無仮説が成立することが極めて珍しい」と示せたら、私たちは帰無仮説を「棄却」し、対立仮説(主張したい仮説)を「採択」できる、ということになります。つまり、「薬に効果がない」という仮説が間違っていたので、「薬には効果がある」と言える、という流れです。
03 第1種の過誤、第2種の過誤、p値、有意水準 ~検定結果の解釈とリスク~
統計的仮説検定を行う際には、どうしても「過誤(エラー)」を犯すリスクが伴います。そして、そのリスクを管理するための重要な概念が「p値」と「有意水準」です。
まず、「帰無仮説を棄却する」という判断について、もう少し詳しく見てみましょう。
- 3-1 棄却する水準を決める: 「これくらい珍しかったら、帰無仮説は諦めよう」という、判断のしきい値を事前に決めます。これが後述する「有意水準」です。
- 3-2 標本データを収集する: 実際にデータを集めます。
- 3-3 統計的仮説検定を行い、結果帰無仮説を棄却する(または棄却できなかった): 収集したデータを使って計算し、帰無仮説を棄却するかどうかを判断します。
この「棄却する水準」のことを**「有意水準」**と呼びます。「有意」とは、「その水準(確率)よりも小さければ、偶然ではなく必然だという意味がある」ということ。つまり、「この珍しさなら、たまたま起きたことじゃなくて、ちゃんと意味があるんだね!」と判断する基準になるわけです。慣例的に5%や1%が利用されることが多いです。
ここで登場するのが**「p値」**です。
- p値とは、帰無仮説が正しいという仮定の下で、標本データから計算した値よりも極端な統計量が観測される確率のことです。簡単に言うと、「もし帰無仮説が本当に正しかったら、今得られたデータがどれくらいありえないか」を示す値です。
例えば、p値が0.0482(4.82%)だったとします。もし有意水準を5%と設定していたら、p値は5%よりも小さいので、「これはかなり珍しいことだ!」と判断し、帰無仮説を棄却して対立仮説(私たちの主張)を採択します。
逆にp値が0.0621(6.21%)だった場合、有意水準5%と比べるとp値の方が大きいため、「そこまで珍しくないな」と判断し、帰無仮説は棄却できないため、帰無仮説を「受容」することになります(ここでは「採択」とは言いません。あくまで棄却できなかっただけです)。
しかし、統計的仮説検定はあくまで確率的に判断するため、残念ながら「過ち」を犯す危険性があります。これが**「第1種の過誤」と「第2種の過誤」**です。
- 第1種の過誤: 帰無仮説が正しいにもかかわらず、それを棄却してしまう過ち。 例えば、「効果がない薬なのに、効果があると判断してしまう」ようなケースです。これは「誤って警報を鳴らす」イメージですね。
- 第2種の過誤: 帰無仮説が誤りであるにもかかわらず、それを棄却できない過ち。 例えば、「効果がある薬なのに、効果がないと判断してしまう」ようなケースです。これは「警報を鳴らすべきなのに、鳴らさない」イメージです。
DS検定では、この二つの過誤の違いと、p値・有意水準との関係性をしっかりと理解しておくことが重要です。
04 片側検定と両側検定 ~仮説の立て方で変わる判断基準~
最後に、統計的仮説検定の種類として「片側検定」と「両側検定」について見ていきましょう。これは、私たちがどのような「対立仮説」を立てるかによって、判断基準(棄却域)が変わるという重要なポイントです。
例として、「コインの表裏の出る確率」を考えてみましょう。
- 帰無仮説: 「表裏の出る確率は等しい」(つまり、表が出る確率0.5、裏が出る確率0.5)
この帰無仮説に対して、私たちはどのような主張をしたいでしょうか?
-
対立仮説を「表裏の出る確率は等しくない」(表が出る確率 ≠ 0.5)とした場合: この場合、表が出る確率が0.5より「大きい」場合も「小さい」場合も、帰無仮説が間違っていることになりますよね。棄却する領域(葉却域)が、図のように「両側」に存在することになります。このような検定を**「両側検定」**と呼びます。
-
対立仮説を「表が出やすい」(表が出る確率 > 0.5)とした場合: この場合、私たちが知りたいのは「表が出る確率が特に高いかどうか」だけです。棄却する領域(葉却域)は、図のように確率分布の「片側」だけに存在することになります。このような検定を**「片側検定」**と呼びます。
どちらの検定を用いるかは、研究目的や、どのような「差」や「関係性」を明らかにしたいかによって慎重に判断する必要があります。DS検定でも、この違いを理解しているか問われることがありますので、しっかり押さえておきましょう。
お疲れ様でした!今回は「データサイエンス力②」として、統計的仮説検定の非常に重要な概念を学びました。点推定・区間推定から始まり、仮説検定の基本的な考え方、p値や有意水準、そして過誤の種類、さらには片側・両側検定まで、盛りだくさんの内容でしたね。
これらの概念は、データ分析を行う上で避けては通れない基礎中の基礎です。DS検定の学習だけでなく、実際のデータ分析の現場でも必ず役立つ知識ですので、何度も見返して自分のものにしてくださいね。
次回の記事もどうぞお楽しみに!
コメント