今回は前回動画でご紹介した試験範囲の内、データサイエンス力の部分の聞き流し解説動画になります。
内容盛りだくさんですので、複数動画に分けてご紹介いたします。
それでは第2章データサイエンス力について、こちらの順に進めていきます
始めに相関関係と因果関係の違いについてお話します
- 相関関係
- 2つの物事の間で一方が変化すれば他方も変化するような関係
- 因果関係
- 2つ以上の物事が原因と結果の関係にあること
- 相関関係があり、因果関係が考えられる例
- アイスクリームの売上と気温の関係
- 相関関係があり、因果関係は考えられない例①
- アイスクリームの売上と熱中症の患者数の関係
- アイスの売上、熱中症の患者数の要因には、気温という共通因子が考えられるため
- 2つの物事に相関が生じても因果関係がない場合、この相関関係を擬似相関と呼ぶ
- 相関関係があり、因果関係は考えられない例②
- 早起きと年収に正の相関がある場合
- 「早起きをすれば年収が上がる」と考えるのは短絡的かもしれません
- なぜならば、「年収の高い職業は早起きをしなくてはならない」というように、因果関係が逆である可能性があるから
- また、年収が高い人の多くはご年配の方が多く、早く目が覚めてしまうという外部の因子が隠れている可能性も考えられる
- 相関関係があれば因果関係があると考えてしまうのは短絡的であり、正しい意思決定が阻害されることもあるため、これらの違いを十分理解することが重要
次に名義尺度、順序尺度、間隔尺度、比例尺度の違いについてご説明します。
- 尺度=データの種類
- 量的データ
- 数値自体に意味があり、足し算や引き算が出来るデータ
- 比例尺度
- 長さや絶対温度、質量などの物理量や価格など、絶対的なゼロ点を持つデータの尺度で、これらのデータは平均値や倍率を求めることができる
- 間隔尺度
- 絶対的なゼロ点を持ちません。例えば摂氏0℃は、水の融点という意味はありますが、0℃で温度が消失するわけではありません。
- 間隔尺度では倍率の計算をすることができない点に注意。例えば「20℃は10℃の2倍暑い」などと言うことは出来ない
- 質的データ
- 分類や種類を区分するラベルとしてのデータ
- 順序尺度
- 等級や満足度のような大小の比較のみ可能なデータ
- 順序尺度のデータは間隔が明確でないため、通常は平均値は意味を持たない
- 名義尺度
- 「子どもを0、成人を1」のように、内容を区別するためだけに数値が与えられているデータのことで、等号で比較可能
次に代表的な確率分布について、ご説明いたします。
- 離散型確率分布(1/2)
- ベルヌーイ分布
- 成功・失敗、表・裏などの2種類しか結果が得られない試行の結果を例えば0と1で表した確率分布
- コインの表が出る確率などを計算できる
- 二項分布
- 互いに独立したベルヌーイ試行をn回行ったときに、「コインの表が出る」といった考えている事象がx回起こる確率を表現した確率分布
- 具体的には、コインをn回投げたときに表がx回出る確率を計算できる
- 離散型確率分布(2/2)
- ポアソン分布
- 単位時間あたり平均λ回起こる現象が、x回起こることを表現した確率分布で、稀な現象を表現できる
- 1日平均1件の交通事故が起こる地域で、3日連続で交通事故が起こらない確率などを計算できる
- 連続型確率分布(1/2)
- 正規分布
- 平均・中央値・最頻値が一致し、理論的に扱いやすくさまざまなシーンで登場する連続型確率分布
- 具体的には、身長180cm以上の方がどのくらいの割合でいるかなどを計算することができる
- 標本数が大きい標本平均は、正規分布に従うことが知られている
- 連続型確率分布(2/2)
- 指数分布
- 単位時間あたり平均λ回起こる現象が、次に起こるまでの期間が単位時間でxであることを表現した連続型確率分布
- ある店で1時間平均10人来ることがわかっている場合、10分以内に次の人が来る確率などを計算できる
- カイ二乗分布
- 互いに独立な標準正規分布に従う確率変数の二乗和が従う連続確率分布で、誤差の二乗和がこの分布によく従うことから、統計的検定などで利用される
最後にベイズの定理についてご説明します
- ベイズの定理
- P(B│A)は、Aが起こったという事実を知った後に計算できる確率であるため、事後確率と呼ぶ
- P(B)は事前確率
- 例
- P(A):すべてのメールにおいて、あるメールに「お得」と書かれている確率
- P(B):すべてのメールにおいて、あるメールが迷惑メールである確率
- 「お得」とメール内に書かれてあるという条件の下で、そのメールが迷惑メールである確率P(B│A)を計算できる
データサイエンティスト検定に最短で合格するための本
最速でデータサイエンティスト検定(リテラシーレベル)に合格したい方に特におすすめです。
最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック
安宅和人氏(慶應義塾大学SFC教授・ヤフーCSO)推薦!
「データサイエンティスト検定 リテラシーレベル」の公式リファレンスブックが登場。
試験で問われる計147個のスキル項目について、要点と学習のポイントを基本から一つひとつ解説。
第一線で活躍する執筆陣が具体的なシーンにまで踏み込んで説明しているため、
データサイエンティストとしての確かな力が身につきます。
さらに巻末の模擬問題では、実際の試験のイメージをつかむことができます。
黒本で最先端の資格をいち早く取得しよう!
2021年よりスタートしたデータサイエンティスト検定(通称DS検定)。その「リテラシーレベル」試験に対応した問題集です!
データサイエンティスト検定リテラシーレベル試験は、「データサイエンス力」「データエンジニア力」「ビジネス力」の3つのチカラに関する知識が問われます。それぞれの分野に対応した問題と詳しい解説をしっかり網羅しているので、バランス良く学習できます。
◆最新の試験範囲を示した「スキルチェックリストver.4」に対応。
◆テキスト不要!教科書並みの詳しい解説で、本書1冊で合格力アップ!
◆本番の試験を模した巻末「総仕上げ問題」で、試験直前の追い込みもしっかりサポート!
コメント