データサイエンス実戦講座の第3回のテーマは、前回に続いて仮説検定です。統計学の中でも実務で最もよく使われる手法のひとつで、例えば製品の改良開発が成功か失敗かの二者択一の仮説を立てて、統計学の視点から判定を下します。検定の原理を理解して現実世界の問題解決に活かすためのポイントは次の3つです。
①アクションプランとリスク対策の立案・・・検定とは仮説の発生頻度の推定であり、仮説の「真偽」と判定の「正誤」は分かりません。問題解決には「真と偽」×「正と誤」=4つのケースに対するアクションプランとリスク対策が必要で、これらを立案する方法が習得できます。
➁パラメトリック検定とノンパラメトリック検定の併用・・・現実に起こる社会現象や自然現象のデータは正規分布しているとは限りません。このため、母集団に正規分布などを仮定するパラメトリック検定だけでなく、歪んだ分布や外れ値のある分布に適用できるノンパラメトリック検定も必要で、これらを併用する2段構えの分析力が得られます。
③統計解析ソフトの活用・・・多くの手法を知っていても使えなければ意味がありません。アムステルダム大学が開発したフリーの統計解析ソフトJASPを駆使して、実戦的な演習問題を通して応用力が身に付きます。
データサイエンス実戦講座の第3回のテーマは、前回に続いて仮説検定です。統計学の中でも実務で最もよく使われる手法のひとつで、例えば製品の改良開発が成功か失敗かの二者択一の仮説を立てて、統計学の視点から判定を下します。検定の原理を理解して現実世界の問題解決に活かすためのポイントは次の3つです。
①アクションプランとリスク対策の立案・・・検定とは仮説の発生頻度の推定であり、仮説の「真偽」と判定の「正誤」は分かりません。問題解決には「真と偽」×「正と誤」=4つのケースに対するアクションプランとリスク対策が必要で、これらを立案する方法が習得できます。
➁パラメトリック検定とノンパラメトリック検定の併用・・・現実に起こる社会現象や自然現象のデータは正規分布しているとは限りません。このため、母集団に正規分布などを仮定するパラメトリック検定だけでなく、歪んだ分布や外れ値のある分布に適用できるノンパラメトリック検定も必要で、これらを併用する2段構えの分析力が得られます。
③統計解析ソフトの活用・・・多くの手法を知っていても使えなければ意味がありません。アムステルダム大学が開発したフリーの統計解析ソフトJASPを駆使して、実戦的な演習問題を通して応用力が身に付きます。
今回のコース(後編)では2サンプルの問題、2サンプル以上の問題、分割表の問題について、パラメトリックとノンパラメトリックを併せて8種類の検定手法を扱います。
データサイエンスといえば機械学習やディープラーニングのさまざまな手法や、注目の生成AIを実現する大規模言語モデルが思い浮かぶでしょう。しかし、その礎となっているのはデータ分析の技術です。それは百年以上も前から自然・社会・人文科学の進歩を支えてきた古典的(頻度論的)統計学であり、かつては異端扱いされながらもビッグデータ時代の訪れとともに蘇ったベイズ統計学です。最新のデータサイエンスを学ぶためには、まず統計学の基礎をしっかり押さえておきましょう。
2サンプル問題のデータ構造と4種類の代表値の検定手法の適用条件を理解し、問題に応じて適切な手法が選択できるようになります。パラメトリック検定を2種類とノンパラメトリック検定を2種類の計4つの手法について、この章で取り組む演習問題の事前説明を通じて問題解決のステップが習得できます。
2つのサンプルデータの間に対応があり、母集団が正規分布に従うケースについて、平均値の差の有無を検定するパラメトリックなロジックを学びます。対応のあるt検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習ではダイエット前後の体重データから効果が確認できたケースを題材にします。
2つのサンプルデータの間に対応があり、母集団に分布を仮定しないケースについて、中央値の差の有無を検定するノンパラメトリックなロジックを学びます。ウィルコクスン符号付き順位検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習ではダイエット前後の体重データから効果が確認できなかったケースを題材にします。
2つのサンプルデータが互いに独立で、母集団が正規分布に従うケースについて、平均値の差の有無を検定するパラメトリックなロジックを学びます。2サンプルt検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習では源氏物語の宇治十帖の作者が紫式部ではないという説について、統計学的に検証できたケースを題材にします。
2つのサンプルデータが互いに独立で、母集団に分布を仮定しないケースについて、中央値の差の有無を検定するノンパラメトリックなロジックを学びます。マン-ホイットニー検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習では源氏物語の宇治十帖の作者が紫式部ではないという説について、統計学的に検証できなかったケースを題材にします。
質的変数Xと連続変数Yがあるとき、Xの複数の水準に対して観測したYのデータ群の代表値の差の有無を検定する手法の適用条件を理解し、問題に応じて適切な手法が選択できるようになります。パラメトリック検定とノンパラメトリック検定を1種類ずつ計2つの手法について、この章で取り組む演習問題の事前説明を通じて検定問題の解法の手順が習得できます。
2つ以上のサンプルの母集団が正規分布に従うケースについて、平均値の差の有無を検定するパラメトリックなロジックを学びます。一元配置分散分析の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習では化学反応で製品を造るときの温度と生成量の関係の有無を分析するケースを題材にします。
2つ以上のサンプルの母集団に分布を仮定しないケースについて、中央値の差の有無を検定するノンパラメトリックなロジックを学びます。クラスカル-ウォリス検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習では化学反応で製品を造るときの触媒と生成量の関係の有無を検定するケースを題材にします。
適合性検定と独立性検定の適用条件を理解し、問題に応じて適切な手法が選択できるようになります。この2つの手法について、この章で取り組む演習問題の事前説明を通じて検定問題の解法の手順が習得できます。
ある事象の観測度数が理論から導かれる期待頻度と一致しているかどうかを検定するロジックを学びます。カイ自乗適合性検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習ではある植物の花の色と形がメンデルの遺伝法則に適合していることを検証するケースを題材にします。
2つの事象の観測度数が互いに影響を及ぼしているか否かを検定するロジックを学びます。カイ自乗独立性検定の原理を理解し、JASPを使った演習を通して問題解決の手順が身に付きます。演習では製品製造時の温度が欠陥の発生頻度に影響しているかどうかを検証するケースを題材にします。
JASPが持つ仮説検定の機能をリストアップし、本コースで扱った12種類の代表的な手法のまとめと、扱わなかった他の手法の今後の講義計画について説明します。次回のテーマとするベイズ統計学については、p値を使わない新しい検定手法の例を紹介します。
OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.
Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.
Find this site helpful? Tell a friend about us.
We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.
Your purchases help us maintain our catalog and keep our servers humming without ads.
Thank you for supporting OpenCourser.