データサイエンス実戦講座の第2回のテーマは仮説検定です。統計学の中でも実務で最もよく使われる手法のひとつで、例えば製品の改良開発が成功か失敗かの二者択一の仮説を立てて、統計学の視点から判定を下します。検定の原理を理解して現実世界の問題解決に活かすためのポイントは次の3つです。
①アクションプランとリスク対策の立案・・・検定とは仮説の発生頻度の推定であり、仮説の「真偽」と判定の「正誤」は分かりません。問題解決には「真と偽」×「正と誤」=4つのケースに対するアクションプランとリスク対策が必要で、これらを立案する方法が習得できます。
➁パラメトリック検定とノンパラメトリック検定の併用・・・現実に起こる社会現象や自然現象のデータは正規分布しているとは限りません。このため、母集団に正規分布などを仮定するパラメトリック検定だけでなく、歪んだ分布や外れ値のある分布に適用できるノンパラメトリック検定も必要で、両者を併用する2段構えの分析力が身に付きます。
③統計解析ソフトの活用・・・多くの手法を知っていても使えなければ意味がありません。アムステルダム大学が開発したフリーの統計解析ソフトJASPを駆使して、実戦的な演習問題を通して応用力が養えます。
今回のコース(前編)では仮説検定の基礎理論と1サンプルの検定、次回の後編では2サンプル以上の手法を扱います。
データサイエンス実戦講座の第2回のテーマは仮説検定です。統計学の中でも実務で最もよく使われる手法のひとつで、例えば製品の改良開発が成功か失敗かの二者択一の仮説を立てて、統計学の視点から判定を下します。検定の原理を理解して現実世界の問題解決に活かすためのポイントは次の3つです。
①アクションプランとリスク対策の立案・・・検定とは仮説の発生頻度の推定であり、仮説の「真偽」と判定の「正誤」は分かりません。問題解決には「真と偽」×「正と誤」=4つのケースに対するアクションプランとリスク対策が必要で、これらを立案する方法が習得できます。
➁パラメトリック検定とノンパラメトリック検定の併用・・・現実に起こる社会現象や自然現象のデータは正規分布しているとは限りません。このため、母集団に正規分布などを仮定するパラメトリック検定だけでなく、歪んだ分布や外れ値のある分布に適用できるノンパラメトリック検定も必要で、両者を併用する2段構えの分析力が身に付きます。
③統計解析ソフトの活用・・・多くの手法を知っていても使えなければ意味がありません。アムステルダム大学が開発したフリーの統計解析ソフトJASPを駆使して、実戦的な演習問題を通して応用力が養えます。
今回のコース(前編)では仮説検定の基礎理論と1サンプルの検定、次回の後編では2サンプル以上の手法を扱います。
データサイエンスといえば機械学習やディープラーニングのさまざまな手法や、注目の生成AIを実現する大規模言語モデルが思い浮かぶでしょう。しかし、その礎となっているのはデータ分析の技術です。それは百年以上も前から自然・社会・人文科学の進歩を支えてきた古典的(頻度論的)統計学であり、かつては異端扱いされながらもビッグデータ時代の訪れとともに蘇ったベイズ統計学です。最新のデータサイエンスを学ぶためには、まず統計学の基礎をしっかり押さえておきましょう。
仮説検定の結果を問題解決に活かすためのアクションプランとリスク対策の考え方を学びます。
現実世界のデータ分析には正規分布をベースとするパラメトリック手法だけでなく、ノンパラメトリック手法も必要であることを理解します。
様々な問題に応じて適切な分析手法が使えるフリーの統計解析ソフトの情報を得ます。
統計検定は二者択一の仮説に対して発生確率が高い仮説を判定するだけで、仮説の真偽と判定の正誤の情報は与えてくれません。p値による検定の結果には、仮説の真と偽×判定の正と誤=4とおりの解釈があることを理解します。
「仮説の真偽」と「判定の正誤」が合致しているケースでは検定結果にもとづくアクションプランを立て、「仮説の真偽」と「判定の正誤」が合致していないケースではリスク対策を立てます。p値の大小だけではなく、それによって生み出される4つのケースに漏れなく対応する重要性を理解します。
主要な検定手法の概要を理解し、どのような問題に対して何の手法を適用すればいいのか、分析するデータの形式に応じた適切な検定手法が選択できるようになります。
仮説検定に必要なサンプルサイズの決め方は複雑です。学術論文に仮説検定を使うときには厳密さが求められますが、判定結果にはそれほど敏感には影響しません。実務で使える目安となるサンプルサイズの値を提示します。
統計解析のフリーソフト、有料ソフト、プログラミング言語の主要なものを紹介します。その中から本講座で使用するフリーソフトのJASPについて、ダウンロード、インストール、日本語メニューを使うための初期設定ができるようになります。
データの正規性を確認する主な方法には、ヒストグラム、Q-Qプロット、正規性検定のp値などがあります。それぞれの特長を知って補完的に使うことで、正規性の確認ができるようになります。
JASPを使って正規乱数と非正規乱数の模擬データを使った正規性確認の演習を行います。サンプルサイズの大小や乱数のバラツキの程度による影響を体験するとともに、JASPの使い方が習得できます。
1サンプル問題の検定の仕組みと代表的な検定手法の適用条件が理解できます。パラメトリック検定2種類とノンパラメトリック検定2種類について、この章で取り組む演習問題の事前説明を通じて検定問題の解法の手順が習得できます。
パラメトリック手法の考え方を学ぶのに最適な1サンプルZ検定の原理を理解し、JASPを使った演習問題で仮説検定の適用手順が身に付きます。演習では「品質検査に合格した」ケースを題材にします。
パラメトリック手法で最もよく使われるt検定の基本となる1サンプルt検定の原理を、Z検定との相違点に着目して理解します。JASPを使った演習問題では「改良開発に成功した」ケースを題材にします。
ノンパラメトリック手法の1サンプル符号検定の原理として、データを2値化して二項分布とみなすことで非正規分布の現象に適用できる仕組みを理解します。JASPを使った演習問題では「品質検査に合格できなかった」ケースを題材にします。
ノンパラメトリック手法の1サンプル符号付き順位検定の原理として、バラツキの大きさを順位に置き換えることで非正規分布の現象に適用できる仕組みを理解します。JASPを使った演習問題では「改良開発に失敗した」ケースを題材にします。
OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.
Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.
Find this site helpful? Tell a friend about us.
We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.
Your purchases help us maintain our catalog and keep our servers humming without ads.
Thank you for supporting OpenCourser.