てん@統計屋さんです
入門的な統計の教科書でちょいちょい見かけるフレーズがありますね。
「世の中には正規分布するものが多い」
あれ、正確じゃないです。タイトルにある「正規分布するものなんか無い!」を証明するのは悪魔の証明になってしまいますので無理ですし、若干言い過ぎの自覚があります。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]でも少なくとも「世の中には正規分布するものが多い」には否定的です。では、どう言えば正確だと考えているか、紹介させてください。[/word_balloon]
正規分布するものなんてないじゃないか
ええ、統計を教科書で勉強してた頃は思ってましたよ、「世の中には正規分布するものが多い」って、でも実際にフィールドでデータとってみたら、全然そんなきれいなデータには出会えませんでした。
例えば・・・
人の能力を測るようなもの(テスト)はしばしば山2つの(二峰性を持つ)分布になります。つまり、出来るやつ出来ないやつがくっきり分かれる感じです。
お金のデータなんて、一部の高額所得者(ウン千万、ウン億プレーヤー)が少なくもない人数います。
自然界のデータだったら?体重は太る方はとことん太ってますし、身長も正規分布と言うには低身長には限界がありますが、高身長は驚くような高身長の方がいます。
これらのデータが、”正規分布に従っている”と言うのは無理があります。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]これは正規分布に従っている!という物があれば教えてください。検証させていただきたいと思います。[/word_balloon]
かなり正規分布っぽいデータでも、数限りなくサンプル数を稼ぐと、正規性の検定※で有意になります。厳密には正規分布と言えないということです。
※正規性の検定そのものに大した価値はないと考えています、そんなものより歪度とか先度とかのほうが重要
「データが多くあれば正規分布」の誤解
大数の法則があるので、データが集まれば正規分布になる。
というちょっと中途半端な理解が一定数の方に蔓延している気がします。これは正確に言うと「『中心極限定理』によれば、期待値と分散を持つ分布から独立にデータを収集すると『その平均値が』正規分布に従う」です。
重要なのは平均値です。大数の法則もあくまで「独立にデータを収集すると『その平均値が』分布の真の平均値に収束する」だけです。
※大数の法則も中心極限定理も「どんな分布でも成立する法則」と誤解されていますがこれも正確ではないです。ただし、実務上扱うデータに関しては概ね問題なく成立しています。
ではどう解析するのか?
世の中の統計解析手法のかなりのものが、分布が正規分布であることを仮定しています。
しかし、真に正規分布に従うデータを扱えることはまずありません。
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]じゃあ、分析なんてでけへんやん?[/word_balloon]
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]ってわけにはいかないのが実務家の辛いところ・・・[/word_balloon]
そこで、現実的には以下の2つのアプローチを取っていることが多いかなと思います。
正規分布とみなして解析をする
例えば、2群の平均値を比較するためのStudentのt検定というものがあります。この手法の前提も”分布が正規分布に従うこと”です。
しかし、2峰性がなければ概ね問題がありません(名目有意水準をある程度守ってくれる)。外れ値的なものが含まれるような場合は、変数変換も組み合わせると更に安心です。
例えば、データが正規分布に従っていること(正規性)の検定というものもこの世には存在するわけですが、てんさんとしてはt検定の前処理として正規性の検定を使うことはありません。
多くの正規分布を前提とした手法は、「分布が正規分布に従っていなかったらどのような悪影響があるか?ないか(頑健性があるか)?」という検討がなされてきています。
確かに、厳密に言えば「理論上正しくない」わけですが、データが正規分布に従わないことによる解析結果への悪影響の程度を知っておくことで、正しい意思決定は問題なく行えます。
正規分布を仮定しない解析をする
例えばノンパラメトリックな手法(例えば、Studentのt検定に対応してWilcoxon検定)は、データが正規分布に従うことを必要としません。
機械学習と言われている手法は、解析そのものはデータが正規分布であることを仮定している場合もありますが、解析結果の精度保証の段階でデータの分布の形状が影響しない方法を利用している場合が多いです。
このように、データが正規分布に従うことを前提としない解析を選択するという方法も多く用いられます。
まとめ
統計を学校教育で学んで、いざ自身で取得したデータを解析してみようとすると、まあびっくりするぐらい正規分布っぽくないデータに出会います。だからといって解析をドロップアウトは出来ません。
大別して2つのアプローチを上げましたが、常にどちらの方法がおすすめというものではありません。データの特性と分析の目的と解析者のスキルレベルから、都度ベターな方法を選択していくことになります。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]扱っているデータに外れ値が出てくるような場合は、下の記事なんかも参考になるかと思います[/word_balloon]
でわでわ
2019年06月22日追記:正規性の検定に対するスタンスについて記事を書きました。
[…] データをてんから見てみよう正規分布するデータ?そんなものないよhttps://www.ten-kara-data.com/where_is_normaldist/てん@統計屋さんです入門的な統計の教科書でちょいちょい見かけるフレーズが […]
[…] データをてんから見てみよう正規分布するデータ?そんなものないよhttps://www.ten-kara-data.com/where_is_normaldist/てん@統計屋さんです入門的な統計の教科書でちょいちょい見かけるフレー […]
[…] データをてんから見てみよう正規分布するデータ?そんなものないよhttps://www.ten-kara-data.com/where_is_normaldist/てん@統計屋さんです入門的な統計の教科書でちょいちょい見かけるフレー […]