統計(ネタ)

統計学的有意差検定での危険な考え方を念能力で解説してみたよ

投稿日:2019年1月18日 更新日:

てん@統計屋さんです。少年ジャンプの定期購読に申し込むか悩む程度にいまだに少年マンガから卒業してません。

少年ジャンプを卒業してない社会人ならまず間違いなく知っている、連載と休載を繰り返しているとで有名な少年マンガ、HUNTER×HUNTERでは、念能力という特殊能力が登場します。

この念能力は大きく六系統に分かれており、生まれ持っての才能と修行によって各系統の能力を高めていきます。

話はガラッと変わりまして・・・統計検定偏重な世の中で、ことさら問題となってきた統計検定への依存症(significantosis:有意病)患者たちは、p値が0.05を下回ることに無上の喜びを感じます。

※このような統計検定偏重の風潮への苦言をアメリカ統計協会が声明として公表しています。(リンクは翻訳されたもの)

さて、そんな有意病患者の中にあって、修行により特殊能力を身に着けてしまった検定怨念能力者(p value hacker)の念能力について、その念能力六系統を解説していきたいと思います。

統計怨念能力の六系統

強化系:恣意的な重み付け

[word_balloon id=”2″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]取得したデータは平等の価値を持つ訳ではではない、価値の重さを有意差検定にも反映させるべきだ![/word_balloon]

この系統の能力者は、自身の検証仮説に都合のいいデータばかりに目が行きます。有意差検定で有意な結果を得られなかった場合、「(都合の良い)これらのデータこそ価値があるのだ!」とデータに重みを付けはじめます。

※データの重み付け:例えば価値の高いと思うデータを2つに複製してあげると、そのデータの重みは他のデータの2倍(重み=2)になります。実際には整数である必要はありません。

[word_balloon id=”2″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]重みを付けたら有意差が付いた。真実が今ここに![/word_balloon]

[word_balloon id=”1″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ありません[/word_balloon]

変化系:無根拠な変数変換

[word_balloon id=”3″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]生の観測値では有意差は付かないようだな。きっと、差を見つけやすい変換があるにちがいない。[/word_balloon]

この系統の能力者は、観測された数値が正規分布に従っていないと強弁に主張します。最も正規分布(ぽく見える)変数変換を探し始めます。この系統の能力を極めた者には、複数の変数を組み合わせて新たな変数を生み出すという特殊能力を備えた者もいます。但し、その変換に付いて根拠を持っていません。

※変数変換:例えば、観測値に対して対数を取る、指数関数に入れるなどがイメージしやすいです。

[word_balloon id=”3″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ようやく有意差を付ける変換を見つけたようだ。真実が今ここに![/word_balloon]

[word_balloon id=”1″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ありません[/word_balloon]

 

具現系:任意の欠損値補完

[word_balloon id=”5″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]データに欠測があるではないかもったいない。これを埋めなくては例数がもったいない。[/word_balloon]

この系統の能力者は、もったいない精神から欠測を放っておけません。欠測したデータを様々な手段で補完していきます。なぜ欠測したかを考えることは無駄だと考えています。とにかく埋めることにひたむきです。

※データの補完:欠測(観測できなかった)データに対し、最悪(最高)値をすべてに適用する・似たようなデータレコ度のうち欠測していないレコードの数値を持ってくるなどの方法で数値を与える作業です。

[word_balloon id=”5″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]データは有効活用しなくてはな。欠測を補完すればしっかり有意差がつくではないか、真実が今ここに![/word_balloon]

[word_balloon id=”1″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ありません[/word_balloon]

放出系:考察なき外れ値除外

[word_balloon id=”6″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]なんかさぁ、うまく有意差つかないなぁってデータ眺めてみたら、ちょっと大きすぎるかなぁ、ってデータあるんだよねぇ、気になるなぁ。[/word_balloon]

この系統の能力者は、データに出てくる外れ値を常に探しています。それが検定において殆どの場合不利(有意になりにくい)で有ることを知っているからです。外れ値探索のための技術はピカイチで、外れ値の検定でバシバシ除外していきます。

※外れ値:データ全体の中で飛び抜けて大きい(小さい)数値。検定統計量のSEを大きくしてしまうので検定が有意になりにくい原因。質問票への記入ミスや測定器の故障が原因とはっきり判明することもあるが、不明瞭な場合が多い。

[word_balloon id=”6″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]外れ値っぽいのを外してみたら有意差ついたわぁ。これぞ真実![/word_balloon]

[word_balloon id=”1″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ではありません[/word_balloon]

外れ値に対する正しい対応法と、放出系の怨念能力者が使うだめな対処法について、より詳細な記事を書きましたので、興味のある方はこちらに飛んでください。

操作系:やたら多い共変量

[word_balloon id=”8″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]比較する群間の背景値が揃ってないのめっちゃ気になるんやわ、背景値の違いを考慮しない解析は不利やいうやろ?とにかく比較したい項目以外の観測値は全部共変量として突っ込んで解析してみよかな。[/word_balloon]

この系統の能力者は、何でもかんでもとにかく観測した項目はすべて共変量として解析モデルに突っ込みたがります。それぞれの項目の因果関係はおろか相関関係も興味ありません、とにかくまず全部入れて見るんです(それがたとえレコード数より多くの項目数であろうと)。気が向いたら、比較したい項目のデータと無関係そうな項目を気まぐれにぬいてみることもあるようですが、p値が大きくなったら慌てて戻します。

※共変量:就職・転職に向けて平均年収を会社間で比較する際、おそらく併せて従業員の平均年齢も調べて置くほうが良いでしょう。平均年齢の高い会社はそうでない同業他社より平均年収も高い事が多いです。この場合、年齢は年収の共変量と言って良いでしょう。

[word_balloon id=”8″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]やっぱ共変量は入れなアカンな。全部入れてみたらちゃんと有意差ついたわ。これぞ真実![/word_balloon]

[word_balloon id=”1″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ちゃいますがな[/word_balloon]

特質系:データ改ざん

[word_balloon id=”7″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]この研究の結果が”有意差なし”では、研究にかかった費用や協力者関係者に申し訳立たないな。しょうがない私が目をつむればいいだけの話だ。[/word_balloon]

この系統の能力者は、禁断の技を駆使します。もちろんそのことを誰かに相談したり、報告したりすることなく、墓場まで持っていく覚悟です。この能力者の一部は、それは正義の行いであるを信じ、社会のために犠牲の精神で事に当たります。

※この能力を用いたものは、以後生涯に渡って統計家を名乗ることを禁止されます。場合によっては本当に檻に入ることもあります。

[word_balloon id=”7″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]いい結果が出ま・・・    [/word_balloon]

[word_balloon id=”1″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]あなたは論外です!![/word_balloon]

 

正しき能力者

希望を騙る底無しの絶望、有意病に罹患した方々の怨念能力に付いて解説してきましたが。これらの能力のすべてが否定されるわけではありません。

  • データ取得前に
  • 科学的根拠を持って

使用されていれば、これらの能力は肯定され得ます。正しく使えばパワフルな道具も使い方一つで大怪我のもとになる、ではそこの境界線はどこなのか?統計で新しいことを学ぶと喜んで使ってみたくなりますが、案外 怨念能力者まがいの解析をしちゃっているので注意が必要です。(自戒の念もこめて)

最後に

[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]特質系、お前はだめだ!![/word_balloon]
でわでわ

スポンサーリンク

-統計(ネタ)
-, ,

執筆者:


  1. […]  データをてんから見てみよう統計学的有意差検定での危険な考え方を念能力で解説してみたよhttps://www.ten-kara-data.com/nen-p-value-hacker/てん@統計屋さんです。少年ジャンプの定期購読に […]

  2. […] 以前のネタ記事にたどり着いた方の検索ワードで、ひときわ目立ったものがあります。 […]

  3. […] 以前の記事でも紹介した有意病患者ですが、学術誌の編集者・査読者レベルにすらその罹患患者が増えすぎていることに対して、p値偏重な学術会への懸念とp値の正しい理解の説明をし […]

外れ値への対処法を考えてみたよ – データをてんから見てみよう へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

関連記事はありませんでした

スポンサーリンク