てん@統計屋さんです。
「データは嘘をつかないよ」って歌もあります。
※4曲目です乾くんが歌ってます
どちらのフレーズも、幾度となく聞いたことのあるフレーズって気がしていますが。皆さんどっちのフレーズのほうが正しいと思う、またはしっくりきます?
てんさんとしては、ぶっちゃけどっちでもいいです。
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]もうはなし終わっちゃってない??[/word_balloon]
ぶっちゃけどちらでもいいですが、どちらかといえば「嘘をつかない」派です。でも、それもちょっと違います。この自問に対する自答をしたいと思います。
データはウソをつく派
この派閥は概ね(悪意であれ善意であれ)誤った(誤りがちな)データ解釈への警鐘として、このフレーズを流布しています。
見せかけの相関・外れ値を無視した解析・因果の逆転・不適切な母集団設定・・・挙げればキリがないですが、ちょっと注意しないと騙されてしまうデータの見せ方・見方が世の中には氾濫しています。今話題の、AIだの機械学習だのはそのプロセスに不透明(ブラックボックス)な点が多く、更に注意が必要になってきます。
こういった警鐘は非常に重要なことで、「統計でウソをつく法」「統計の9割はウソ」あたりは、統計の初学者の方々にはぜひ読んでもいただきたいですし、統計に興味が無い方でも情報あふれる現代で騙されない体質になるために、手にとって貰えればなぁと考える次第です。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]でも、「データはウソをつく」というフレーズは賛同できないです[/word_balloon]
データは嘘をつかないよ派
この派閥には「データを積み重ねれば、偶然の要素は殆ど排除され、ほとんど必然と思えるほど予想可能になってくる。※」みたいなことを考える方もいます。たしかに現在のAIの活躍には目を見張る物があって結構な精度で予測可能な分野も多数あるわけですから、正しい側面もある考え方だと思います。
※実際には素粒子レベルの世界で確率的なふるまいがあるため未来は確定していないという物理的な話がありますが、別にそんな細かいことを指摘したいとは思っちゃいないです。
今までは、大した数のデータが取れなかったためにその中の小さな真実を探れなかった時代でしたが、センサー技術により大量のデータを取得できるようになり、かつその大量のデータを分析可能な解析エンジンが出てきたことで「データは嘘をつかないよ」状態に多くの分野で近づいてきています。
基本的にはデータの価値は”質×量”で決まりますので、これまでの「とにかくデータの質を高めるんだ!」という思考から「ある程度の質があるなら、量で勝負しろ!」に、統計・データ分析の風潮は変わってきたかなと日々感じています。一方で、「ビックデータ」という語感から、質を全く無視して量だけデータを集めている事例もまま見ます。そんなデータを持ってきてなんとかしろと言われても「腐った材料からは腐った料理しかできないよ?」と回答するしかないです。
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]ゴミを入れてぐるぐるポンで出てくるのはやっぱりゴミだよ[/word_balloon]
データはそこに在るだけ派
タイトルでほとんどオチてます。
私は、データはウソをつくわけでも、嘘をつかないわけでもなく、ただそこに在るだけと考えています。
質の全く伴わないデータも、ただ在るだけ。
丁寧に扱わないと解釈の誤りそうなデータも、ただ在るだけ。
データに(悪意で?)ウソをつかせる分析者もいるし、質の低いデータを積み上げて真実を見出す分析者もいますが、データそのものはただそこに在るだけです。
なので、「データは嘘をつかないよ」とまで安易に言うのはためらいますが、少なくとも「データはウソをつく」というフレーズは好きになれません。データにウソをつかせたのは、悪意を持った、あるいは未熟な分析者であって、その罪をあまつさえデータになすりつけるのは、罪なきデータに対して失礼というものです。
悪意を持ってデータにウソをつかせる分析者は論外ですが、善良であっても未熟であるがゆえにデータにウソをつかせてしまうことは多々あります。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]日々猛省・・・[/word_balloon]
データにウソをつかせないために、力量に見合わない解析をしてしまわないよう注意しつつ、力量を上げていきたいものです。
終わりに
データはそこに在るだけ!
そんなフレーズが広まったら嬉しいです。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” name=”” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true”]データは嘘をつかないよ って曲がテニミュにあるのは、この記事を書こうと思うまで知らなかったケド、乾ソングと知って納得![/word_balloon]
でわでわ