統計

統計で未来は予想出来るのかかなり批判的に考えてみたよ

投稿日:2019年3月20日 更新日:

てん@統計屋さんです

統計学を駆使してビックデータから、売上予想、風邪の流行予想、来客数予測、アイスクリームの在庫調整、天気予報、人口動態予想、景気予想、エトセトラエトセトラ

それらに一定の成果が出ていることは間違いないですし、これからも多くの成果が生まれることも間違いないでしょう。

でも、基本的に統計学は未来予知のツールでは無いと言うのが私の見解です。統計を駆使して未来予知をすることを批判的に見ていくことで、逆接的に未来予知していい条件を考えてみます。

未来予測って何をしているの?

外挿という問題

たとえ話をします。ある会社の従業員全員の給与と年齢を散布図にしました。

実は、72歳の社員がいらっしゃるのですが、その方の年収はどのくらいでしょうか?

[word_balloon id=”9″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]しんきんぐ たいむ !![/word_balloon]

[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]年齢に対しての年収の回帰直線からすれば900万円ぐらいに見えるでしょうか?[/word_balloon]

答えは1500万円です。なんせこの方は、この会社を一代で築き上げたカリスマ経営者なので、定年も関係なく報酬もかなり頂いているのです。

ちょっとズルい例ですね。しかし、往々にして統計学的な推定ではこのような『取得したデータの範囲外で真値は大暴れしている』という事が起こります。

このように、観測されたデータの”外”を考える場合ことを「外挿する」と言いますが、外挿する場合に本当にそれが正しい推測になっているかがわかるのは、実際に観測した後です・・・

[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]事前に知りたいんだよ![/word_balloon]

[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]解析の構造上無理なんだよ![/word_balloon]

さて、未来に起こることって、取得データの範囲内なのですかね?”未来”という時点のデータは過去観測されたことがないので、全く外挿ではないと言うのは難しいでしょう。

未来予測AIの現状

「いやいや、AIで未来予想とか結構やっているし、天気予報なんか結構当たるじゃない!」というコメントが当然ありますよね?

天気予報は、あくまで過去の天気図データから、今の天気図に似たものをピックアップし、その翌日(3時間後、1時間後、10分後でもいいです)の天気の結果から、明日の天気を予想しているだけです。降水確率oo%というのは、ピックアップされた天気図の内、翌日雨が降った割合を示しただけです。そういう意味では、”翌日の降水確率”というより”過去の降水割合”というべきかもしれません。

[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]感覚的にわかりにくすぎるのでお薦めはできませんが[/word_balloon]

近年の予想精度の向上は、天気図データを膨大に取得分析できるようになった側面が大きく、基本的な予測プロセスは変わりないはずです。

未来予想AIも、本質は全く同じです。「今の状態」を「過去のデータから抽出して」、「その後どうなったかまとめ(統合し)てレポート」しているだけです。とはいえ、「今の状態」を高精度に知ることができるようにセンサー・インターネット技術が向上し、「過去のデータから抽出・統合」する新規解析手法の登場・解析エンジンの性能向上によって、その正答率は格段に向上したのも事実です。

一方で、1000年に1度の気象災害や、地震などの過去観測したことのない事象の推定精度はひどく落ちます。それは、なんらかの外挿を余儀なくされるからです。

未来を知ることが未来を歪める

統計・AIでの未来予想が、その実、過去のデータを統合しただけ・・・とはいえ、その結果は外挿の程度が低ければ結構な正答率を誇るようになっています。しかし、未来を予測したことが正答率引き下げる、という現象がしばしば起こります。

予言の自己実現

「予言の自己実現」経済用語です。多くの方が「今後景気が良くなる!」と思えば、実際に多くの方が購買を増やし投資をし実際に『景気が良くなる』。あるいは全くその逆。そういった現象を指して使われる用語です。

この話を統計での未来予想の話で考えてみましょう。

例えば、株価予想AIなんかを開発したとします。このAIがかなり優秀で、高精度に高騰する株を言い当てられるようになったとします。もちろんこのAIを持っている方はその株を買うでしょう。次第にこのAIの精度の高さが口コミで広がります。口コミを聞いた方はこのAIの予想した高騰株を買うようになるでしょう。このAIを信用する方が一定数いて、この方々がそのAIに従って高騰すると予想された株を買うと、その株は買い方が優勢になるので、本当に高騰します。

これはAIが未来を当てた!と単純に喜んでいいのでしょうか?

[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]外してはないし、いんじゃね?[/word_balloon]

[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]ま、まあね・・・(いや、これつまりバブルの引き金・・・)
でも次の例はさらに厄介です[/word_balloon]

予言の自己回避

こちらは、私が勝手に名付けました。人間は不幸を予言されれば当然に回避したくなりますよね。

遠くない未来、AIの技術はかなり発達しました。その中の一つのAIがあなたの活動ログを取得解析し、「あと5年後にがんになります」と高精度のAIが未来予想をしたとしましょう。

このAIは非常に精度が高いと市民権を得ていますので、あなたは心中穏やかではありません。まず間違いなく、タバコを吸っているならタバコをへらす、運動不足の認識があればジムに通う、揚げ物は減らすでしょうし、残業を減らそうとするかもしれません。もしかしたら予防接種が有効ながんで、予防接種を受けに行くかもしれません。要は、がんにならないための生活習慣の見直しをするわけです。

それまでに体に蓄積された負債はあるにしても、ある程度がんになる時期を遅らせる効果を得られるかもしれません。

そして、がんにならなかった5年目にあなたはこう言います

AIなんてやっぱり信用ならないな!

 

このように、AIの未来予測が信用されればされるほど、予測された未来を歪めてしまうような行動を我々がとってしまうことがありえます。すべての未来予測に対して起こりうることではないですが、「ヒトの行動」から未来を予想すると、「ヒトの行動」が変わってしまい、未来は外れてしまいます。

[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]はずれてよかったじゃないか[/word_balloon]
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]ま、まあね・・・[/word_balloon]

未来予知がある程度可能な領域

これらを踏まえると、逆にある程度信用における未来予知も見えてきます。

つまり

過去に幾度となく再現されてきた現象で

人の行動が影響を与えにくい未来

は、比較的高精度に予測できる可能性があります。

未来を積極的に変えていく

現在から到達すると予想された未来を、より良いものにすることも未来予測の目的の一つでしょう。

これは、現在の状況を変化させることで達成させようとします。

人の行動が影響を与えにくい未来

については、現在の状況を変化させても未来が変わらないので、むしろ

人の行動が影響を与える未来

に相性がいいです。

ただしこのとき、現在の状況の変化範囲には注意が必要です。

過去繰り返されてきた範囲での変化であれば、現在を変化させた後の未来を予想できます。(より良くなるのか否か)

過去試されたことのない範囲まで変化してしまえば、それは”外挿”でしか未来を予測できず、その予測精度は著しく落ちることになります。

そのため、実際に変化を起こす前に、小さく試して行く(場合によってはデータも取得していく)ことが重要になります。

 

まとめ

統計とは過去と現在を知るためのツールであり、第一義には未来予測のためのツールではありません。

しかし、過去と現在を正しく理解することで、より良い未来に向けた意思決定の精度を高めることができます。

[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]敵を知り己を知れば百戦殆ふなんとやら ってやつですね[/word_balloon]
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]そこまで言うなら全部言えよ[/word_balloon]
でわでわ

スポンサーリンク

-統計
-, ,

執筆者:


  1. […]  データをてんから見てみよう統計で未来は予想出来るのかかなり批判的に考えてみたよhttps://www.ten-kara-data.com/statistics_isnot_prophet/てん@統計屋さんです統計学を駆使してビックデータ […]

comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

あなたはいつまで働きたい?-アンケートは母集団を見ないと行けないよという話をするよ-

てん@統計屋さんです 最近通勤時間に、こんな会話が聞こえてきました。 「働けるうちはいつまでも」働きたいヒトが約4割もいるんだって サラリーマン1 サラリーマン2え~定年でスパッと仕事やめたいよ~ 俺 …

【読んでみた】この世で一番おもしろい統計学

てん@統計家さんです 「この世で一番おもしろい統計学」という本を読んでみました。 大変楽しく読ませていただきましたので、感心した点を紹介したいと思います。 この記事の目次本書の特徴要約この本をおすすめ …

正規分布するデータ?そんなものないよ

てん@統計屋さんです 入門的な統計の教科書でちょいちょい見かけるフレーズがありますね。 「世の中には正規分布するものが多い」 あれ、正確じゃないです。タイトルにある「正規分布するものなんか無い!」を証 …

Student-t検定の前に行う正規性の検定・不等分散性の検定の必要性について考えてみたよ

てん@統計屋さんです 2群間の平均値が異なるかを確率的に評価する有意差検定として、Student-t検定というものがありますね。 おそらく、統計学的有意差検定を習ったことのある方は、Student-t …

統計関連の学会が発表した声明を紹介するよ

日本計てん@統計屋さんです 日本統計学会が声明を発表したというニュースが(ごく狭い範囲で?)駆け巡りました。 毎月勤労統計調査に様々な不正(意図的かどうかに関わらず)があったことに対して、落胆の表明と …

スポンサーリンク

スポンサーリンク