てん@統計屋さんです
ネットで統計の検索をしているとたくさん見つかりますね
平均値と中央値の使い分け
とか
正規分布しないデータには平均値より中央値を使おう
みたいな解説
似たような記事を書いてもいいのですが、ここの記事では、平均値と中央値が一つの定義式で説明できる!という話に触れたいと思います。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]中央値と平均値への理解が深まると嬉しいです[/word_balloon]
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]明日役に立たない統計学の知識やな[/word_balloon]
※そもそも正規分布しないデータだからといって平均値を使っていけないなどとは思っておりません。もっと言えば、正規分布するデータなんて存在しないとまで思っています。
計算上の定義
データxiの数をn個とすると(i=1,…,n)
平均値=∑xi/n (=データの合計÷n)
中央値=データxiの大きい順で(n+1)/2番目の値(nが奇数のとき)
中央値=データxiの大きい順でn/2番目と(n+2)/2の平均値(nが偶数のとき)
性質の違い
平均値はすべてデータの値を使います、故に使用している情報量は大きいと言えますね。情報量が多いというのは、データをすべて取り直した際の数値の再現性の高さを意味します。
対して中央値は一つまたは二つのデータしか使わないで算出します。これによって最大値や最小値付近で極端な外れ値が出ようが大した影響がない。という性質(頑健性)を持ちます。
お金関係の数値の代表値として中央値を使うべきだ!という意見は、お金のデータは上位1%にも満たない方が、文字通り桁違いに保有・取得しているため、それらの方の影響を受ける平均値は、庶民の肌感覚に合わない。という問題があるからこその意見です。
※年収とか資産額の分布はボルツマン分布(熱エネルギーの分布)でかなり近似するそうです。
一方でお金のデータでも、一人辺りGDPの例がそうであるように、庶民の肌感覚よりも情報量の多さを優先する(個人に興味がなく全体としての国力に興味がある)場合は、平均値が違和感なく使われています。
損失の最小化での性質・定義
最小二乗法
データxiに対して代表値Xを、∑(xi-X)2が最小になるように探しましょう。ということを考えます。
(xi-X)2はデータと代表値の差を2乗にしたものです。(xi-X)2は代表値Xがデータxiと一致するときに0になりますので、『データxiと代表値Xの離れ方を表している』といえます。なんで2乗なんて面倒なことをするのかというと、差は正(+)の値も負(-)の値もありますが、実数を2乗すれば必ず正(+)の値となるからです。『データxiと代表値Xの離れ方』が正(+)だったり負(-)だったりせず、全部正(+)の値に統一することで、足し合わせたときにデータxi全体の代表値Xとの不一致度合いを説明できます。
この『データxiと代表値Xの離れ方=(xi-X)2』の『合計=∑(xi-X)2』を最小化しましょう、という考え方・手法を『二乗した和を最小にする方法”=最小二乗法”』と呼びます。
では∑(xi-X)2を最小化する代表値Xってなんでしょうか?詳しい証明は割愛しますが、f(X)=∑(xi-X)2をXについて微分しf'(X)=0となるXを求めるとf(X)=∑(xi-X)2は最小化するXが求まりX=∑xi/nとなります。
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]あれ?これついさっき見たね?[/word_balloon]
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]そう これは平均値そのものです[/word_balloon]
※最小二乗法は誤差に正規分布を仮定した多くの推定方法(直線回帰等)と強く関連しています。
最小残差絶対値法
次に、データxiに対して代表値Xを、∑|xi-X|が最小になるように探しましょう。ということを考えます。
|xi-X|はデータと代表値の差の絶対値を意味しています。最小二乗法では差を二乗することですべて正(+)の値に統一していましたが、絶対値も同様に差を正(+)の値に統一してくれます。
では∑|xi-X|を最小化する代表値Xってなんでしょうか?証明は一切割愛しますが答えは中央値になります(データ数が奇数のとき、偶数のときは一意に定まらないが広く中央値と呼べるものにはなる)。
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]”一切”割愛ってなんやねん?さぼりか?[/word_balloon]
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]いや、多分触りの説明だけでも一記事書けちゃう程度に面倒でさ・・・[/word_balloon]
平均値と中央値を一つの式で表記する
∑(xi-X)2を最小化する代表値Xが平均値
∑|xi-X|を最小化する代表値Xが中央値
だとすると・・・
∑|xi-X|kを最小にする代表値Xはk=1なら中央値、k=2なら平均値
ということになりますね。(∑(xi-X)2=∑|xi-X|2ということに注意してください。)
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]一つの定義で平均値も中央値も表現出来ましたね![/word_balloon]
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]いやいやだから何やねん![/word_balloon]
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]これがわかるとちょっとだけ変なことが出来るのよ[/word_balloon]
平均値と中央値の中間的な代表値
kが1と2の間例えばk=1.5としましょう。∑|xi-X|1.5を最小にする代表値Xってどんなものでしょうか?特段この代表値Xに名前はついていませんが、その性質はなんとなく予想できるかと思います。つまり、中央値ほどではないけれど外れ値に強い頑健性を持ち、平均値ほどではないけれど再測定したときの再現性が高い、という平均値と中央値の間の性質です。
多少、外れ値の影響は抑えたいけど、中央値まで情報削ぎ落としたくないなぁという様な場合に使えるかもしせません(?)
※この最小化問題を数理的に解くのは結構困難ですが、数値計算としては簡単に解けます。そのうち手順を記事にするかも?
まとめ
平均値と中央値の性質について、ちょっとだけ珍しい視点で触れてみました。平均値と中央値が一つの定義式で説明できる!そして、それがわかると、その中間的な代表値が作れる!ということがなにかの驚きにつながれば幸いです。
[word_balloon id=”1″ position=”L” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]ぶっちゃけこんな代表値を使っても外部に説明しにくいと思うので、役には立たないかなとは思うけど[/word_balloon]
[word_balloon id=”9″ position=”R” size=”M” balloon=”talk” name_position=”under_avatar” radius=”true” avatar_border=”true” avatar_shadow=”false” balloon_shadow=”true” avatar_hide=”false” box_center=”false”]あくまで知的好奇心的なものやな[/word_balloon]
ではでは