【レポート】社会人のためのデータサイエンス入門 ~ Week2 統計学の基礎 ~

箱ひげ図、高校生ぶりに見ました。
2020.10.19

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

この間新しい服を買ったので、それ見ながらニヤニヤリモートワークをしています…ってそれだけ聞くとやばそうな人間では?と思いながら、こちらを書いている新卒エンジニアのたいがーです?

前回は社会人のためのデータサイエンス入門の1週目のレポートを書かせていただきました。

今回はそちらの2週目、統計学の基礎編についてのレポートを書かせていただきます。

2-1. 代表値〜平均・中央値・最頻値〜 "たくさんのデータをひとつの数値であらわそう"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

統計的にデータを見るためにグラフを書く

総務省統計局が実施している全国消費実態調査では、世帯の年間収入の状況を調べている。このような調査を通して10000世帯から年間収入のデータが得られたとする。しかし、それらの数字をひとつ一つ見ていくのは大変なので、グラフにしてみることにする。

統計的にデータを見る第一歩としてグラフを書いてみることはとても大事なことだ。ここではヒストグラムを書いてみる。

年間収入の状況を見るためのヒストグラム

  • 横軸
    • 世帯の年間収入
  • 縦軸
    • 世帯割合

標準級間隔

どれくらいの間隔でグラフを区切ったかを表す値。今回は100万円。

ヒストグラムの形は変わらないが、縦軸を世帯数、世帯割合どちらでも描く場合がある。

1500~2000万円は世帯の割合が少ないため、500万の幅としてまとめて描いてある。この500万の幅にはいるのは全体の1.96%である。標準級間隔(100万円)と比べて幅が5倍(500万円)に広がったので、まとめて書いた部分のグラフの高さは1/5にする必要がある。

  • このヒストグラムからわかること
    • 1500万円を超える世帯は非常に少ない
    • 500万円前後の世帯が一般的なようだ

一般的な世帯の年間収入はいくらか、代表値を求めてみる。

ヒストグラムと平均値/中央値/最頻値を比べてみる

ヒストグラムと平均値

まずは全世帯の収入合計を世帯数で割り、平均値を出してみる。そしてその値の位置をヒストグラムで見てみることにする。

見た目の真ん中というよりは、収入が多い方に位置しているように見えるのではないか。実際、平均よりも収入が多い世帯は3875世帯、少ない世帯は6125世帯となっている。

平均は計算方法も簡単であり多くの人が知っている代表値だが、このような左右対象ではない分布では直感的な真ん中と異なる時がある。それでは真ん中はいくらになるのだろうか。

ヒストグラムと中央値

真ん中という定義はいろいろあるが、10000世帯を年間収入が少ない方から多い方へと順番に並び替えて、ちょうど全体の半分になるところの世帯の値が中央値になる。中央値は世帯の数を半分に分けるのだが、568万円の世帯が一番多いというわけではない。

ヒストグラムと最頻値

では、収入がいくらの世帯が一番多いのだろうか。

ヒストグラムを見れば分かる通り、300万円から400万円の世帯が一番多くなっている。

このヒストグラムには100万円の幅があるので、その真ん中をとって今回の場合は350万円のことを最頻値という。

気をつけないといけないのは、ヒストグラムを描く時の幅によって最頻値の値は変わってしまうということだ。

例えば今回の場合で言うと、同じデータの階級幅を半分にしてヒストグラムを描くと最頻値を375万円になってしまう。さらに細くすると390万になる。逆に階級幅を太くすると750万円になる。

代表値のどれを使えば良いのか

代表値のどれか一つでは不十分である。分布の形というのは、ひとつの指標だけでは表せないためである。

ヒストグラムなども使いながら、代表値使ってデータを見ていくということが大切である。

2-2. 分散・標準偏差 "データの中の違いをあらわそう"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

代表値による比較だけで変化がないと言えるのか

今回もまた10000世帯から年間収入のデータが得られたとする。10年前の収入データも調べると、3つの代表値は全く変わっていない。それでは、10年間に世帯年間収入に変化がなかったと言えるのだろうか。

ヒストグラムを見てみるとその形は異なっている。

10年前は500万円前後の世帯が多く、世帯の間の違いは少なかったのに対し、現在は収入がより多い世帯、より少ない世帯で増えており、収入の格差が広がっていることがわかる。

今回はこのようなデータの散らばりの程度を数値で表すことを考えてみる。データの散らばりを表す方法はいくつかあるが、今回は平均を利用することにする。

平均から見るデータの散らばり

10年前は平均に近い世帯が比較的に多くなっている。一方、現在は平均から離れている世帯が比較的多くなっている。そこで、一つひとつの世帯の収入を平均と比べてみる。

偏差

平均よりもいくら多いか、少ないかという値。平均からの偏差とも言う。

平均値に小さい世帯が多いのであれば、偏差は0に近い値が多くなっているはずであり、平均から離れている世帯が多いのであれば、偏差はプラス、あるいはマイナスに大きな値が多くなっているはずである。

しかし、この偏差の大きさを平均してみようとしてもプラスとマイナスの値が混ざっているため、合計は常に0になると言う性質がある。そこで、統計学は分散を使う。

分散

偏差の値を二乗し、全ての値をプラスにし、平均するした値。データの散らばりの程度を指標化した数値。二乗した値の平均であるため単位も二乗したことになる。(今回の場合は万円の二乗)

標準偏差

二乗した値である分散の平方根を取ることで元の単位に戻し計算する、データの散らばりの程度を指標化した数値。平均を中心としてデータの散らばりの程度を表した値。

10年前と現在の分散、標準偏差を見てみよう。平均は同じだが、10年前の標準偏差は242万、現在の標準偏差は351万円になっており、現在の方が世帯の年間収入の散らばりが広がっていることがわかる。

標準偏差は平均を中心としてデータの散らばりの程度を表した値なので、平均を真ん中として標準偏差の幅をヒストグラムに描いてみると10年前と現在の標準偏差では現在の方が幅が広くなるはずである。しかし、標準偏差の幅はヒストグラム全体ではなく、半分くらいカバーしていると言う点には注意しなければならない。

標準偏差はどのように使われているのか

文部科学省が実施している学校保健統計調査で男子児童生徒の身長の平均と標準偏差の値を見てみよう。年齢が上がるにつれて身長の散らばりは大きくなり、標準偏差は中学生で最大になり、高校生になると散らばりは小さくなると言うことがわかる。

標準偏差を利用した変数の標準化

最後に、標準偏差を利用した変数の標準化を見てみる。標準化というのはヒストグラムであれば横軸のメモリを付け替えることである。

データの平均は657万6千円、標準偏差は409万6千円だったとする。この時、平均からの偏差は平均が0、標準偏差が409万6千円になる。これは、ヒストグラムの横軸のメモリを付け替え、平均のところに0を持ってくるということに相当する。

標準化した値

偏差を標準偏差で割った値。標準偏差で割ることで、標準化した値の標準偏差は1になる。

標準化を使った方法として、偏差値というものがある。例えばテスト得点の分布を考えてみる。

偏差値を用いた分布の見方

テスト得点は、テスト問題の難易度によって異なる。標準化した値を使うことによって、問題の難易度が低い場合は標準値(グラフの横軸中段に記載)は1.5より少し大きな値になり、高い場合は標準値は3を超える大きな値になる。

偏差値

この標準化した値を10倍し、50を足した値。つまり、平均が50、標準偏差が10になるように変換した値。

2-3. 四分位・パーセンタイル・箱ひげ図 "データの分布を表現しよう"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

四分位を使ってデータの散らばりを考える

中央値はデータ全体をちょうど半分ずつに分けるところの値。

この考え方を使うと収入が低い方の5000世帯をさらに半分に分け、2500分世帯ずつに分割する値と言うのを考えることができる。この値を"第一四分位(Q1)"と言う。同時に収入が大きい方の500世帯をさらに半分に分ける値を"第三四分位(Q3)"と言う。中央値は"第二四分位"になる。

前回の例を使うと、中央値は10年前も現在も変わっていない。

10年前のQ1は455万円、Q3は730万円。現在のQ1は395万円、Q3は763万円。10年前よりもデータの散らばりが大きい現在の方がQ1はより小さく、Q3はより大きくなってることがわかる。

四分位範囲

Q1とQ3の差。

10年前の四分位範囲は275万円、現在の四分位範囲は368万円。

四分位偏差

四分位範囲を半分にした値。中央値から第一四分位が、中央値から第三四分位がどれほど離れているかを平均的に見たもの。

データの分布を表現するもうひとつの方法、箱ひげ図

箱ひげ図の書き方

  1. 四方位範囲のところに箱を描き、中央値のところに縦線をかく。
  2. 四方位範囲の1.5倍を超えない範囲でデータがあるところまで線を伸ばす(データがなければこの線は1.5倍よりも短くなる)
  3. 線の外側にあるデータはその位置にひとつひとつ点を打っていく

箱ひげ図はどのような場合に便利なのか

例えば月収のヒストグラムを年齢層ごとに表す場合、ヒストグラムを並べて描くと潰れてしまい分布がどのようになっているのか分からなくなる。

そのようなヒストグラムを箱ひげ図で置き換えると、年齢層によって月収の分布がどのようにちがうのかより見やすくなるだろう。

さらに年齢層によってはデータの数が異なる場合、この箱の高さをデータの数やその平方根に比例させることでグラフを描くのに使っているデータの数も合わせて、また狭いスペースに複数の分布を並べて表現することができる。

四分位を拡張するパーセンタイル

下から10%の値を10パーセンタイル、下から20%の値は20パーセンタイル、中央値は50%パーセンタイルとなる。

2-4. 関係の見方・相関係数 "データの間の関係を表現しよう(1)"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

未婚者が多いのはどういう地域と考えられるか推測する

未婚者向けの事業を企画したいという要望があったとする。その場合総務省統計局が実施している国勢調査のデータを使うことができる。e-Statでは、国勢調査の小地域集計結果が公開されており、その中には町丁字別の配偶関係の結果もあり、csv形式データを取得することができる。

未婚者が多いのはどういう地域と考えられるのだろうか。未婚者に関係すると考えられる未成年の割合、町丁字別の年齢分布、住居の種類や住宅の所有の関係も国勢調査の結果から調べることができる。

未婚の割合、未成年の割合、民営の借家の割合を町ごとに整理し、それぞれをヒストグラムにしてみるとこのようになる。

  • 横軸
    • 未成年の割合
  • 縦軸
    • 未婚の割合

散布図

データをプロットしたグラフ

まずは、未婚割合と未成年割合の関係をグラフに表して見てみる。この散布図を見てみると、未成年の割合が低い地域ほど未婚の割合が高いという関係があることがわかる。

指標となる散布図から関係を読み取る

左の散布図では、左上と右下に地域が多くなっている。これに対して右の散布図では、図の中の左下と右上に地域が多くなっている。

そこで、この散布図を未成年の割合の平均と未婚の割合の平均で四分割してみる。左の散布図では、四つの領域のうち左上と右下に入る町が多くなっている。右も同じように平均で四分割してみると、左下と右上の領域に入る町が多いことがわかる。

共分散

偏差の積の平均値。共分散がプラスかマイナスか、その大きさはどうなのかを見ることで二つの変数間の関係を知ることができる。しかし、変数のスケールの取り方によって値の大きさが変わってしまう。

例えば、百分率でなく0~1の間の割合で表すことにする。散布図の形は変わらないが横軸の偏差の大きさは100分の1(100%→1)に変わってしまう。すると共分散も100分の1になってしまう。そこで使用するのが相関係数である。

相関係数

横軸と縦軸の標準偏差の積で割った値。変数のスケールの取り方にかかわらず同じ値が得られる二つの変数間の関係。

相関係数の性質と注意点の紹介

相関係数の最大値は-1, 最大値は+1

相関係数が1に近いほど右上がりの直線に近づき、0に近づくと2つの変数の間には関係が見られなくなる。-1に近づくと右下がりの直線に近づくという性質がある。

相関係数は直線的な関係の強さを表す指標である

左の一見関係がなさそうな散布図でも相関係数が非常に大きいことがあるが、非常に離れた一点が一つあることで値が大きくなってしまう例もある。

また、真ん中の散布図は直線的な関係がありそうだが、左上と右下にそれぞれ点が一つずつあるため相関係数の値はあまり大きくなっていない。

さいごに右の散布図はU字型のはっきりした関係があるが、相関係数の値はあまり大きくなっていない。

このように、変数の間の関係を調べるためには相関係数の値を見るだけでなく、散布図を書いてみるということもとても大事なことだ。

相関係数は因果関係を表す仕様ではない

今回の例でいうと民営の借家の割合と未婚の割合の相関係数は0.723と高いが、だからといって民営の借家を増やすと未婚の割合が増える、民営の借家を減らすと未婚の割合が減るという関係があるわけではないことは常識的に考えても明らかだろう。

2-5. 回帰分析 "データの間の関係を表現しよう(2)"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

山の標高と気温の関係の例

高い山に登るほど気温は下がるが、今回は例として標高が1000m高くなると気温が6℃下がるものとする。

標高が0mのとき、気温が20℃だったとすると、1000mでは6℃下がって14℃。2000mではさらに6℃下がって8℃、3000mでは2℃となる。

標高と気温の散布図ではこのような式で表すことができる。

今回は、散布図に直線を引くことで二つの変数の間の関係を表現してみる。

線を引くことで変数間の関係を表現する単回帰分析

(散布図の真ん中を通る直線をどのように引くかということは後で説明あり。)

関係があるといっても、先ほどの標高と気温の関係のようにすべての点がこの直線の上に乗っているわけではない。この回帰直線によって、二つの変数の間の関係をどの程度表現できているのかを表す指標を次に考えていくことにする。

回帰分析による予測値を見てみる

回帰直線を使って未成年の割合から未婚の割合を予測することを考えてみる。

残差

回帰分析による予測した値と本当の値の差。プラスの値もマイナスの値もある。残差が小さいほど予測はうまくいくということを意味し、残差が大きいほど予測はうまく行かないということを意味する。

残差分散

残差を二乗し平均する。残差分散が小さいほど、回帰直線による予測がうまくいくということを意味する。

回帰係数

残差分散を最小とするように求める。

回帰直線の利用が予測にどのくらい役立つか

各地域の未婚の割合を予測する時、説明変数がなく回帰直線を利用できなかったとする。その場合は基準変数の平均で予測するのが合理的だろう。この時、実際の未婚の割合と予測時である平均との差が残差になる。

この二乗の平均は予測の外れ度合いを表すのでこの残差は平均からの偏差であり、残差の二乗の平均は基準変数、つまり未婚の割合の分散に他ならない。

次に説明変数がある、つまり回帰直線を使って予測する場合、予測値は回帰直線によって求められ、残差はこの回帰直線と実際の未婚の割合との差になる。そのため残差の二乗の平均は説明変数があると小さくなり、予測の精度が向上していることがわかる。

決定係数

説明変数があるない場合とある場合の差がどのくらいの割合なのかという値。0と1の間の数値を取る。1に近いほど説明変数を使うことで予測がうまくいく、つまり基準変数と説明変数の関係が強く、回帰直線によって二つの変数間の関係を表現できているということを表している。すべての点がこの回帰直線の上に載っていれば決定係数は1になる。

なお、決定係数と相関係数の間には、相関係数の二乗が決定係数であるという関係が成り立つ。

単回帰分析を拡張するには

まずは直線を当てはめるのではなく、曲線を当てはめるということが考えられる。この散布図では直線というよりは少しカーブしているように見える。そこで放射線の一部を当てはめてみると、決定係数は少し大きくなる。

次に未成年の割合だけでなく、民営の借家の割合という説明変数も加え、この二つの変数と未婚の割合の関係を同時に表現したいという場合を考えてみる。

重回帰分析

説明変数が複数あるときの方法。

説明変数が二つの時の重回帰分析では、このように未成年の割合と民営の借家の割合、さらに未婚の割合を使った三次元の空間上に一つ一つの地域をプロットする。そして、ここへ平面を当てはめてこの平面がどのようになっているのかということを調べ、平面と書くテントの残差を調べるということで変数間の関係を見ていく。

2-6. 標本分析 "統計数値の精度を知ろう(1)"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

標本による母集団の推測

今回は世帯当たりの年間の保険医療費を調べてみたい場合を考えてみることにする。

全国には約5000万世帯(母集団)があり、実際に5000万世帯全てを調べる方法を「全数調査」と言う。

母集団の縮図となるような標本を9000世帯選び出し、この標本だけを調べることにする。知りたいのはあくまでも母集団の状況なので、母集団について推定を行うことが必要になる。このような方法を「標本調査」と言う。

今回は5000万世帯の医療費支出の分布(母集団分布)の平均を知りたいのだが、標本が母集団の縮図となっていれば、標本の平均から母集団の平均は13万1100円と推定するのは自然な考え方だろう。この値を「推定値」と言う。

ところで、この13万1100円という金額はどのくらい正確なのだろうか。標本調査の結果には、推定値の正確さについての情報も記されていることがある。

家計調査の報告書には標準誤差率が示されており、2人以上の世帯では1.0%などとなっている。この標準誤差率とは何を表した数値なのだろうか。

標本分布

推定値が本当の母集団平均とどのくらい違っているのかは、本当の母集団平均がわからないから計算することはできない。そこで、仮に別の標本を調べたとしたら推定値はどのくらい変わるのかということを考えてみる。

推定値がこの値とほとんど変わらなければ、推定値は母集団平均に近いと考えられるし、大きく変われば推定値は本当の母集団平均から大きくズレている可能性がある。

仮に標本の抽出と推定を何度も何度も繰り返し、その度に標本平均の計算を繰り返したときに、標本平均がどのように分布するかを示したグラフが「標本分布」である。

母集団分布、標本の分布と標本分布

今回は母集団分布の平均や分散などが分からず、これらの値を知ることが目的とする。

次に標本の分布がある。この分布の平均や分散は、手元にあるデータから計算することができる。そして母集団の平均を推定したいので、標本の平均が推定値になる。

最後の標本分布は、上二つの分布とは表しているものが違っている。上の標本分布の縦軸は世帯の数だが、標本分布の縦軸はこのような標本平均がどのくらいの割合で得られるのかということを表している。標本分布も平均や分散がある。

期待値

標本分布の平均

標準誤差

標本分布の標準偏差

これらの二つの値は統計学の理論から導き出すことができる。標本によって推定値がどのくらいばらつくのかということを表した値になる。

標準誤差率

この表は文部科学省の子供の学習日調査の結果である。この調査は標本調査なので、平均値の欄に示されているのは推定値である。そして、その隣には標準誤差の値が示されている。

標準誤差率

推定値に対する標準誤差の比率

例えば、学校教育費の標準誤差は5461円、学校給食費の標準誤差は1528円となり、学校教育費の方が大きな値になっている。そもそも学校教育費の推定日は34万円と非常に大きいので、相対的に見れば学校教育費の標準誤差は学校給食費の標準誤差よりも小さいということになる。

2-7. 信頼区間 "統計数値の精度を知ろう(2)"

スピーカー

横浜市立大学データサイエンス学部 土屋 隆裕氏

前回の振り返り

目的は母集団の平均を知ること。そのため、標本を抽出し、13万1100円という値が計算された。この推定値がどのくらい正確なのかを知るために、標準分布や標準誤差というものの考え方を紹介してきた。

平均を知るために標本を抽出し、推定値を計算するということを何度も繰り返したら、その推定値はどのように分布するのかを表したのが標本分布である。これは。推定値の正確さを知るために考える。

つまり、分布は三種類存在する。

  • 母集団分布
  • 標本の分布
  • 標本分布

標本分布の性質とは

期待値は母集団平均に一致する

母集団平均とは母集団分布の平均、期待値とは標本分布の平均のことである。手元にある標本の平均は母集団平均とはずれているかもしれないが、本当の母集団平均よりも上にずれることもあり、下にずれることもあり、平均的には母集団平均と一致しているということである。

標準誤差は標本サイズの平方根に反比例する

標準誤差とは標本分布の標準誤差のことである。つまり、標本によって推定値がどのくらい変わるかは標本として調べる世帯の数に応じて決まるということである。たくさんの世帯を調べればそれだけ標本の間で標本平均の違いは小さくなり、調べる世帯の数が少なければ標準ごさは大きく、標本によっては推定値が母集団平均から大きくずれる可能性が出てくるということである。

母集団分布の形によらず、標本サイズが大きいとき正規分布に近づく

母集団分布が左右対象はない歪んだ分布であったとしても、標本として調べる世帯の数がある程度大きいと、標本分布はこのような左右対称の分布になる。

正規分布とは

正規分布は統計学ではよくみられる分布で、一山の左右対称の形をしている。そして平均を中心として左右に1標準偏差の範囲位に全体の68%が含まれる。また、標準偏差を左右に1.96倍した範囲に全体の95%が含まれる。さらに2.58倍した範囲には全体の99%が含まれている。

このような標本分布の性質を使って13万1100円という推定値が得られたとき、その正確さを評価する方法を考えてみる。

標準誤差は統計学の理論を使って計算すると、1410円であることがわかっているとする。

この推定値は本当の母集団平均に近いところにあるかもしれないし、かなり下の方にあるのかもしれない。

95%信頼区間とは

標準偏差を左右に1.96倍した範囲に全体の95%が含まれるという性質から考える範囲のこと

本当の母集団平均の位置はわからないので、標本平均を中心として標準誤差を1.96倍した範囲を考えてみる。今は標準偏差が1410円だとわかっているので、これを1.96倍した2760円の幅をつけて、12万8300円~13万3900円という区間を考えることにする。

母集団平均が標本平均よりもかなり小さく、あるいはかなり大きい場合は信頼区間の中には含まれない。しかし、多くの場合にはこの信頼区間の中に母集団平均が含まれるということが分かるだろう。

前回でも使った子供の学習費総額の推定額は23万100円となっている。

これに対して標準誤差を1.96倍した値を引いた値と、それから標準誤差を1.96倍した値を足して、22万4516円〜23万5684円という幅を考えると、本当の母集団平均はほぼこの範囲に入っていると考えて良いだろう。

標本平均は母集団中心とし、このような正規分布をする。標本平均の95%はこの範囲に入る。

100回に5回くらいの割合で、母集団平均はこの区画からはずれてしまう。つまり、95%の割合で母集団平均を含むことになるわけである。

まとめ

高校生の時に習った箱ひげ図や代表値などを再びみることになり、驚きました。また、偏差値の出し方を改めて知ることができたので高校の成績表を探してみましたが、見つかりませんでした…

統計学はあまり関係のない分野だと思っていたところもどこかにあったのですが、今まで少しずつ関わってきたのを知り、より深く学んでみたくなりました。

以上、たいがーでした?