イッシー、計子と
楽しく統計解析!

» ジニ係数のブログ記事

まだまだ決定木を甘く見ているお二人さんに今度は「ジニ係数」について説明するよ。

 

 

「ジニけいすう・・・?」

 

 

何だか、オシャレな名前ぇ・・・

 

 

ハハッ。。。この「ジニ係数」が理解できればだいぶ決定木の意味も分かるようになると思うよ。
例えば! この図のような分類の場合、AとBどっちが優れているか分かるかな・・・?

 

 

 

 

 

うーん。。。何だか今までのと違って難しいわね~・・・

 

 

ほんとぉ・・・まさにどっちもどっちって感じぃ。。。

 

 

そうだよね。今までの項目は何となく判別できたけど、こうなると判断するのは難しいよね。
こういう場合は、それぞれの偏り具合を数値化して比較したいところだね。

 

あ!それが「ジニ係数」ってやつねっ!

 

 

そっかぁ・・・さすがっっ!みなみちゃん!

 

 

うーん、ちょっと待ってよ。これから説明するところなんだからさ~。。。
これだから若い子は。。。

 

あ! もう坊主ネタはなしよ!

 

 

えー・・・計子は見たいけどぉ・・・

 

 

はいはい・・・それで、その偏り具合だけど、まず数値として出してみるために確率を使ってやってみるよ。
そこで問題!
ちょっと、「くじびき」を想像してみて。
「A-○」という箱には赤のくじが35、青のくじが77個入っています。
さて、ここで「赤」のくじを引く確率は・・・?

 

 

 

 

 

 

 

えっと・・・赤が35個で青が77だから、くじ全部の数は35+77で112でしょう。だから、35/112 ね!

 

 

わっ! さすが~みなみちゃん!

 

 

じゃ、計子ちゃん、「青」の確率は?

 

 

え?! 青は77だから・・・77/112 ぃ?

 

 

正解!

 

 

ハハっ・・・てゆうか、私、なんも計算してないしぃ・・・みなみちゃんに付けたしただけだしぃ。。。

何かぁ、おおげさじゃないっすかぁ・・・

 

じゃあ、「A-○」という、中身が全く同じ箱をもう一つ用意した場合、2つの箱から1つずつくじを引くと

同じくじを引く確率はいくつになるかな・・・?

 

 

 

 

 

 

 

 

うーん・・・これはちょっと計算に時間がかかりそうね・・・

 

 

(うっ。。。計子は永遠にとけなそう・・・)

 

 

じゃあ、一緒にやってみようか。
まず、くじの組み合わせを考えてみよう。組み合わせはこうなるよね。
「赤と青」「赤と赤」「青と青」。

 

 

 

そしたら、それぞれの確率を計算してみよう。

「赤と赤」の確率は・・・
\frac{35}{112}×\frac{35}{112}

「青と青」の確率は・・・
\frac{77}{112}×\frac{77}{112}

そうなると、同じくじを引く確率は・・・
(\frac{35}{112})^2+(\frac{77}{112})^2=0.570313
になるんだ。

何が言いたいかと言うと、「同じくじを引く確率=偏り具合」と考えるんだよ。
この値が小さいほど偏りが少ないことを表していて、大きいほど偏りがあることを表しているんだ。
逆に、1からこの値を引くと「赤と青」の組み合わせになる確率とみることができるから、
不純(ミスマッチ)の度合いを示す尺度になるんだよ。

1-0.570313=0.429687  (ジニ係数)

この尺度が「ジニ係数」!
ジニ係数が低いほど、不純度が低くなる。逆に言えば偏りが大きくなるってとこかな。。。

ふーん。。。

 

 

ミスマッチが多いとぉジニ係数は高くなってぇ、ミスマッチが低いとぉジニ係数は低くなるぅ・・・

例えばぁ・・・

 

 

 

 

 

 

あーっ!でもぉ、あんまんだったらいけそうっ!! いちご大福みたいになっちゃったりしてぇ・・・

ふふっ。。。

 

 

え?! 一体何の想像・・・?

まぁ、計子ちゃん独特の解釈はいいとして・・・
ここでちょっとまた話を進めるよ。

さっきのAとBの木にまた戻るよ。

 

 

 

 

Aが○の場合のジニ係数は0.429687。さっき求めたよね。

じゃあ、Aが×の場合のジニ係数も求めてみよう。

(\frac{65}{88})^2+(\frac{23}{88})^2=0.613895

じゃあ、ちょっとおさらい。この0.613895は何だっけ?

 

えっと・・・同じくじを引く確率・・・?

 

 

そう。じゃあ、計子ちゃん、この確率を使ってAが×の場合のジニ係数の式は?

 

 

えっとぉ・・・確かぁ、1-0.613895 ?

 

 

そう! そこで出た数字が0.386105。これがAが×の場合のジニ係数。

これでAが○、Aが×の場合のジニ係数が出揃ったね。

最後にAが○、Aが×のジニ係数の平均値を求めて、これをAのジニ係数としよう。

Aの平均値は0.410511になるんだけど、ここでちょっと注意したいのがAが○のジニ係数とAが×のジニ係数の値を足して

2で割っても平均にはならないってことなんだ。

 

え? 何でぇ・・・?

 

 

よく見て! ○の場合と×の場合で人数が違っているよね。これではそのまま2で割っても平均値は出ないよね。

こういう場合はそれぞれの値を人数倍して全体の人数で割って平均値を出すんだ。

 

なるほど~

 

 

計算式はこうだよ。

\frac{0.429687\times 112{+}0.386105\times 88}{200}=0.410511(Aの平均)

Bのジニ係数も同じように計算すると、Bは0.416967になるんだ。

これでAとBのジニ係数が出たね。

 

はぁ・・・なかなか長い道のりぃ・・・

 

 

そうだね。えっと、Aのジニ係数は0.410511でBのジニ係数は0.416967だから、Aのジニ係数の方が低いね。

つまり、偏り具合が・・・?

 

大きい!

 

 

そうだね。だからこの場合はAの方が分類に適していることになるね。

最後にここでちょっとプチ情報!

実はこの「ジニ係数」、一般的には貧富の度合いを表す尺度として使われているんだ。
例えば、「ジニ係数」が大きくなると不純、つまり所得格差が大きいってことになるんだよ。
ここに各国のジニ係数を算出した表があるから見てみて。

▼各国の可処分所得のジニ係数の比較(2000年代中頃)

 

 

 

 

 

 

 

 

 

 

へぇ~ヨーロッパが上なんだぁ。。。

 

 

うん。この表で見ると日本のジニ係数は韓国より高くて、アメリカより低いね。

 

 

アメリカは何となく分かる気がするわ~

 

 

ただ、この日本のデータは所得再分配後のものだから、税金や社会保障等で再分配される前の所得格差は

さらに大きくなってしまうんだ。

 

 

なるほど・・・

 

 

「ジニ係数」も偏差値みたいに操作してるのかなぁ・・・

なんてぇ、計子、もしかしてぇいいところに気がついちゃったぁ・・・?

 

うーん・・・それは僕も何とも言えないけど。。。

 

 

あら・・・そうなの。。。?!(がっくし・・・)

 

 

こう見ると「ジニ係数」が低い国はもしかしたら幸せなのかな~なんて思っちゃうなぁ・・・

 

 

そうだね。所得格差が大きいともちろん貧富の差も出てきてしまうからね。
しかも、この「ジニ係数」、世界的に上昇傾向にあるらしいよ。。。

日本も計子ちゃんみたいな人ばっかりだと、もしかしたら格差のないシンプルで幸せな国になるかもね!

なんて・・・ハハハ・・・

 

 

 

 

 

あ!なるほど!そうかも~! お兄ちゃん面白いコト言うじゃなーい!

 

 

え・・・?! 何ぃ~? これって、計子喜んでいいのぉ。。。?

(しかも、これ初の兄妹タッグじゃ~ん・・・)

と、「ジニ係数」についても学んだところでさっきの男性、女性を分類するデータを使って

実際の「ジニ係数」を出してみるよ。

計算式はさっきのくじのものを参考にして、とりあえず僕がそれぞれ出してみたよ。

・スカート  0.2857
・化粧    0.3478
・ヒゲ    0.3181
・ネクタイ  0.4720

 

あれ?お兄ちゃん、靴のサイズのジニ係数がないんじゃない?

 

 

そうなんだ。実は靴のサイズだけ何センチっていうサイズが関わってくるから他のものと少し異なるんだ。

実際みんなの靴のサイズのデータを見てみると、23センチで分けるのが最もジニ係数が低く抑えられそうでいいかな。。。

ということで靴のサイズに関しては23センチ未満が○、23センチ以上が×とするね。

で・・・靴のサイズのジニ係数はというと・・・

・靴のサイズ 0.4166

これで全部のジニ係数が出揃ったね。

ここでそれぞれのジニ係数を比較してみるよ。

・スカート  0.2857
・化粧    0.3478
・ヒゲ    0.3181
・靴のサイズ 0.4166
・ネクタイ  0.4720

さぁ、ここで質問!

どれで分類するのが一番いいと思う? 計子ちゃん!

 

えっとぉ・・・確かぁ、ジニ係数が低いのが偏りが大きいからぁ・・・

「スカート」っ!

 

ピンポーン!その通り!

そうなると一番高い「ネクタイ」が一番分類に向いていないってことになるね。。。

この結果から、決定木の一番上は「スカートを履いているか」ということになるよね。

実際に木を書いていってみるよ。

 

 

 

 

 

じゃあ、二番目にくる項目を考えようか。

スカートを履いているのは全員女性だったから、図の右側に当たる人、つまりスカートを履いていない人を最もよく分類できる

項目がくるってことになるかな。。。

ここでもうひと工夫!

スカートを履いていない人だけを表にしてみたよ。

 

 

 

 

 

 

 

 

 

今度はこのスカートを履いていない人のみのデータでジニ係数を出してみるよ。

・化粧    0.2380
・ヒゲ    0.3076
・ネクタイ  0.3571
・靴のサイズ 0.3714

 

あらあら・・・さっきと順番が変動しちゃった・・・

 

 

そうだね。今度は「化粧をしているか」のジニ係数が一番低くなったね。

ということで二番目にくるのは「化粧をしているか」って項目になるんだ。

 

 

 

 

 

 

 

 

となると、三番目にくるのは「スカートを履かず、化粧もしていない」人を最もよく分類する項目になるわけだね。

この作業を繰り返しやっていくと・・・

こんな感じの木になるんだ!

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ジニ係数を使うことでこの木が最も分類に適した木ということになるんだ。

ただ、一番下の「靴のサイズ23センチ未満」を女性としたことで、残念ながら2人が誤分類になっちゃったけど・・・

 

でも、すご~い!

 

 

靴のサイズは確かに難しいわ~。女性で大きい人も男性で小さい人もいるもんね。

それを除けばパーフェクトなんて、お兄ちゃんやるじゃんっ!

 

うん、うん!

 

 

うーん・・・褒めてくれるのは嬉しいんだけど、僕じゃなくて「ジニ係数」なんだよな・・・

ま、いっか・・・

 

みんな気になる!
「恋のタイプ診断アンケート」

只今データ集め中で~す!
みんな協力してねっ!
只今 71554人が参加中!
❤「恋のタイプ診断アンケート」はこちらから!❤

あなたは文系?理系?
それとも・・・芸術系?

有名人タイプからオススメ職業まで、あなたのタイプを診断しちゃうよっ!
★文系?理系?タイプを診断する!★

統計ハニーが電子書籍になったよ!

統計ハニーブログがいよいよ電子書籍としてデビュー!
電子書籍プラットフォーム「パブー」にて大公開中!
★電子書籍版「統計ハニー」はこちら!★



プロフィール

イッシー

A大経済学部を卒業の24歳。
現在、広告代理店に勤めている。
広告代理店ということもあり、会社がマーケティングに本腰を入れることになり、経済学部出身のイッシーに期待がかかっている。本人もビジネスアナリシスに向かって奮闘している。ビジュアル的にも「イケメン」「さわやか」と評される人気者。そして、とっても優しい。だが、そのあたりをいつも妹のみなみに「草食系」と突っつかれる。

計子ちゃん

A大経済学部を志望中の高校2年生。
将来、企業の広報部に入ってマーケティングをやりたいと思っている。そのため、統計解析を自分でも勉強しているがなかなか進まずにいる。明るくて元気が良く、とっても前向きでクラスメートの人気者だが、ちょっと図々しいところ、飽きっぽいところが難点か。。。

みなみちゃん

計子のクラスメートであり、イッシーの妹でもある。
学校でもトップクラスの優等生。一見大人しそうな外見とは正反対にクールで毒舌家。イッシーも妹とはいえ手を焼いている。学校では計子ととても仲がよく、テスト前にはいつも計子に勉強を教えている面倒見のいい一面も。意外と姉御肌・・・?!