イッシー、計子と
楽しく統計解析!

決定木を作ってみよう!

ところで、お兄ちゃんはめでたく男の人に分類されたけど、さっきみたいに分類されなかった小学生とかって

そのままでいいの?

 

うーん。それが、さっきも話に出てきた「誤分類」だよね?

「誤分類」はたいてい起こってしまうけど、さっきも言ったように率を低く抑えられるかどうかが問題だよね。
100回判定を行って、3回くらい間違ったとしても、それは許される範囲じゃないかな・・・

ところで、さっきはモデルの説明のために勘で木を作ってみたけど、それではデータの分析にならないよね。
実際はデータから木を作らないと・・・

 

じゃあ、どうするの・・・?

 

 

どうしたら誤分類率の低い最適な木が作れるのか実際のデータを使ってちょっとやってみるよ。

Aさんからσさんまで30人のデータがあるんだけど、このデータから決定木を作ってみるね。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

さっきと同じで、スカートから靴のサイズまで5つの項目があるんだけど、まず木の一番上にどの項目を置くか考えてみよう。

単純に考えて、一番性別を分類できる項目になるってことかな。。。

 

うーん。。。パッと見て「スカート」かなって感じがするけど・・・

 

 

うん、うん。

 

 

じゃあ、「スカート」から見てみようか?「スカート」に○が付いているのは全員女性で、9人いるよね?

ということは9人を女性に分類できるということになるんだ。次に「化粧」を見てみるよ。

「化粧」に○が付いているのは同じく女性で7人だよね。

こう考えると「化粧」より「スカート」を上位に持ってきた方がいいように思えるよね。

 

うん、うん。。。

 

 

次は「ネクタイ」。こっちは○が付いているのが男性5人に女性が2人。

こうなってくるとさっきのようにきれいに分類できている感じがしないよね。

あと、「ヒゲ」については○が付いているのが8人で全員男性。って、これはよく分類できている項目だね。

ここまで見ると・・・

 

やっぱり・・・「スカート」じゃない?

 

 

と思えるんだけど、それはただ○の数だけで判断したものだから、今度は×の方も検討しないといけないんだ。

もし仮に「スカート」という項目の×が全員男性だったら、これは分類項目としては完璧になるから、

他の項目は必要なくなるんだ。実際に×を見てみると・・・男性15人、女性6人だね。

図に表すとこうなるよ。

 

 

 

 

うーん。こうやって見るとぉ、何か違うって感じだよねぇ。。。

 

 

うん。。。そうね。。。

 

 

さっきも話したけど、この図で言うと左右の項目がどっちも片方の性別に偏っていれば理想的な項目になるんだ。

他の項目も 図にして比較してみるね。

 

 

 

 

 

 

 

これらの性別の偏りを判断して、順序を付けると。。。

1.スカート

2.ヒゲ

3.化粧

4.ネクタイ

となるかな。。。

 

あれぇ?! 結局「スカート」だったよねぇ。。。

×って結局、関係なかったぁ?! みたいな。。。

 

そうね。何だかそんな風にも見えるかも・・・

 

 

いやいや・・・両方の偏りを見ないと。。。

だめだよ。結果だけを見るのは。統計解析ではとっても危険になるんだよ。

 

 まだ若いからって先を急がない、急がない。。。

 

 

 

 

えーっ!!まさかの一休さん・・・?

 

 

もしかしてぇ・・・今流行りの「美坊主ぅ・・・」?!

キャハッッ!!

トラックバック

このブログ記事に対するトラックバックURL:

コメント & トラックバック

No comments yet.

Comment feed

イッシー、計子ちゃん、みなみちゃんにコメントをどうぞ!

みんな気になる!
「恋のタイプ診断アンケート」

只今データ集め中で~す!
みんな協力してねっ!
只今 67142人が参加中!
❤「恋のタイプ診断アンケート」はこちらから!❤

あなたは文系?理系?
それとも・・・芸術系?

有名人タイプからオススメ職業まで、あなたのタイプを診断しちゃうよっ!
★文系?理系?タイプを診断する!★

統計ハニーが電子書籍になったよ!

統計ハニーブログがいよいよ電子書籍としてデビュー!
電子書籍プラットフォーム「パブー」にて大公開中!
★電子書籍版「統計ハニー」はこちら!★



プロフィール

イッシー

A大経済学部を卒業の24歳。
現在、広告代理店に勤めている。
広告代理店ということもあり、会社がマーケティングに本腰を入れることになり、経済学部出身のイッシーに期待がかかっている。本人もビジネスアナリシスに向かって奮闘している。ビジュアル的にも「イケメン」「さわやか」と評される人気者。そして、とっても優しい。だが、そのあたりをいつも妹のみなみに「草食系」と突っつかれる。

計子ちゃん

A大経済学部を志望中の高校2年生。
将来、企業の広報部に入ってマーケティングをやりたいと思っている。そのため、統計解析を自分でも勉強しているがなかなか進まずにいる。明るくて元気が良く、とっても前向きでクラスメートの人気者だが、ちょっと図々しいところ、飽きっぽいところが難点か。。。

みなみちゃん

計子のクラスメートであり、イッシーの妹でもある。
学校でもトップクラスの優等生。一見大人しそうな外見とは正反対にクールで毒舌家。イッシーも妹とはいえ手を焼いている。学校では計子ととても仲がよく、テスト前にはいつも計子に勉強を教えている面倒見のいい一面も。意外と姉御肌・・・?!