質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1143閲覧

機械学習での特徴量エンジニアリングについて

takuma_01219

総合スコア1

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/05/25 18:46

編集2020/05/25 18:48

機械学習、初心者です。
現在、決定木でデータ分析をしてみたのですが、仮にカテゴリ変数の1つに「魚の取れた場所」として沖縄、北海道があるとします。

これをカテゴリ変数に入れて分析した場合と、沖縄のデータのみ、北海道のデータのみで分析した場合では、正解率に差が出る事が分かりました。

決定木内部では、北海道か沖縄か、で分岐してデータ分析をしてくれていると思っていたので、少し意外だったのですが、これはどうしてなのでしょうか?
また、この差異を吸収する方法はありますか?

初心者丸出しの質問で申し訳ありません。

また、このようにデータの選び方や、コツなどあればキーワードだけでも教えていただきたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

taiyakix

2020/05/30 00:41

「魚の取れた場所」に沖縄、北海道以外は含まれていないのですか?
takuma_01219

2020/05/31 18:42 編集

ご対応ありがとうございます。 含まれていますが、それによって変わってきますか…?
taiyakix

2020/06/01 02:35

決定木と関係があるかとふと思っただけです。それ以上の意味はありません。
guest

回答1

0

ベストアンサー

目的変数(予測して求めたい値)は魚の取れ高ということでよいでしょうか。

決定木の枝の決め方も複数ありますが基本的には目的変数を説明しているちからが強い順に分けていきます。
「魚の取れた場所」以外にも天気や気温その他いろいろな説明変数(目的変数を説明するもの)があるかと思いますが
もし天気の方が「魚の取れた場所」より影響が強いと決定木が判断すればそちらが優先されます。

ですので、必ずしも絶対に「魚の取れた場所」で最初に分岐されると決まっているわけではありません(決定木側は北海道と沖縄とか知らないので、天気の方が影響あるやと判断されればそれまでです)。

全データ、沖縄のみ、北海道のみで「分析した」とありますので、都度決定木を作成したのかと思いますが、
当然ながら、全データ、沖縄のみ、北海道のみではデータが異なりますので違う決定木が作成され異なる結果となります。

「この差異を吸収する方法はありますか?」とのことで、どういったご趣旨かが分かりかねます。

正解率が高い方が良いのであれば、全データ、「魚の取れた場所」で分ける、それぞれで実施し精度の良い方を洗濯
「魚の取れた場所」で分けて理解したいのであれば「魚の取れた場所」ごとに分析し決定木をそれぞれ作成する

になるかと思います。

「魚の取れた場所」の効果を前提として、その他天気や気温の効果も用いたいとのことであれば決定木ではなく
一般化線形混合モデルや階層ベイズモデルなどがありますが、難易度が高くなります。

まずは解決したい課題は何か(予測値なのか説明変数を見極めたいのか、「魚の取れた場所」毎に分析したいのかなど)をはっきりさせ、決定木にこだわる必要がないならば重回帰分析などの方がこの場合はよいかも、などデータ分析についてもう少し繰り返し習熟されるとよろしいかと思います。

投稿2020/06/21 07:45

aokikenichi

総合スコア2218

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

takuma_01219

2020/06/29 05:34

少し勘違いがあったようです。勉強します。 丁寧な回答、ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問