質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
Kaggle

Kaggleは、機械学習モデルを構築するコンペティションのプラットフォームおよびその運営企業を指します。企業や政府といった組織とデータサイエンティスト・機械学習エンジニアを繋げるプラットフォームであり、単純なマッチングではなくコンペティションが特徴です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

解決済

機会学習で確認された特徴量から平均値や中央値、データの分布を見ることで何がわかるのか

humanbeing
humanbeing

総合スコア7

Kaggle

Kaggleは、機械学習モデルを構築するコンペティションのプラットフォームおよびその運営企業を指します。企業や政府といった組織とデータサイエンティスト・機械学習エンジニアを繋げるプラットフォームであり、単純なマッチングではなくコンペティションが特徴です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

2回答

0リアクション

0クリップ

674閲覧

投稿2022/01/07 12:14

Kaggleなどで行われるデータ探索について、わからないことがあったので質問いたします。

(厳密には、このコードは後述するコンペで実際に使われたものではありません。「学んだやり方をコンペのデータセットに当てはめてやってみた」、というだけですので、もしかしたら違和感があるかもしれません。)

値の補足
months :Total number of months in service
churn :Instance of churn between 31-60 days after observation date

適当なパラメータでLightGBMを使った二値予測(0,1)を行い、その特徴量を可視化しました。

lgb.plot_importance(model, height=0.5, figsize=(30,40))

イメージ説明
機会学習に寄与していると思われる上位5つの特徴量を検討するにあたって、平均値や中央値、データの分布を確認しています。”months”の部分を変えるだけなので、他4つは省略します。

df.groupby(["churn"])["months"].mean() churn 0 18.633074 1 19.038457 Name: months, dtype: float64
df.groupby(["churn"])["months"].median() churn 0 16 1 17 Name: months, dtype: int64
df.groupby('churn')['months'].plot.hist(bins=20, alpha=0.5, legend=True) churn 0 AxesSubplot(0.125,0.125;0.775x0.755) 1 AxesSubplot(0.125,0.125;0.775x0.755) Name: months, dtype: object

![イメージ説明]

そして、解約の有無でウィルコクソンの順位和検定を有意水準を5%とし、2群の中央値に有意差が見られるか検討しているようです。

from scipy import stats s, pvalue = stats.mannwhitneyu(df[df["churn"]==1]["months"] , df[df["churn"]==0]["months"] ,alternative='two-sided') pvalue < 0.05 True

コードの説明には、有意差があることを確認できれば、説明変数(ここでいうmonths)が高い(もしくは低い)ほど、解約率(churn)は高く(もしくは低く)なることがわかる、といった趣旨のことが書いてありました。

私の疑問は以下の3点です。

1,この平均値や中央値の値は何を示しているのでしょうか。0、即ち解約されていない状態でのmonthsの平均値と、1、解約されてしまった状態のmonthsとの平均値の間で差が生まれていれば、churnとmonthsの比例関係のようなものが見えてくるのかな、などと直観的に考えたのですが、これは正しいでしょうか。正しい場合、平均値も中央値もあまり差がないため、そのような関係が見えない、となってしまう気がします。

  1. ヒストグラムで着目すべき点はどこなのでしょうか。0と1の二色のヒストグラムはほとんど同じ分布を描いていますよね。やはり有意差はないということなのでしょうか。

3,ウィルコクソンの順位和検定、なるものは全く仕組みを知らないのですが、有意水準5%を検定してみて、Trueと出たのならばそれは有意差があるものだとみなしてよいのでしょうか。(その場合、1で立てた仮説と矛盾してしまいますが...)

Python初学者かつヒストグラムの読み方やカイ二乗検定をギリギリ知ってるという程度の統計知識しかないのですが、お答えいただけると幸いです。

よろしくお願いいたします。

Kaggle-Telecom customer
https://www.kaggle.com/abhinav89/telecom-customer

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Kaggle

Kaggleは、機械学習モデルを構築するコンペティションのプラットフォームおよびその運営企業を指します。企業や政府といった組織とデータサイエンティスト・機械学習エンジニアを繋げるプラットフォームであり、単純なマッチングではなくコンペティションが特徴です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。