機会学習で確認された特徴量から平均値や中央値、データの分布を見ることで何がわかるのか

Kaggleなどで行われるデータ探索について、わからないことがあったので質問いたします。

（厳密には、このコードは後述するコンペで実際に使われたものではありません。「学んだやり方をコンペのデータセットに当てはめてやってみた」、というだけですので、もしかしたら違和感があるかもしれません。）

値の補足
months :Total number of months in service
churn :Instance of churn between 31-60 days after observation date

適当なパラメータでLightGBMを使った二値予測（０，１）を行い、その特徴量を可視化しました。

lgb.plot_importance(model, height=0.5, figsize=(30,40))

機会学習に寄与していると思われる上位５つの特徴量を検討するにあたって、平均値や中央値、データの分布を確認しています。”months”の部分を変えるだけなので、他４つは省略します。

df.groupby(["churn"])["months"].mean()

churn
0    18.633074
1    19.038457
Name: months, dtype: float64

df.groupby(["churn"])["months"].median()

churn
0    16
1    17
Name: months, dtype: int64

df.groupby('churn')['months'].plot.hist(bins=20, alpha=0.5, legend=True)

churn
0    AxesSubplot(0.125,0.125;0.775x0.755)
1    AxesSubplot(0.125,0.125;0.775x0.755)
Name: months, dtype: object

![]

そして、解約の有無でウィルコクソンの順位和検定を有意水準を5%とし、2群の中央値に有意差が見られるか検討しているようです。

from scipy import stats
s, pvalue = stats.mannwhitneyu(df[df["churn"]==1]["months"]
                , df[df["churn"]==0]["months"]
                ,alternative='two-sided')
pvalue < 0.05

True

コードの説明には、有意差があることを確認できれば、説明変数（ここでいうmonths)が高い（もしくは低い）ほど、解約率（churn)は高く（もしくは低く）なることがわかる、といった趣旨のことが書いてありました。

私の疑問は以下の3点です。

１，この平均値や中央値の値は何を示しているのでしょうか。0、即ち解約されていない状態でのmonthsの平均値と、1、解約されてしまった状態のmonthsとの平均値の間で差が生まれていれば、churnとmonthsの比例関係のようなものが見えてくるのかな、などと直観的に考えたのですが、これは正しいでしょうか。正しい場合、平均値も中央値もあまり差がないため、そのような関係が見えない、となってしまう気がします。

ヒストグラムで着目すべき点はどこなのでしょうか。0と１の二色のヒストグラムはほとんど同じ分布を描いていますよね。やはり有意差はないということなのでしょうか。

3，ウィルコクソンの順位和検定、なるものは全く仕組みを知らないのですが、有意水準5％を検定してみて、Trueと出たのならばそれは有意差があるものだとみなしてよいのでしょうか。(その場合、1で立てた仮説と矛盾してしまいますが...)

Python初学者かつヒストグラムの読み方やカイ二乗検定をギリギリ知ってるという程度の統計知識しかないのですが、お答えいただけると幸いです。

よろしくお願いいたします。

Kaggle-Telecom customer
https://www.kaggle.com/abhinav89/telecom-customer

行動規範の内容に同意します

回答2件

ベストアンサー

すでに別の方が回答されてますが、回答依頼をいただきましたので、少し別の観点で

１，この平均値や中央値の値は何を示しているのでしょうか。0、即ち解約されていない状態でのmonthsの平均値と、1、解約されてしまった状態のmonthsとの平均値の間で差が生まれていれば、churnとmonthsの比例関係のようなものが見えてくるのかな、などと直観的に考えたのですが、これは正しいでしょうか。正しい場合、平均値も中央値もあまり差がないため、そのような関係が見えない、となってしまう気がします。

humanbeingさんは「あまり差がない」と仰ってますが、どうしてそう言えるのでしょうか？
データによって、また見る人によって差が出ますよね。ですのでそれを誰が見てもこうだ、と言えるために統計的検定というものがあり、ウィルコクソンの順位和検定がその一つですね。

(その場合、1で立てた仮説と矛盾してしまいますが...)

はい、humanbeingさんが「あまり差がない」と感じたことが、少なくとも「ウィルコクソンの順位和検定」の見立てでは間違い（の可能性が高そう）と分かったことになります。
俺はこう思う、私はこう思うの言い合いではなく、統計的に定量的に見るとどうなるかという判断をしているということです。

機会学習で確認された特徴量から平均値や中央値、データの分布を見ることで何がわかるのか

特徴量と目的変数の関連性を見ていることになります。最近はAutoMLが流行り出し、自動の機械学習に掛けることでもある程度のことまで分かりますが、より精度を上げるとか、精度ではなくどういう特徴量が予測に影響しているかなどを詳しくいるためにはこういった特徴量エンジニアリングという作業をたくさんします。
特にKaggleは精度を突き詰めるので、少しでも特徴量と目的変数の関連性を見極め、その後のデータ加工やパラメータ調整に役立てるようです。

補足
「機会学習」→「機械学習」

投稿2022/01/09 09:17

aokikenichi

総合スコア2240

humanbeing

2022/01/10 10:31

aokikenichiさん、回答依頼への対応ありがとうございます。 >データによって、また見る人によって差が出ますよね。ですのでそれを誰が見てもこうだ、と言えるために統計的検定というものがあり、ウィルコクソンの順位和検定がその一つですね。　統計学を学んでいるにも関わらず、その視点を持つことができていませんでした。データに正しい解釈を与えるのが統計学だと肝に銘じておきます。 >俺はこう思う、私はこう思うの言い合いではなく、統計的に定量的に見るとどうなるかという判断をしているということです。　ウィルコクソンの順位和検定で検証を行って初めてデータの解釈が与えられたとみているのですね。検定の意味もこれから学ぶ際に気を付けなければいけませんね。 >特徴量と目的変数の関連性を見ていることになります。　因果関係を数字から読み解くというのは社会科学的なポリシーでもあり、統計や理論を学ぶことの最終的な目的でもあるはずです。feature engineeringの例はいくつか見てきましたが、自分でそれをやるとなるともっと数字に対する眼を養う必要がありそうです。タイトルも最後に回収して頂き、統計や機械学習への理解が深まりました。ありがとうございました。

aokikenichi

2022/01/10 11:04

>ウィルコクソンの順位和検定で検証を行って初めてデータの解釈が与えられたとみているのですね。念の為補足しますとこの検定も解釈の一つです。値から得られた印象も解釈の一つです。ただ印象だと他人と共有しづらいのが弱み。検定も検定方法により癖がありますので、より厳密さを求めるならば複数の異なる検定を比較するなども行われます。

行動規範の内容に同意します

・この平均値や中央値の値は何を示しているのか？

質問に記載の通り、解約した人と継続している人のmonthsの平均と中央値です。仮にmonthsとchurnに因果関係があるとすれば、churn=0と1で平均や中央値に差異があるはずということになります。結果は微妙ではありますが、差異があるということが示されています。

・ヒストグラムで着目すべき点はどこなのでしょうか？

平均値や中央値は分布をサマライズした値でしかないので分布全体を見ないと結果の解釈を誤ります。本来、分布の形状が近似かつ平均値・中央値の差異が認識できる程度に左右にズレていれば、平均値と中央値の差異をそのまま信じていいことになります。
しかしながら、質問に記載の通りに差異があるように見られません。つまり、平均値と中央値の差異は偶然かもしれないということを示唆しています。

・有意水準5％を検定してみて、Trueと出たのならばそれは有意差があるものだとみなしてよいのでしょうか。

可視化の結果から平均値・中央値の差異が偶然の可能性が示唆されたため、検定を行っています。検定は、偶然の結果である（つまり両者には差異がない）という帰無仮説に対してp値を計算します。この値が所定の閾値（今回は5%）より小さければ帰無仮説が棄却され、観測された平均値には有意な差異があるという解釈ができます。

投稿2022/01/09 02:47

R.Shigemori

総合スコア3376

humanbeing

2022/01/10 10:04

R.shigemoriさん、回答ありがとうございます。 >結果は微妙ではありますが、差異があるということが示されています。　微妙でも、差異があるというようにとらえるのですね。 >本来、分布の形状が近似かつ平均値・中央値の差異が認識できる程度に左右にズレていれば、平均値と中央値の差異をそのまま信じていいことになります。　なるほど。ヒストグラムは平均値や中央値の差異を分布で確認するために存在していたのですね。それを左右のズレで把握するという、という理解がありませんでした。ありがとうございます。 >可視化の結果から平均値・中央値の差異が偶然の可能性が示唆されたため、検定を行っています。検定は、偶然の結果である（つまり両者には差異がない）という帰無仮説に対してp値を計算します。　差異が本当に意味を持つのか、という疑問を検定で検証しているのですね。平均値や中央値、ヒストグラムで確認された事実を検証するフェイズであるということがわかっていませんでした。ありがとうございます。一つ一つ丁寧にお答えいただき大変助かりました！ありがとうございました。

行動規範の内容に同意します

あなたの回答