p値を下げている配列を知りたい

前提・実現したいこと

p値を下げている配列を知りたい。

発生している問題・エラーメッセージ

特にエラーは発生していない。

該当のソースコード

#coding:utf-8
import scipy as sp
import scipy.stats
import pandas as pd
import numpy as np

data = [[23. 45. 78. 23. 48.][36. 94. 34. 10. 40.][46. 85. 39. 62. 81.][1. 1. 1. 1. 1.]]
result= sp.stats.bartlett(*data)
print(result)

とコードを書いて実行したところ、
BartlettResult(statistic=4.3945586749853556, pvalue=0.009338345709)
のように出力された。今回の場合だと、data の[1. 1. 1. 1. 1.]がp値を下げている配列である。それを検出したい。

試したこと

for文を書いて一つ一つ検出する方法を思いついたが、しかしどのようにp値を下げているかいなかを判定すればいいのかわからなかった。

行動規範の内容に同意します

回答3件

雑な発想ですが、素直に各配列の分散を求めて外れ値除去的な方法（分散の分布を見て2シグマ、とか）でハジけば、それなりに行けるんじゃないかなぁ、とか思ったり。あまり厳密な方法ではないかもしれませんが、参考までに。

投稿2018/04/21 11:51

hayataka2049

総合スコア30939

R.Shigemori

2018/04/22 23:46

候補選びはこれでいけると思います。確定できるかというと、barlett検定はカイ二乗分布を使っている関係で自由度が変わるとp値にも影響するので、計算して確定する処理が必要です

hayataka2049

2018/04/23 02:32

勉強になりました。確かに計算してみないことには最終的なp値は・・・か

行動規範の内容に同意します

ベストアンサー

おそらく、配列を順番に除いてbartlettに入力するのが近道のように思います。1番目の配列を除いて残りだけで実施した場合、2番目を除外して実施した場合、などを順番に行い、最も期待するP値に近くなるケースを探索すればいいかと思います。

投稿2018/04/21 10:34

R.Shigemori

総合スコア3378

kaitotokai

2018/04/21 11:23

ありがとうございます。そのような考え方があるのですね！一つ質問なのですが、もしデータが、 data = [[23. 45. 78. 23. 48.][36. 94. 34. 10. 40.][46. 85. 39. 62. 81.][50. 74. 63. 83. 71.][1. 1. 1. 1. 1.][58. 73. 27. 47. 66.][71. 77. 33. 42. 47.]×100・・・[2. 2. 2. 2. 2.]]のように、２０〜８０までの数字が１００ほどあり、その中に[1. 1. 1. 1. 1.]と[2. 2. 2. 2. 2.]の配列が混ざっていて、これらがp値を下げている原因で、この２つの配列を取り除きたいとしたらどうしたらいいでしょうか？僕がお聞きしたいのは、p値を下げている配列が何個かわからなくて、その場合でもp値を下げている配列をpick upしたい時、という意図なのですが。

R.Shigemori

2018/04/21 12:45

探索的なアプローチなので、1つを取り除いたのちにさらに１つを取り除くこと探索を繰り返せばいいのかなぁとそもそも思っていました。探索のゴールはどれを取り除いても結果にほとんど変化がない状態です。あるいは、目標とするｐ値になったときというのもアリでしょう。いずれにも合致しない、つまりすべての探索が終わった場合も終了条件です。ちなみに、bartlett法でp値を下げている配列を除外したい意図はどこにあるのでしょうか？私の理解だと、bartlett法で帰無仮説が採択されても棄却されても大勢に影響はないと思っています。理由は、その結果は二元配置分散分析や一元配置分散分析が使えるかどうかというだけで、使えない（つまり分散が不均一）場合は、他の方法が適用できるので深刻な問題にならないと思っていました。おそらく、別の用途があってのことかと思うので後学のため、教えていただけるとありがたく思います。

kaitotokai

2018/04/22 04:24

すみません、言葉足らずでした。kruskal-wallis検定でもp値（pvalue=0.009338345709などのように）が出ると思いますが、その時p値を下げている配列を知りたかったので、p値を下げている配列が何かを知りたかったです。もしご存知でしたら教えていただきたいです。

R.Shigemori

2018/04/22 23:34

kruskal-wallisでも同じアプローチ方法でいけると思います。配列ひとつを除外してp値を計算する処理を複数回実施してp値に大きな影響を与える配列を特定するという処理を所定の条件を満たすまで行えばいいことになります。

kaitotokai

2018/04/23 02:05

承知しました！ありがとうございます。

行動規範の内容に同意します

数理計画法的に考えてみる(解決したい課題を定義する)のはいかがでしょうか？

投稿2018/04/21 06:08