回答編集履歴

全面改訂（何度もすみません）

2019/09/15 03:04

投稿

nomuken

スコア1627

answer CHANGED Viewed

@@ -1,81 +1,15 @@
-実際に演算しているのは
+内容を全面改訂しました。
-https://github.com/statsmodels/statsmodels/blob/bc5680db6265d275d89505815a5cec9e9f632239/statsmodels/sandbox/stats/multicomp.py#L1239
-だと思うのでこれ読み解かないといけないと思います。
----
+`print(pairwise_tukeyhsd(data_arr,ind_arr))`
+を実行するとpairwise_tukeyhsd(data_arr,ind_arr)はTukeyHSDResultsインスタンスを返してきますがメソッド`__str__()`で文字列に変換されてしまいます。
-コピペ＆可変で算出に関連するパラメタをデバッグ出力する版
+一旦、変数で受けて、`vars()`で表示すればよいです。
 ```Python
-from statsmodels.stats.multicomp import pairwise_tukeyhsd
-import numpy as np
-from statsmodels.sandbox.stats.multicomp import (  # noqa:F401
-    tukeyhsd, MultiComparison, GroupsStats, TukeyHSDResults, get_tukey_pvalue, varcorrection_pairs_unbalanced, get_tukeyQcrit2)
-import copy
-import math
-import numpy as np
-from numpy.testing import assert_almost_equal, assert_equal
-from scipy import stats, interpolate
-from statsmodels.compat.python import lzip, lrange
-from statsmodels.iolib.table import SimpleTable
-#temporary circular import
-from statsmodels.stats.multitest import multipletests, _ecdf as ecdf, fdrcorrection as fdrcorrection0, fdrcorrection_twostage
-from statsmodels.graphics import utils
-from statsmodels.tools.sm_exceptions import ValueWarning
-class MultiComparison2(MultiComparison):
-    def __init__(self, data, groups, group_order=None):
-        super().__init__(data, groups, group_order)
-    def tukeyhsd2(self, alpha=0.05):
-        self.groupstats = GroupsStats(
-            np.column_stack([self.data, self.groupintlab]),
-            useranks=False)
-        gmeans = self.groupstats.groupmean
-        gnobs = self.groupstats.groupnobs
-        # var_ = self.groupstats.groupvarwithin()
-        # #possibly an error in varcorrection in this case
-        var_ = np.var(self.groupstats.groupdemean(), ddof=len(gmeans))
-        # res contains: 0:(idx1, idx2), 1:reject, 2:meandiffs, 3: std_pairs,
-        # 4:confint, 5:q_crit, 6:df_total, 7:reject2, 8: pvals
-        res = tukeyhsd(gmeans, gnobs, var_, df=None, alpha=alpha, q_crit=None)
-        resarr = np.array(lzip(self.groupsunique[res[0][0]],
-                               self.groupsunique[res[0][1]],
-                               np.round(res[2], 4),
-                               np.round(res[8], 4),
-                               np.round(res[4][:, 0], 4),
-                               np.round(res[4][:, 1], 4),
-                               res[1]),
-                          dtype=[('group1', object),
-                                 ('group2', object),
-                                 ('meandiff', float),
-                                 ('p-adj', float),
-                                 ('lower', float),
-                                 ('upper', float),
-                                 ('reject', np.bool8)])
-        results_table = SimpleTable(resarr, headers=resarr.dtype.names)
-        results_table.title = 'Multiple Comparison of Means - Tukey HSD, ' + \
-                              'FWER=%4.2f' % alpha
-        print(res)
-        print("pvals             is ", res[8])
-        print("reject            is ", res[1])
-        print("std_pairs         is ", res[3])
-        st_range = np.abs(res[2]) / res[3]
-        print("st_range          is ", st_range)
-        print("q_crit            is ", res[5])
-        print("st_range > q_crit is ", st_range > res[5])
-        return TukeyHSDResults(self, results_table, res[5], res[1], res[2],
-                               res[3], res[4], res[6], res[7], var_, res[8])
 def tukey_hsd( lst, ind, n ):
     data_arr = np.hstack( lst )
     ind_arr = np.repeat(ind, n)
-    print(MultiComparison2(data_arr, ind_arr).tukeyhsd2(alpha=0.05))
+    res = pairwise_tukeyhsd(data_arr, ind_arr)
+    print(vars(res))
 A = np.array([15,9,18,14,18])
@@ -87,36 +21,16 @@
 ```
 ```result
-((array([0, 0, 0, 1, 1, 2], dtype=int64), array([1, 2, 3, 2, 3, 3], dtype=int64)), array([False,  True,  True, False, False, False]), array([-5.2, -5.6, -8.4, -0.4, -3.2, -2.8]), array([1.31339255, 1.31339255, 1.31339255, 1.31339255, 1.31339255,
-       1.31339255]), array([[-10.51452797,   0.11452797],
+{'_multicomp': <statsmodels.sandbox.stats.multicomp.MultiComparison object at 0x0000015F51131C88>, '_results_table': <class 'statsmodels.iolib.table.SimpleTable'>, 'q_crit': 4.046412438282385, 'reject': array([False,  True,  True, False, False, False]), 'meandiffs': array([-5.2, -5.6, -8.4, -0.4, -3.2, -2.8]), 'std_pairs': array([1.31339255, 1.31339255, 1.31339255, 1.31339255, 1.31339255,
+       1.31339255]), 'confint': array([[-10.51452797,   0.11452797],
        [-10.91452797,  -0.28547203],
        [-13.71452797,  -3.08547203],
        [ -5.71452797,   4.91452797],
        [ -8.51452797,   2.11452797],
-       [ -8.11452797,   2.51452797]]), 4.046412438282385, 16, array([False,  True,  True, False, False, False]), array([0.0562591 , 0.03714849, 0.00177409, 0.9       , 0.34502168,
-       0.45735327]))
-pvals             is  [0.0562591  0.03714849 0.00177409 0.9        0.34502168 0.45735327]
-reject            is  [False  True  True False False False]
-std_pairs         is  [1.31339255 1.31339255 1.31339255 1.31339255 1.31339255 1.31339255]
-st_range          is  [3.95921234 4.26376713 6.3956507  0.3045548  2.43643836 2.13188357]
-q_crit            is  4.046412438282385
-st_range > q_crit is  [False  True  True False False False]
- Multiple Comparison of Means - Tukey HSD, FWER=0.05
-=====================================================
-group1 group2 meandiff p-adj   lower    upper  reject
------------------------------------------------------
-     A      B     -5.2 0.0563 -10.5145  0.1145  False
-     A      C     -5.6 0.0371 -10.9145 -0.2855   True
-     A      D     -8.4 0.0018 -13.7145 -3.0855   True
-     B      C     -0.4    0.9  -5.7145  4.9145  False
-     B      D     -3.2  0.345  -8.5145  2.1145  False
-     C      D     -2.8 0.4574  -8.1145  2.5145  False
------------------------------------------------------
+       [ -8.11452797,   2.51452797]]), 'df_total': 16, 'reject2': array([False,  True,  True, False, False, False]), 'variance': 8.625000000000002, 'pvalues': array([0.0562591 , 0.03714849, 0.00177409, 0.9       , 0.34502168,
+       0.45735327]), 'data': array([15,  9, 18, 14, 18, 13,  8,  8, 12,  7, 10,  6, 11,  7, 12, 10,  7,
+        3,  5,  7]), 'groups': array(['A', 'A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B', 'C', 'C', 'C',
+       'C', 'C', 'D', 'D', 'D', 'D', 'D'], dtype='<U1'), 'groupsunique': array(['A', 'B', 'C', 'D'], dtype='<U1')}
 ```
-> Attributesに(pvaluesadjusted p-values from the HSD test)と書かれているので、
-> そのTukeyHSDResultsインスタンスのAttributesの中身を見る方法があればこの問題は解決すると思うのですが。
-TukeyHSDResults()の引数`pvalues`に渡しているのが`res[8]`でその値が
-`pvals             is  [0.0562591  0.03714849 0.00177409 0.9        0.34502168 0.45735327]`
+`'pvalues': array([0.0562591 , 0.03714849, 0.00177409, 0.9       , 0.34502168,
-になりますが、期待した出力になっているでしょうか？
+       0.45735327])`が所望のデータだと思います。

いろいろ誤り修正

2019/09/15 03:04

投稿

nomuken

スコア1627

answer CHANGED Viewed

@@ -3,14 +3,13 @@
 だと思うのでこれ読み解かないといけないと思います。
 ---
-求め方じゃなくて値を確認したいんですかね。
 コピペ＆可変で算出に関連するパラメタをデバッグ出力する版
 ```Python
 from statsmodels.stats.multicomp import pairwise_tukeyhsd
 import numpy as np
 from statsmodels.sandbox.stats.multicomp import (  # noqa:F401
-    tukeyhsd, MultiComparison, GroupsStats, TukeyHSDResults, get_tukey_pvalue)
+    tukeyhsd, MultiComparison, GroupsStats, TukeyHSDResults, get_tukey_pvalue, varcorrection_pairs_unbalanced, get_tukeyQcrit2)
 import copy
 import math
@@ -62,15 +61,17 @@
         results_table.title = 'Multiple Comparison of Means - Tukey HSD, ' + \
                               'FWER=%4.2f' % alpha
         print(res)
+        print("pvals             is ", res[8])
+        print("reject            is ", res[1])
+        print("std_pairs         is ", res[3])
-        st_range = np.abs(res[2])
+        st_range = np.abs(res[2]) / res[3]
         print("st_range          is ", st_range)
         print("q_crit            is ", res[5])
         print("st_range > q_crit is ", st_range > res[5])
-        print("reject            is ", res[1])
         return TukeyHSDResults(self, results_table, res[5], res[1], res[2],
                                res[3], res[4], res[6], res[7], var_, res[8])
 def tukey_hsd( lst, ind, n ):
     data_arr = np.hstack( lst )
     ind_arr = np.repeat(ind, n)
@@ -84,7 +85,6 @@
 tukey_hsd( (A,B,C,D), list('ABCD') , 5)
 ```
-meandiff列の絶対値がq_critを上回るとreject列がTrueになるはずだけどA-BがなぜFalseになるか不明。
 ```result
 ((array([0, 0, 0, 1, 1, 2], dtype=int64), array([1, 2, 3, 2, 3, 3], dtype=int64)), array([False,  True,  True, False, False, False]), array([-5.2, -5.6, -8.4, -0.4, -3.2, -2.8]), array([1.31339255, 1.31339255, 1.31339255, 1.31339255, 1.31339255,
@@ -95,10 +95,12 @@
        [ -8.51452797,   2.11452797],
        [ -8.11452797,   2.51452797]]), 4.046412438282385, 16, array([False,  True,  True, False, False, False]), array([0.0562591 , 0.03714849, 0.00177409, 0.9       , 0.34502168,
        0.45735327]))
+pvals             is  [0.0562591  0.03714849 0.00177409 0.9        0.34502168 0.45735327]
+reject            is  [False  True  True False False False]
+std_pairs         is  [1.31339255 1.31339255 1.31339255 1.31339255 1.31339255 1.31339255]
-st_range          is  [5.2 5.6 8.4 0.4 3.2 2.8]
+st_range          is  [3.95921234 4.26376713 6.3956507  0.3045548  2.43643836 2.13188357]
 q_crit            is  4.046412438282385
-st_range > q_crit is  [ True  True  True False False False]
+st_range > q_crit is  [False  True  True False False False]
-reject            is  [False  True  True False False False]
  Multiple Comparison of Means - Tukey HSD, FWER=0.05
 =====================================================
 group1 group2 meandiff p-adj   lower    upper  reject
@@ -110,4 +112,11 @@
      B      D     -3.2  0.345  -8.5145  2.1145  False
      C      D     -2.8 0.4574  -8.1145  2.5145  False
 -----------------------------------------------------
-```
+```
+> Attributesに(pvaluesadjusted p-values from the HSD test)と書かれているので、
+> そのTukeyHSDResultsインスタンスのAttributesの中身を見る方法があればこの問題は解決すると思うのですが。
+TukeyHSDResults()の引数`pvalues`に渡しているのが`res[8]`でその値が
+`pvals             is  [0.0562591  0.03714849 0.00177409 0.9        0.34502168 0.45735327]`
+になりますが、期待した出力になっているでしょうか？

誤記修正

2019/09/15 02:36

投稿

nomuken

スコア1627

answer CHANGED Viewed

@@ -84,7 +84,7 @@
 tukey_hsd( (A,B,C,D), list('ABCD') , 5)
 ```
-meandiff列の絶対値がq_critを上回るとFalseになるはずだけどA-BがなぜFalseになるか不明。
+meandiff列の絶対値がq_critを上回るとreject列がTrueになるはずだけどA-BがなぜFalseになるか不明。
 ```result
 ((array([0, 0, 0, 1, 1, 2], dtype=int64), array([1, 2, 3, 2, 3, 3], dtype=int64)), array([False,  True,  True, False, False, False]), array([-5.2, -5.6, -8.4, -0.4, -3.2, -2.8]), array([1.31339255, 1.31339255, 1.31339255, 1.31339255, 1.31339255,

いろいろ更新

2019/09/14 11:32

投稿

nomuken

スコア1627

answer CHANGED Viewed

@@ -1,3 +1,113 @@
 実際に演算しているのは
 https://github.com/statsmodels/statsmodels/blob/bc5680db6265d275d89505815a5cec9e9f632239/statsmodels/sandbox/stats/multicomp.py#L1239
-だと思うのでこれ読み解かないといけないと思います。
+だと思うのでこれ読み解かないといけないと思います。
+---
+求め方じゃなくて値を確認したいんですかね。
+コピペ＆可変で算出に関連するパラメタをデバッグ出力する版
+```Python
+from statsmodels.stats.multicomp import pairwise_tukeyhsd
+import numpy as np
+from statsmodels.sandbox.stats.multicomp import (  # noqa:F401
+    tukeyhsd, MultiComparison, GroupsStats, TukeyHSDResults, get_tukey_pvalue)
+import copy
+import math
+import numpy as np
+from numpy.testing import assert_almost_equal, assert_equal
+from scipy import stats, interpolate
+from statsmodels.compat.python import lzip, lrange
+from statsmodels.iolib.table import SimpleTable
+#temporary circular import
+from statsmodels.stats.multitest import multipletests, _ecdf as ecdf, fdrcorrection as fdrcorrection0, fdrcorrection_twostage
+from statsmodels.graphics import utils
+from statsmodels.tools.sm_exceptions import ValueWarning
+class MultiComparison2(MultiComparison):
+    def __init__(self, data, groups, group_order=None):
+        super().__init__(data, groups, group_order)
+    def tukeyhsd2(self, alpha=0.05):
+        self.groupstats = GroupsStats(
+            np.column_stack([self.data, self.groupintlab]),
+            useranks=False)
+        gmeans = self.groupstats.groupmean
+        gnobs = self.groupstats.groupnobs
+        # var_ = self.groupstats.groupvarwithin()
+        # #possibly an error in varcorrection in this case
+        var_ = np.var(self.groupstats.groupdemean(), ddof=len(gmeans))
+        # res contains: 0:(idx1, idx2), 1:reject, 2:meandiffs, 3: std_pairs,
+        # 4:confint, 5:q_crit, 6:df_total, 7:reject2, 8: pvals
+        res = tukeyhsd(gmeans, gnobs, var_, df=None, alpha=alpha, q_crit=None)
+        resarr = np.array(lzip(self.groupsunique[res[0][0]],
+                               self.groupsunique[res[0][1]],
+                               np.round(res[2], 4),
+                               np.round(res[8], 4),
+                               np.round(res[4][:, 0], 4),
+                               np.round(res[4][:, 1], 4),
+                               res[1]),
+                          dtype=[('group1', object),
+                                 ('group2', object),
+                                 ('meandiff', float),
+                                 ('p-adj', float),
+                                 ('lower', float),
+                                 ('upper', float),
+                                 ('reject', np.bool8)])
+        results_table = SimpleTable(resarr, headers=resarr.dtype.names)
+        results_table.title = 'Multiple Comparison of Means - Tukey HSD, ' + \
+                              'FWER=%4.2f' % alpha
+        print(res)
+        st_range = np.abs(res[2])
+        print("st_range          is ", st_range)
+        print("q_crit            is ", res[5])
+        print("st_range > q_crit is ", st_range > res[5])
+        print("reject            is ", res[1])
+        return TukeyHSDResults(self, results_table, res[5], res[1], res[2],
+                               res[3], res[4], res[6], res[7], var_, res[8])
+def tukey_hsd( lst, ind, n ):
+    data_arr = np.hstack( lst )
+    ind_arr = np.repeat(ind, n)
+    print(MultiComparison2(data_arr, ind_arr).tukeyhsd2(alpha=0.05))
+A = np.array([15,9,18,14,18])
+B = np.array([13,8,8,12,7])
+C = np.array([10,6,11,7,12])
+D = np.array([10,7,3,5,7])
+tukey_hsd( (A,B,C,D), list('ABCD') , 5)
+```
+meandiff列の絶対値がq_critを上回るとFalseになるはずだけどA-BがなぜFalseになるか不明。
+```result
+((array([0, 0, 0, 1, 1, 2], dtype=int64), array([1, 2, 3, 2, 3, 3], dtype=int64)), array([False,  True,  True, False, False, False]), array([-5.2, -5.6, -8.4, -0.4, -3.2, -2.8]), array([1.31339255, 1.31339255, 1.31339255, 1.31339255, 1.31339255,
+       1.31339255]), array([[-10.51452797,   0.11452797],
+       [-10.91452797,  -0.28547203],
+       [-13.71452797,  -3.08547203],
+       [ -5.71452797,   4.91452797],
+       [ -8.51452797,   2.11452797],
+       [ -8.11452797,   2.51452797]]), 4.046412438282385, 16, array([False,  True,  True, False, False, False]), array([0.0562591 , 0.03714849, 0.00177409, 0.9       , 0.34502168,
+       0.45735327]))
+st_range          is  [5.2 5.6 8.4 0.4 3.2 2.8]
+q_crit            is  4.046412438282385
+st_range > q_crit is  [ True  True  True False False False]
+reject            is  [False  True  True False False False]
+ Multiple Comparison of Means - Tukey HSD, FWER=0.05
+=====================================================
+group1 group2 meandiff p-adj   lower    upper  reject
+-----------------------------------------------------
+     A      B     -5.2 0.0563 -10.5145  0.1145  False
+     A      C     -5.6 0.0371 -10.9145 -0.2855   True
+     A      D     -8.4 0.0018 -13.7145 -3.0855   True
+     B      C     -0.4    0.9  -5.7145  4.9145  False
+     B      D     -3.2  0.345  -8.5145  2.1145  False
+     C      D     -2.8 0.4574  -8.1145  2.5145  False
+-----------------------------------------------------
+```

勘違い修正

2019/09/14 11:23

投稿

nomuken

スコア1627

answer CHANGED Viewed

@@ -1,1 +1,3 @@
+実際に演算しているのは
+https://github.com/statsmodels/statsmodels/blob/bc5680db6265d275d89505815a5cec9e9f632239/statsmodels/sandbox/stats/multicomp.py#L1239
-`pairwise_tukeyhsd`関数の第三パラメタ`alpha`の値だと思います。省略すると0.05になります。値を指定することもできます。
+だと思うのでこれ読み解かないといけないと思います。