質問編集履歴

内容の明確化

2019/08/31 14:33

投稿

Danrussia

スコア44

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1 +1,145 @@
+### 前提・実現したいこと
+Pythonを使用して、既存のDataFrame(下記の「加工前のデータセット(df)」)を基に相関係数を排出したいと思っています。
+具体的なデータセットのイメージとしては、下記の「加工後のデータセット」の様な感じです。
+###加工前のデータセット(df)
+```
+|Weight(g)|Long axis|Short axis|Grain thickness|Sumple_vert|BeanNumber_vert|
+|:--|:--:|--:|--:|--:|--:|
+|0.43|0.92|0.91|0.73|くるみ豆|B2|
+|0.4 |0,90|0.89|0.56|くるみ豆|B2|
+|0.45|1.04|0.97|0.63|くるみ豆|B2|
+|0.41|...||||
+||0.4|0.97|0.92|0.74|五葉黒豆|B6|
+|0.35|0.97|0.88|0.51|五葉黒豆|B6||
+|0.43|...||||
+|0.51|1.21|0.95|0.77|濃緑丸豆|B39|
+|0.43|0.92|0.85|0.83|濃緑丸豆|B39|
+|0.43|0.93|0.90|0.55|濃緑丸豆|B39|
+|0.48|1.10|0.96|0.67|濃緑丸豆|B39|
+|0.38|0.91|0.85|0.54|濃緑丸豆|B39|
+```
+### 加工後のデータセット
+```
+                     Weight(g)  Long axis  Short axis  Grain thickness
+B2  Weight(g)         1.000000   0.088743   -0.085762        -0.048301
+B2  Long axis         0.088743   1.000000    0.027861         0.210807
+B2  Short axis       -0.085762   0.027861    1.000000         0.401890
+B2  Grain thickness  -0.048301   0.210807    0.401890         1.000000
+-----------------------------------------------------------------------
+B6  Weight(g)         1.000000   0.088743   -0.085762        -0.048301
+B6  Long axis         0.088743   1.000000    0.027861         0.210807
+B6  Short axis       -0.085762   0.027861    1.000000         0.401890
+B6  Grain thickness  -0.048301   0.210807    0.401890         1.000000
+```
+###相関係数を排出するにあたり考えたアプローチ
+・ブーリアンインデックスを用いて、各「"BeanNumber_vert"」ごとに(B2,B3,B4...というように)相関係数を排出しようとしましたが、df3が以下の様な画像になりました。その際に識別のために右端の列に対応する「"BeanNumber_vert"」の列が作成できませんでした。
+```Python3
+lst5 = []
+for BeanNumber in list(df["BeanNumber_vert"]):
+    df1 = df[df["BeanNumber_vert"] == BeanNumber].corr()
+    lst5.append(df1)
+df3 = pd.concat(lst5)
+```
+![イメージ説明](321bd93edc9995bd9e031fb0a85cb8e8.png)
+・ブーリアンインデックスで上手く「"BeanNumber_vert"」の塊ごとに相関係数を排出できないのであれば、groupbyで
+解決をしようと試みました。
+相関係数を求めるにあたり、相関係数 ＝ 共分散 ÷ （要素１の標準偏差 × 要素２の標準偏差）の式を実装する際に
+groupbyで標準偏差までは求められても、共分散を出すにあたって、偏差を出す事ができませんでした。
+分散に√をつければ、実装できなくもなさそうですが、あまりにかけ離れている気がしたので断念しました。
+```Python3
-方向性に大幅な変更があったため、改変中(2019/08/31)
+Basedata=df.groupby('BeanNumber_vert')
+Std_data =Basedata.std()
+Std_data = Std_data.rename(columns=lambda s: s+"_Std")
+Var_data = Basedata.var()
+Var_data = Var_data.rename(columns=lambda s: s+"_Var")
+```
+###教えて頂きたい事
+相関係数を算出するにあたってブーリアンインデックスを使っての実装を試みていたのですが、上記の
+「加工後のデータセット」の様に右端にBeanNumberを追加できません。
+算出される相関係数を識別するためのBeanNumberを追加する方法を教えて頂きたいです。
+これに限らず、実装できればそれで良いので、これ以外の方法でも大丈夫ですので、教えて頂けたら幸いです。
+### 補足情報（FW/ツールのバージョンなど）
+Python3.7
+Jupyter NoteBook
+お忙しいとは思いますが、よろしくお願いいたします。
+情報に不足がありましたら、ご指摘お願いいたします。

大幅改変中

2019/08/31 14:33

投稿

Danrussia

スコア44

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,163 +1 @@
-### 前提・実現したいこと(2019/08/31 17:51　一部編集)
-Pythonを使用して、既存のDataFrame(下記の"加工前のデータセット(df)")から
-下記の"加工後のデータセット"を作りたいと思っています。
-具体的には、データセット"BeanNumber_vert"の列に対して、ブーリアンインデックスを使って、B2,B3,B4,B5,B6‥‥
-という風に各まとまりごとに.corrを使って相関係数を算出し、"加工後のデータセット"のようなDataFrameを作りたいと思っています。
-### 加工前のデータセット(df)
-```
-|Weight(g)|Long axis|Short axis|Grain thickness|Sumple_vert|BeanNumber_vert|
-|:--|:--:|--:|--:|--:|--:|
-|0.43|0.92|0.91|0.73|くるみ豆|B2|
-|0.4 |0,90|0.89|0.56|くるみ豆|B2|
-|0.45|1.04|0.97|0.63|くるみ豆|B2|
-|0.41|...||||
-||0.4|0.97|0.92|0.74|五葉黒豆|B6|
-|0.35|0.97|0.88|0.51|五葉黒豆|B6||
-|0.43|...||||
-|0.51|1.21|0.95|0.77|濃緑丸豆|B39|
-|0.43|0.92|0.85|0.83|濃緑丸豆|B39|
-|0.43|0.93|0.90|0.55|濃緑丸豆|B39|
-|0.48|1.10|0.96|0.67|濃緑丸豆|B39|
-|0.38|0.91|0.85|0.54|濃緑丸豆|B39|
-```
-### 加工後のデータセット
-```
-                     Weight(g)  Long axis  Short axis  Grain thickness
-B2  Weight(g)         1.000000   0.088743   -0.085762        -0.048301
-B2  Long axis         0.088743   1.000000    0.027861         0.210807
-B2  Short axis       -0.085762   0.027861    1.000000         0.401890
-B2  Grain thickness  -0.048301   0.210807    0.401890         1.000000
------------------------------------------------------------------------
-B6  Weight(g)         1.000000   0.088743   -0.085762        -0.048301
-B6  Long axis         0.088743   1.000000    0.027861         0.210807
-B6  Short axis       -0.085762   0.027861    1.000000         0.401890
-B6  Grain thickness  -0.048301   0.210807    0.401890         1.000000
-```
-### 課題に対して試した事.1(2019/08/31 16:45　編集)
+方向性に大幅な変更があったため、改変中(2019/08/31)
-エラーコードを読み解いて見ると、該当コードのdf2がどうやらDataframe形式ではないみたいなので、
-type(df2)で確認してみた所、"method"という結果になりました。
-method型をlist型(df型)に直す方法を探してみましたが、見つかりませんでした。
-(2019/08/31 16:51　追記)
-df2が何故method型になる原因を探ってみた所、単純に""df.coor""という書き方が間違っていたのに気づきました。
-"df.coor()"という書き方に直したら、エラーコードが消えました。
-(それに合わせて該当のコードの書き直し、発生するエラーコードの削除を行いました。)
-###実装上の課題(2019/08/31 17:10　追記)
-課題に対して試した事.1の後に、以下の課題にぶつかりました。
-・ブーリアンインデックスで"BeanNumber_vert"ごとにlst2に入れ.concat(lst2)を行い、これをcsv形式にして排出するが、図の様な形になり、加工後のデータセットの様な形にならない。
-![イメージ説明](0743ddee5dce706e0189208729587f37.png)
-###該当のコード
-```Python3
-lst2 = []
-for BeanNumber in list(df["BeanNumber_vert"]):
-    df1 = df[df["BeanNumber_vert"] == BeanNumber]
-    df2=df1.corr()
-    lst2.append(df2)
-df3 = pd.concat(lst2)
-```
-### 補足情報（FW/ツールのバージョンなど）
-Python3.7
-Jupyter NoteBook
-お忙しいとは思いますが、よろしくお願いいたします。
-情報に不足がありましたら、ご指摘お願いいたします。

内容の明確化

2019/08/31 13:38

投稿

Danrussia

スコア44

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -92,7 +92,7 @@
 (2019/08/31 16:51　追記)
-df2が何故リスト型になる原因を探ってみた所、単純に""df.coor""という書き方が間違っていたのに気づきました。
+df2が何故method型になる原因を探ってみた所、単純に""df.coor""という書き方が間違っていたのに気づきました。
 "df.coor()"という書き方に直したら、エラーコードが消えました。

内容の明確化

2019/08/31 08:13

投稿

Danrussia

スコア44

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,4 +1,4 @@
-### 前提・実現したいこと
+### 前提・実現したいこと(2019/08/31 17:51　一部編集)
 Pythonを使用して、既存のDataFrame(下記の"加工前のデータセット(df)")から
@@ -9,112 +9,6 @@
 具体的には、データセット"BeanNumber_vert"の列に対して、ブーリアンインデックスを使って、B2,B3,B4,B5,B6‥‥
 という風に各まとまりごとに.corrを使って相関係数を算出し、"加工後のデータセット"のようなDataFrameを作りたいと思っています。
-実装するにあたって、以下２点の課題にぶつかりました。
-・ブーリアンインデックスで"BeanNumber_vert"ごとにlst2に入れ、最後に.concatする際に発生するエラーコードを
-解決できない
-・.corrで相関係数の表を出す際に、"加工後のデータセット"の様な形で右端に"BeanNumber_vert"の数字を入れる方法
-### 課題に対して試した事(2019/08/31 16:45　追記)
-エラーコードの文法を読み解いて見ると、該当コードのdf2がどうやらDataframe形式ではないみたいなので、
-type(df2)で確認してみた所、"method"という結果になりました。
-method型をlist型(df型)に直す方法を探してみましたが、見つかりませんでした。
-###該当のコード
-```Python3
-lst2 = []
-for BeanNumber in list(df["BeanNumber_vert"]):
-    df1 = df[df["BeanNumber_vert"] == BeanNumber]
-    df2=df1.corr
-    lst2.append(df2)
-df3 = pd.concat(lst2)
-```
-### 発生するエラーコード
-```Python3
----------------------------------------------------------------------------
-TypeError                                 Traceback (most recent call last)
-<ipython-input-64-297f2ef1eee6> in <module>()
-----> 1 df3 = pd.concat(lst2)
-~\Anaconda3\lib\site-packages\pandas\core\reshape\concat.py in concat(objs, axis, join, join_axes, ignore_index, keys, levels, names, verify_integrity, sort, copy)
-    223                        keys=keys, levels=levels, names=names,
-    224                        verify_integrity=verify_integrity,
---> 225                        copy=copy, sort=sort)
-    226     return op.get_result()
-    227
-~\Anaconda3\lib\site-packages\pandas\core\reshape\concat.py in __init__(self, objs, axis, join, join_axes, keys, levels, names, ignore_index, verify_integrity, copy, sort)
-    284                        ' only pd.Series, pd.DataFrame, and pd.Panel'
-    285                        ' (deprecated) objs are valid'.format(type(obj)))
---> 286                 raise TypeError(msg)
-    287
-    288             # consolidate
-TypeError: cannot concatenate object of type "<class 'method'>"; only pd.Series, pd.DataFrame, and pd.Panel (deprecated) objs are valid
-```
@@ -186,6 +80,78 @@
+### 課題に対して試した事.1(2019/08/31 16:45　編集)
+エラーコードを読み解いて見ると、該当コードのdf2がどうやらDataframe形式ではないみたいなので、
+type(df2)で確認してみた所、"method"という結果になりました。
+method型をlist型(df型)に直す方法を探してみましたが、見つかりませんでした。
+(2019/08/31 16:51　追記)
+df2が何故リスト型になる原因を探ってみた所、単純に""df.coor""という書き方が間違っていたのに気づきました。
+"df.coor()"という書き方に直したら、エラーコードが消えました。
+(それに合わせて該当のコードの書き直し、発生するエラーコードの削除を行いました。)
+###実装上の課題(2019/08/31 17:10　追記)
+課題に対して試した事.1の後に、以下の課題にぶつかりました。
+・ブーリアンインデックスで"BeanNumber_vert"ごとにlst2に入れ.concat(lst2)を行い、これをcsv形式にして排出するが、図の様な形になり、加工後のデータセットの様な形にならない。
+![イメージ説明](0743ddee5dce706e0189208729587f37.png)
+###該当のコード
+```Python3
+lst2 = []
+for BeanNumber in list(df["BeanNumber_vert"]):
+    df1 = df[df["BeanNumber_vert"] == BeanNumber]
+    df2=df1.corr()
+    lst2.append(df2)
+df3 = pd.concat(lst2)
+```
 ### 補足情報（FW/ツールのバージョンなど）
 Python3.7

追記

2019/08/31 08:12

投稿

Danrussia

スコア44

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -19,6 +19,28 @@
 解決できない
 ・.corrで相関係数の表を出す際に、"加工後のデータセット"の様な形で右端に"BeanNumber_vert"の数字を入れる方法
+### 課題に対して試した事(2019/08/31 16:45　追記)
+エラーコードの文法を読み解いて見ると、該当コードのdf2がどうやらDataframe形式ではないみたいなので、
+type(df2)で確認してみた所、"method"という結果になりました。
+method型をlist型(df型)に直す方法を探してみましたが、見つかりませんでした。