編集履歴

質問編集履歴

ファイルの変更とプログラム修正しました。

2019/04/23 12:28

投稿

kak

スコア27

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -4,45 +4,49 @@
-カレントディレクトリに以下のようなtest*.csvが270個あります。
+カレントディレクトリに以下のようなカラムが2列あるtest.csvがあります。
+各columnのindex0に'sample1','sample2'、index１以降にデータが２４７個入っています。
+まず、test.csvのcolumn0,1をそれぞれの数値がそれぞれのカラムに入るように11列に分け、index1-247をそれぞれsample1.csv,sample2.csv...sample247.csvとして保存します。
+                                                                 0
-        0  1  2       3     4      5     6      7     8      9    10     11    12
+0                                                           sample1
-1     VAL  H  2  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
+1     VAL  H  1  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
 2     VAL  H  2  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
-3     VAL  H  2  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
+3     VAL  H  3  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
-4     VAL  H  2  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
+4     VAL  H  4  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
 ...   ... .. ..     ...   ...    ...   ...    ...   ...    ...   ...    ...   ...
-1888  VAL  H  2   79.91  52.8  53.56  46.9  26.35  70.9  53.56  46.4  26.35  73.3
-1889  VAL  H  2  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
+3     VAL  H 246  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
-1890  VAL  H  2  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
+4     VAL  H 247  103.30  68.2  76.95  67.3  26.35  70.9  76.95  66.6  26.35  73.3
-sample*.csvの左端に以下のtest_list.csvのインデックス０の1890列を縦に挿入。
+sample*.csvの左端に以下のtest.csvのindex0の2列を縦に挿入。
-            1                2         ...                1889          1890
+            0              1
+0
-0                                      ...
+NaN   sample1        sample2
-NaN   sample1        sample1000        ...             sample99      sample8
@@ -56,27 +60,17 @@
 1       sample1  ASP  H  112 -20.93 -14.9  ...  -18.97 -50.3  -1.96  -3.9 -18.98
-2    sample1000  ASP  H  112 -20.93 -14.9  ...  -18.97 -50.3  -1.96  -3.9 -18.98
+2    sample2  ASP  H  112 -20.93 -14.9  ...  -18.97 -50.3  -1.96  -3.9 -18.98
-3     sample236  ASP  H  112  -0.59  -0.4  ...   -0.51  -1.3  -0.08  -0.1  -0.51
-...   ... .. ..     ...   ...    ...   ...    ...   ...    ...   ...    ...   ...
-1888  sample237  ASP  H  112 -15.02 -10.7  ...  -15.03 -39.8      0     0 -15.02
-1889   sample99  ASP  H  112 -13.12  -9.3  ...  -12.46   -33  -0.67  -1.3 -12.45
-1890    sample9  ASP  H  112 -17.71 -12.6  ...  -17.07 -45.2  -0.64  -1.3 -17.07
-この一つのCSVファイル中でindex2~1890のカラム4~13の値がindex1にあるsample1のそれぞれの数値と異なる数値を含む行のみ取り出し、この処理をカレントディレクトリにある270個のsample.csvファイルすべてで行い、一つのファイルで出力したいと思っています。
+この一つのCSVファイル中でindex2のカラム4~13の値がindex1にあるsample1のそれぞれの数値と異なる数値を含む行のみ取り出し、この処理をカレントディレクトリにあるsample.csvファイルすべてで行い、一つのファイルで出力したいと思っています。
-以下のようなプログラムを作成し、目的の値は得られましたが、時間がかかった上にresult.csvの内容が最後のsample1890.csvのもののみでした。
+以下のようなプログラムを作成し、目的の値は得られましたが、時間がかかりました。
@@ -84,63 +78,91 @@
 import pandas as pd
-df_test=pd.read_csv("../test_list.csv",sep=",",header=None,index_col=0)
+df_test=pd.read_csv("../test.csv",sep=",",header=None,index_col=0)
-for t in range(1,1890):
+for t in range(1,3):
-     test_files=pd.read_csv("test%s.csv" % (t),sep=",",index_col=0)
+     sample_files=pd.read_csv("sample%s.csv" % (t),sep=",",index_col=0)
+     test_id=pd.concat([df_test.iloc[0,:],sample_files],axis=1)
+     df_frame=pd.DataFrame(test_id.iloc[0,:]).T
+     for i in range(1,247):
+          df_diff=test_id.iloc[i,4:]-test_id.iloc[0,4:]
+          df_diff_id=pd.concat([test_id.iloc[i,:4],df_diff])
+          for k in range(10):
+               if df_diff[k] !=0.0:
+                     df_frame=df_frame.append(df_diff,ignore_index=True)
+                     df_frame_unique=df_frame.drop_duplicates()
+                     df_frame_unique.to_csv("result.csv",sep=",")
+                     print(df_frame_unique)
+```
+そこで以下の様にプログラムを修正し、目的のものが得られました。
+```ここに言語を入力
+df_result=pd.DataFrame()
+import pandas as pd
+df_test=pd.read_csv("../test.csv",sep=",",header=None,index_col=0)
+for t in range(1,3):
+     sample_files=pd.read_csv("sample%s.csv" % (t),sep=",",index_col=0)
      test_id=pd.concat([df_test.iloc[0,:],test_files],axis=1)
-     df_frame=pd.DataFrame(df_test_id.iloc[0,:]).T
+     df_frame=pd.DataFrame(test_id.iloc[0,:]).T
-     for i in range(1,270):
+     for i in range(1,247):
           df_diff=test_id.iloc[i,4:]-test_id.iloc[0,4:]
-          df_diff_id=pd.concat([test_id.iloc[i,:4],df_index])
+          df_diff_id=pd.concat([df_test.iloc[i,:4],df_diff])
-          for k in range(10):
-               if df_diff[k] !=0.0:
+          if df_diff.sum() ! = 0:
                      df_frame=df_frame.append(df_diff,ignore_index=True)
-                     df_frame_unique=df_frame.drop_duplicates()
+                     df_result=pd.concat([df_result,df_frame])
+                     print(df_result)
-                     df_frame_unique.to_csv("result.csv",sep=",")
+                     df_result.to_csv("result.csv",sep=",")
-                     print(df_frame_unique)
 ```
-得られた結果。
-5123   sample235  ASP  H  112 -20.93 -14.9  ...  -18.97 -50.3  -1.96  -3.9 -18.98
-5133   sample236  ASP  H  112  -0.59  -0.4  ...   -0.51  -1.3  -0.08  -0.1  -0.51
-5143   sample237  ASP  H  112 -15.02 -10.7  ...  -15.03 -39.8      0     0 -15.02
-5149   sample239  ASP  H  112 -13.12  -9.3  ...  -12.46   -33  -0.67  -1.3 -12.45
-5159    sample23  ASP  H  112 -17.71 -12.6  ...  -17.07 -45.2  -0.64  -1.3 -17.07
+最初のプログラムで時間がかかり過ぎたのと一つのファイルで出力できていなかったので質問させて頂きましたが、質問を修正しているうちに2つ目のプログラムでよいことに気付きました。
-5169   sample240  ASP  H  112 -10.35  -7.3  ...  -10.36 -27.4      0     0 -10.35
+ですが、折角ですので勉強のため、修正点やほかにもっといい方法があれば教えてください
-5175   sample241  ASP  H  112  -2.97  -2.1  ...   -2.98  -7.9      0     0  -2.98
-5181   sample242  ASP  H  112  -19.8 -14.1  ...  -19.55 -51.8  -0.26  -0.5 -19.54
-5191   sample243  ASP  H  112 -25.04 -17.8  ...  -20.25 -53.7   -4.8  -9.7 -20.25
-5201   sample244  ASP  H  112 -20.92 -14.9  ...  -19.72 -52.3   -1.2  -2.4 -19.72
-そこで以下の様にプログラムを修正し、目的のものが得られました。
+ご指摘いただいたようにファイル出力をループの外にだして以下になりました。
@@ -150,36 +172,48 @@
 import pandas as pd
-df_test=pd.read_csv("../test_list.csv",sep=",",header=None,index_col=0)
+df_test=pd.read_csv("../test.csv",sep=",",header=None,index_col=0)
-for t in range(1,1890):
+for t in range(1,3):
-     test_files=pd.read_csv("test%s.csv" % (t),sep=",",index_col=0)
+            sample_files=pd.read_csv("sample%s.csv" % (t),sep=",",index_col=0)
-     test_id=pd.concat([df_test.iloc[0,:],test_files],axis=1)
+            test_id=pd.concat([df_test.iloc[0,:],test_files],axis=1)
-     df_frame=pd.DataFrame(df_test_id.iloc[0,:]).T
+            df_frame=pd.DataFrame(test_id.iloc[0,:]).T
-     for i in range(1,270):
+            for i in range(1,247):
-          df_diff=test_id.iloc[i,4:]-test_id.iloc[0,4:]
+                 df_diff=test_id.iloc[i,4:]-test_id.iloc[0,4:]
-          df_diff_id=pd.concat([test_id.iloc[i,:4],df_index])
+                 df_diff_id=pd.concat([df_test.iloc[i,:4],df_diff])
-          if df_diff.sum() ! = 0:
+                 if df_diff.sum() != 0:
-                     df_frame=df_frame.append(df_diff,ignore_index=True)
+                    df_frame=df_frame.append(df_diff,ignore_index=True).drop_duplicates()
-                     df_result=pd.concat([df_result,df_frame])
+                    df_result=pd.concat([df_result,df_frame])
-                     print(df_result)
+ print(df_result)
-                     df_result.to_csv("result.csv",sep=",")
+ df_result.to_csv("result.csv",sep=",")
 ```
+ちなみに処理時間は以下の様でした。
-最初のプログラムで時間がかかり過ぎたのと一つのファイルで出力できていなかったので質問させて頂きましたが、質問を修正しているうちに2つ目のプログラムでよいことに気付きました。
+第一ループ内で出力（for i in range(1,247)と同じインデント）
+elapsed time:19.02880597114563
-ですが、折角ですので勉強のため、修正点やほかにもっといい方法があれば教えてください
+第２ループ内で出力（df_result=pd.concat...と同じインデント)
+elapsed time:4.529508113861084
+ループ外で出力
+elapsed time:2.024280071258545

質問内容を変更し、改善プログラムを作成しました。

2019/04/23 12:28

投稿

kak

スコア27

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -4,15 +4,7 @@
-test_list.csvのインデックス０にサンプル名が入っており、
-０～２に'amino acid','chain name','chain number'、３以降に数値が１０カラム、合計1３カラムからなるtest*.csvが270個カレントディレクトリにあります。
-test1.csv,test2.csv...をdf_testのリストを元に次々に取り込み、test_idによりサンプル名をtest_filesに追加、サンプル名だけのデータフレームのひな型(df_frame)を作成、それぞれのサンプルのカラム3以降の10個の数値が一つでも最初のサンプルと違うものだけサンプル名、'amino acid','chain name','chain number'とそれぞれの数値をひな型にappendで追加していくようにしました。
-例えばchain number2の情報がtest2.csvに入っており、それぞれ1890個のサンプルの情報が入っています。
+カレントディレクトリに以下のようなtest*.csvが270個あります。
@@ -42,6 +34,50 @@
+sample*.csvの左端に以下のtest_list.csvのインデックス０の1890列を縦に挿入。
+            1                2         ...                1889          1890
+0                                      ...
+NaN   sample1        sample1000        ...             sample99      sample8
+以下のような形になります。
+  0  　　　　1 　　２   3     4      5     6     　　 　 9  　10     11    12　　13
+1       sample1  ASP  H  112 -20.93 -14.9  ...  -18.97 -50.3  -1.96  -3.9 -18.98
+2    sample1000  ASP  H  112 -20.93 -14.9  ...  -18.97 -50.3  -1.96  -3.9 -18.98
+3     sample236  ASP  H  112  -0.59  -0.4  ...   -0.51  -1.3  -0.08  -0.1  -0.51
+...   ... .. ..     ...   ...    ...   ...    ...   ...    ...   ...    ...   ...
+1888  sample237  ASP  H  112 -15.02 -10.7  ...  -15.03 -39.8      0     0 -15.02
+1889   sample99  ASP  H  112 -13.12  -9.3  ...  -12.46   -33  -0.67  -1.3 -12.45
+1890    sample9  ASP  H  112 -17.71 -12.6  ...  -17.07 -45.2  -0.64  -1.3 -17.07
+この一つのCSVファイル中でindex2~1890のカラム4~13の値がindex1にあるsample1のそれぞれの数値と異なる数値を含む行のみ取り出し、この処理をカレントディレクトリにある270個のsample.csvファイルすべてで行い、一つのファイルで出力したいと思っています。
+以下のようなプログラムを作成し、目的の値は得られましたが、時間がかかった上にresult.csvの内容が最後のsample1890.csvのもののみでした。
 ```ここに言語を入力
@@ -50,7 +86,7 @@
 df_test=pd.read_csv("../test_list.csv",sep=",",header=None,index_col=0)
-for t in range(1,len(df_test.index)):
+for t in range(1,1890):
      test_files=pd.read_csv("test%s.csv" % (t),sep=",",index_col=0)
@@ -58,7 +94,7 @@
      df_frame=pd.DataFrame(df_test_id.iloc[0,:]).T
-     for i in range(1,len(df_test.columns)):
+     for i in range(1,270):
           df_diff=test_id.iloc[i,4:]-test_id.iloc[0,4:]
@@ -78,17 +114,7 @@
 ```
-以下の様にこのプログラムで目的としていたサンプル１と数値に差のあるものを含むサンプル情報を差の値と共に得られることが出来ました。
-ただ、式が助長な為か処理に時間がかかりすぎ、すべての処理が終わりません。
-出力でダブっているものが出てい来るのでdrop_duplicatesを使っていますが、それで時間がかかっている気もします。カラム一つ一つに差がないか確認しているからでしょうか？
-sumを使って行に含まれる数値の合計の差が０でないものを取得するようにしようともしましたが、上手くいきませんでした。
-全体的に何か簡潔にして処理を高速化する方法はありますか？
+得られた結果。
@@ -111,3 +137,49 @@
 5191   sample243  ASP  H  112 -25.04 -17.8  ...  -20.25 -53.7   -4.8  -9.7 -20.25
 5201   sample244  ASP  H  112 -20.92 -14.9  ...  -19.72 -52.3   -1.2  -2.4 -19.72
+そこで以下の様にプログラムを修正し、目的のものが得られました。
+```ここに言語を入力
+df_result=pd.DataFrame()
+import pandas as pd
+df_test=pd.read_csv("../test_list.csv",sep=",",header=None,index_col=0)
+for t in range(1,1890):
+     test_files=pd.read_csv("test%s.csv" % (t),sep=",",index_col=0)
+     test_id=pd.concat([df_test.iloc[0,:],test_files],axis=1)
+     df_frame=pd.DataFrame(df_test_id.iloc[0,:]).T
+     for i in range(1,270):
+          df_diff=test_id.iloc[i,4:]-test_id.iloc[0,4:]
+          df_diff_id=pd.concat([test_id.iloc[i,:4],df_index])
+          if df_diff.sum() ! = 0:
+                     df_frame=df_frame.append(df_diff,ignore_index=True)
+                     df_result=pd.concat([df_result,df_frame])
+                     print(df_result)
+                     df_result.to_csv("result.csv",sep=",")
+```
+最初のプログラムで時間がかかり過ぎたのと一つのファイルで出力できていなかったので質問させて頂きましたが、質問を修正しているうちに2つ目のプログラムでよいことに気付きました。
+ですが、折角ですので勉強のため、修正点やほかにもっといい方法があれば教えてください