Pythonで複数のファイルを読み込んで足し合わせたいです。

総合スコア10580

2020/05/06 05:45

回答ありがとうございます。自作のCSVファイルで確認してみたところ2つ目の数字の後ろにあるカンマが邪魔ものらしいです。 1つ目の数値の前にあるコンマ３つは問題なさそうでした。これを取り除く方法はありますか？

2020/05/06 05:59 編集

データの先頭部分にある文字列（Record Length等）がエラーの原因ではないでしょうか？「Record Length,2.500000e+03,, -0.000025000000, 0.00000, Sample Interval,1.000000e-07,, -0.000024900000, 0.00800, Trigger Point,2.500000000000e+02,, -0.000024800000, 0.00000,」「1,,2」などのデータをpandas.DataFrameで読み込むと「1,Nan,2」となるので問題ないはずです。但し、Nanデータがあるとdf.apply(lambda x:x/sum(x))の計算結果もNanになってしまうので、Nanに対する処理は別途必要かと思います。

2020/05/06 07:47

先頭の文字列のせいで、以降の数値が文字列として認識しているということですか？言葉足らずですみません。先ほど試してみたところ、 ,,,0.1, 43.2 ,,,0.2, 41.1 ,,,0.3, 38.7 ,,,0.4, 34.4 ,,,0.5, 29.9 というファイルに対しては、ソースコードは実行できたのですが 0.1, 43.2, 0.2, 41.1, 0.3, 38.7, 0.4, 34.4, 0.5, 29.9, というファイルに対しては、質問と同じように TypeError: unsupported operand type(s) for +: 'int' and 'str' というエラーが出てきました。したがって、エラーの一因として 43.2, のカンマ部分が数字と一緒に読み取られてしまい、文字列として認識しているのではないかと推測しました。そこで、どうにか一番最後のカンマを消す方法がないかなと思っています。

2020/05/06 08:02

上記データで試してみました。回答に追記しましたので見てください。（3列目のデータが「Nan」になっています） ※念のためpandasのバージョンも教えてください

2020/05/06 13:41

pd.read_csvの delimiter=" " 部分を delimiter=" ," にしたら読み込むようにはなったのですが、まだ同じエラーメッセージが出ました。 pandasは1.0.3です。

2020/05/06 14:11

delimiter=" "の指定をしていたのですね。そこ、見ていませんでした。元々その区切りで読み込んでいたということは、最後の「,」の後ろにも" "がいるのでしょうか？？ df.dtypesでどんな情報が表示されますか？

2020/05/06 14:36

dtype: float64 となります。ファイルの保存形式が ,,, 数値, 数値, となっているせいでindexがNaN基準になっているので色々変な値になってしまっています。

2020/05/06 14:58 編集

最初の3列はデータがないようなので、この3列はdropすれば良いでしょう。「250~2250行」のみ使いたいとのことなので、dfからloc関数などで抽出すれば良いです。 dtypeについてですが「dtype: float64」というのは、dfの全ての列の型が「float64」ですか？データの頭には文字列があったはずですが削除したんでしょうか？文字列が含まれていればobject型と表示されるはずなのですが。確認したいので、print(df.head())とprint(df.dtypes)の結果を質問に追記してもらえませんか？ ※本当にdfの型が「dtype: float64」であればそもそもTypeError出ないんですよね。

2020/05/06 17:45

質問の意図をくみ取れなくて申し訳ないです。実行結果をそのまま貼り付けます。 <bound method NDFrame.head of 1 2 3 4 5 0 Record Length 2.500000e+03 NaN -0.000025 0.000 NaN Sample Interval 1.000000e-07 NaN -0.000025 0.008 NaN Trigger Point 2.500000000000e+02 NaN -0.000025 0.000 NaN NaN NaN NaN -0.000025 0.000 NaN NaN NaN NaN -0.000025 0.016 NaN ... ... .. ... ... .. NaN NaN NaN 0.000225 0.008 NaN NaN NaN NaN 0.000225 0.000 NaN NaN NaN NaN 0.000225 0.000 NaN NaN NaN NaN 0.000225 0.008 NaN NaN NaN NaN 0.000225 0.016 NaN [2500 rows x 5 columns]> 1 object 2 float64 3 float64 4 float64 5 float64 dtype: object

2020/05/06 19:39

自分なりに考えた結果、エラーコード出さずに実行できたので載せておきます。迅速で丁寧な対応、心から感謝いたします。何かご指摘等あればいただけると幸いです。

行動規範の内容に同意します

以下のように修正してみてはどうでしょう。

pyton
1df = pd.read_csv(filename, skiprows=list(range(0,250)), skipfooter=249, names = col_names, delimiter=" ", index_col=0, engine='python')

とりあえずの修正箇所は、skiprows に list(range(0,250)) を与えることで [0,1,...,249] にしています。

【追記】
とりあえず、エラーを避けるため、engine='python'を追加しました。

投稿2020/05/06 03:27

編集2020/05/06 04:11

総合スコア1773

2020/05/06 04:04

お早い回答ありがとうございます。修正致しましたが、エラーメッセージが出ました。 ``` panda5.py:13: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support skipfooter; you can avoid this warning by specifying engine='python'. df = pd.read_csv(filename, skiprows=list(range(0,250)), skipfooter=249, names = col_names, delimiter=" ", index_col=0) Traceback (most recent call last): File "panda5.py", line 21, in <module> df_pr = df.apply(lambda li:li/sum(li)) File "/home/mshibata/.local/lib/python3.6/site-packages/pandas/core/frame.py", line 6878, in apply return op.get_result() File "/home/mshibata/.local/lib/python3.6/site-packages/pandas/core/apply.py", line 186, in get_result return self.apply_standard() File "/home/mshibata/.local/lib/python3.6/site-packages/pandas/core/apply.py", line 313, in apply_standard results, res_index = self.apply_series_generator() File "/home/mshibata/.local/lib/python3.6/site-packages/pandas/core/apply.py", line 341, in apply_series_generator results[i] = self.f(v) File "panda5.py", line 21, in <lambda> df_pr = df.apply(lambda li:li/sum(li)) TypeError: unsupported operand type(s) for +: 'int' and 'str' ``` int型とstr型が混ざっていてエラーが発生しているよということなんですかね？

2020/05/06 04:07

skipfooter がまずそうですね。

2020/05/06 04:10

pandasでcsv/tsvファイル読み込み（read_csv, read_table） | note.nkmk.me https://note.nkmk.me/python-pandas-read-csv-tsv/ の「引数skipfooter」において、以下の記述があります。 > 環境によっては以下のようなWarningが出るので、引数engine='python'を指定する。

2020/05/06 05:45

2020/05/06 05:53

意図をつかめてないかもしれませんが。 pandasで要素、行、列に関数を適用するmap, applymap, apply | note.nkmk.me https://note.nkmk.me/python-pandas-map-applymap-apply/ において、「DataFrameの特定の行・列の要素に適用」のところで以下のような説明があります。 > DataFrameの特定の行・列の要素にのみ関数を適用するメソッドはないので、 > > 行・列を選択し、Seriesとしてmap()またはapply()で関数を適用 > 元の行・列に代入して上書き > > という処理を行う。

2020/05/06 19:39

行動規範の内容に同意します

お二方とも、ご質問に丁寧に、素早くお答えいただきありがとうございます。
自分なりに頑張ってみたところ、結果があっているかはわかりませんが、エラーが出ずに処理できたのでそのソースコードを載せておきます。

Python3
1import pandas as pd
2import glob
3import csv
4
5adf = glob.glob("TEK*.CSV")  
6li = []
7for filename in adf:
8    df = pd.read_csv(filename, names=("0","1","2","3","4","5"))
9    df3 = df.set_index("3")
10    df2 = df3.iloc[250:2250]
11    #df1 = df2.dropna(how="all", axis=1)
12    df1 = df2.drop(df.columns[[0,1,2,5]], axis=1)
13    li.append(df1)
14
15df1 = pd.concat(li, axis=1, ignore_index=True)
16df_pr = df1.apply(lambda li:li/sum(abs(li)))
17
18result = df_pr.sum(axis=1)
19result.to_csv("result2.dat", header=None, sep=" ")

読み込みたい全てのファイルにおいて、6列あり、4列目をindexとして5列目を足し合わせたかったです。
そのため、column名を勝手に割り振り、4列目をindexにしました。
次に、250~2250行で十分でしたので、教えていただいたようにilocで使いたい行を指定しました。
また、その他の列がご指摘の通りobjectだったりNaNしかなかったりと不要なものばかりでしたので無視させました。

そのほかの点は大幅な変更はありませんが、ファイルの書き込みをdatにしました。
for文の中はもう少し簡素に描くことができるのではないかと思っておりますが、私の力では今のところこれが精いっぱいです。

しばらくの間は解決済みにしないので、何かご指摘等あればいただけると幸いです。

投稿2020/05/06 19:37

編集2020/06/11 09:13