回答編集履歴

質問を受けて追記

2022/11/17 09:56

投稿

TakaiY

スコア14542

answer CHANGED Viewed

@@ -105,4 +105,98 @@
     avaraged_data.to_csv(output_file_path, index=False, encoding='utf-8-sig')
 ```
+---
+質問を受けて追記
+>・2つ目のコードについて、「# csvを読み込んで、平均を算出したdfを返す」の「df = pd.read_csv(」の後ろの「file」を「def make_avaraged_data(filename):」の「filename」に変えたら実行できたのですが、これは関数名の後ろの引数は関数の中の処理の変数と一致しなければならないからという認識で合っていますでしょうか？
+バグですね。 すみません。
+「これは関数名の後ろの引数は関数の中の処理の変数と一致しなければならないから」というより、この関数は、受けとったcsv(のファイル名)をDataframeに読み込んで、平均化し、結果のDataframeを返すものですから、read_csvには仮引数を渡さなければならないのです。
+>もともとのコードだとここでforループを使っていたので変数とオブジェクトで2個の文字列を作成しなければいけませんでしたが、forが無くなったので1個で良くなり、さらに言えば「filename」でも「file」でもどちらでも良い？
+もともとのコードでは、引数で受け取るのはファイル名のリストですから、そのままread_csv()には渡さず、リストをループで回したときのループ変数(file)を渡していたのです。
+>・returnを使う意味と使い方（後ろにdataが来るかaveraged_dataが来るか）について
+>正直リターンを使う意味についてイマイチピンと来ていないのですが下記のサイトに書いてあるようことから
+「returnを使う意味」がわからないというのがわかりません。
+サイト見てみました。 説明のしかたとしてはありかもしれません。
+僕なりの理解と説明をしてみます。
+関数というのは、本来**引数を与えて実行すると値を返してくるもの** です。 なので、**returnがあるのが普通**です。
+平方根を計算する関数は、math.sqrt()ですが、これは引数の値の平方根を返してくる関数だと思うのが普通です。
+「r2 = math.sqrt(2)」とすると、r2には2の平方根(1.4142...)が入ります。このとき、math.sqrt()関数が値を返すのに必要なのがreturnです。
+> 使い方（後ろにdataが来るかaveraged_dataが来るか）については1つ目のコードがもともと
+「return averaged_data」だったところを「return data」と変更したのは、後々read_data関数を変数に代入するときに使われる値がリスト「averaged_data」ではなくリスト「data」つまりcsvファイルの数だけ追加してまとめた方だからでしょうか？
+説明したように「returnの使いかた」というのと、「後ろにdataが来るかaveraged_dataが来るか」は関係がありません。
+「後ろにdataが来るかaveraged_dataが来るか」はその関数の仕様として何を返すべきかの問題です。
+この関数は、たぶん、「ファイルのリストを受け取って、それぞれのファイルをDataframeに読み込み、平均化して返す」のが仕様でしょう。 そして、複数のものを返すのであれば、リストで返すのが自然です。
+そうすると、もとのコードには2つの問題があります。
+1つは、averaged_dataを返していることです。averaged_dataは結果のリストではありません。ループの中で1つのDataframeを平均化した結果を格納したものです。 これは、ループの度に書き換えられていて、ループ終了後には、最後の1回の結果しか入っていません。 なので、返すべきはリストである「data」です。
+2つめは、その返すべきリスト(data)に入っているのが、平均化前のDataframeであることです。なので、dataにappendするのは、dfではなく、avaraged_dataにしなければなりません。
+>・「averaged_data」という変数が「# csvを読み込んで、平均を算出したdfを返す」と「# 全ての入力ファイルについて処理を実施」の両方で使われているのですが、これは同じ変数名で2回使っているだけでどちらかを違う変数名にしても問題ないでしょうか？それとも意図的に同じ変数名なのでしょうか？上手く言い表せないのですが、同じ変数名だと二重定義みたくなってしまう気がするのですが、順番に処理されるので最初に「averaged_data」を変数を使った後に、2回目に使う時には上書きされて1回目の処理とは無関係になるから大丈夫なのでしょうか？
+変数にはスコープがあります。スコープというのは有効範囲のことです。
+関数は1つのスコープになっていて、仮引数と内部の変数は外のスコープに影響しません。なので、二重定義になったりはしません。
+2つのavaraged_dataは別ものなので「2回目に使う時には上書きされて1回目の処理とは無関係になるから大丈夫」ということでもありません。
+> ・1つ目のコードはエラーが出たので直したら、エラーなく実行されたのですが、出力先のフォルダに何も格納されなかったのですが理由分かりますでしょうか？
+>直したのは「averaged_data」が「av a raged_data」になっている部分があったので全て「averaged_data」に修正しました
+それもバグですね。すみません。
+理由は見ただけではわかりません。
+出力先のフォルダに何も格納されていないということは、最後の出力のループがまわっていないということだと思うので、その前の段階で入るべきデータが入っていないのだと思います。
+要所で変数の値をprintするなどして、どこでデータがおかしくなっているのか確認してみたいところです。
+>・zip関数は調べたのですが「複数のリストを関数の引数にするためのもの」という認識でよろしいでしょうか？
+zipは複数のリストから順に1つずつ取って新しいリストにして順に返す関数です。
+以下のコードを実行してみると動きがわかると思います。
+list(zip([1, 2, 3], ['a', 'b', 'c']))
+>「for input_file_path, averaged_data in zip(data_files, input_data_A):」の部分はオブジェクトの「data_files」と「input_data_A」は両方とも大元は「p_A.glob("*.csv")」で持ってきたフォルダ内のcsvファイル名、forループさせるには、オブジェクト ＝ コード内には書かれていない物（ファイル名など）を変数で定義して、その変数を後の処理で使う形にしないといけない決まりになっている、今回は「input_file_path」という変数を後ろにstemを付けて出力ファイルの名前付けに利用したい、一方で平均化したリスト（csvファイルの中に欲しい値）は「read_data関数」を「input_data変数」に定義して、forループで回すためにさらにそれを「averaged_data変数に」定義し直しているということでしょうか？
+>「出力ファイル名称付け」と「平均化したリストのCSV出力」をするには「2つの変数が必要」の理由がイマイチ分かっていませんが。
+どうしてそのコードになったか説明するとわかるかもしれません。
+まず、出力したいデータは「input_data_A」リストに入っていることはおわかりですよね。このリストには平均化したDataframeが入っています。であれば、
+```python
+for avaraged_data in input_data_A:
+    avaraged_data.to_csv(<出力ファイルパス>)
+```
+とすれば、結果が出力できます。
+このとき、出力ファイルパスはどうすれば得られるでしょう(この質問の元ネタですね)。作るには元のcsvの名前が必要になということでしたよね。ところが、このfor分の中には、元のcsvの情報がありません。 平均化したデータには元のファイルの名前は付いていません。
+どうすればいいかと考えたとき、元のcsvのリスト(data_files)を使えないかと思うわけです。そのリスト(data_files)と(input_data_A)の並びが同じです。
+data_files = ['0000583A.CSV', '0000583B.CSV', ...]
+input_data_A = [<0000583A.CSVを平均化したもの>, <0000583B.CSVを平均化したもの>, ...]
+のような感じです。
+先程のループでは、input_data_Aで回していますので、対応するdata_filesにあるファイル名が取れればいいわけです。
+方法はいくつかありますが、今回は、先に出たzip関数を使いました。
+zip(data_files, input_data_A) とすると、
+[['0000583A.CSV', <0000583A.CSVを平均化したもの>], ['0000583B.CSV', <0000583B.CSVを平均化したもの>,]...]
+というような、組み合わせのリストになって、
+```python
+for input_file_path, avaraged_data in zip(data_files, input_data_A):
+```
+とすると、 input_file_path と avaraged_data に順にファイル名と 平均化したデータが割り当てられてループするようになり、そのファイル名から<出力ファイルパス>を作ることができるようになるわけです。

追記

2022/11/17 01:56

投稿

TakaiY

スコア14542

answer CHANGED Viewed

@@ -16,5 +16,93 @@
 という感じになります。
+---
+追記
+だいぶ迷走してしまったので、こちらで直してみたコードです。
+データが無いので動かしていませんから、バグはあると思います。
+動かないとか、読んでみてわからないなどあれば質問ください。
+■1つめは、 元の処理に近いもの
+・ read_data関数の内容は見てみたところ、作ったリスト(data)を返していないし、最後のavaraged_dataしか返しておらず、意図不明だったので、 avaraged_dataのリストを返すように直しました。
+・出力処理のところはほぼ書き直しています。read_dataがファイルのリストを受け取って結果しか返さないので、結果だけでは出力に必要なデータ(入力ファイル名)がないのでzipをつかって結合するなどしています。
+```python
+from pathlib import Path
+import pandas as pd
+# 複数のcsvデータを読み込んで平均化する関数
+#read_dataという名前の関数を作成する、filenameは引数であり関数の処理に渡される値
+def read_data(filename):
+    # dataという名前のリストを作成する処理を行う
+    data = []
+    # fileが変数、filenameがオブジェクト、のループ処理を行う、次の読み込み処理でfileという変数にfilenameというオブジェクトの中の要素（結合したいcsvファイル名）を入れていく
+    for file in filename:
+        # 処理内容、今回はcsvファイルをpythonに読み込む、pd.read_csvでcsv形式のファイルをPandasのDataFrameへ読み取ってfile_dataという要素名に定義する、fileにはcsvファイル名が入る、headerは先頭行を3行目に指定、encodingは文字コード指定
+        df = pd.read_csv(file, encoding="cp932",skiprows=2,sep=',',index_col=0,parse_dates=True)
+        #averaged_dataという名前のリストを作るための関数を行う、
+        averaged_data = df.resample('3S').mean()
+        #定義された要素名file_dataをdataリストに追加
+        data.append(avaraged_data)
+    return data
+#パスA: 入力ファイルの格納ディレクトリ
+p_A = Path("Aフォルダ")
+# glob関数を用いることでp_A = Pathのフォルダの中のcsv形式の
+# ファイル名を取得してdata_filesという名前でリスト化する
+data_files = p_A.glob("*.csv")
+# 上記で作成したread_data関数にdata_filesを引数に指定して実行
+# 実行結果を input_data_Aに格納
+input_data_A = read_data(data_files)
+# データの書き込み
+# 出力ディレクトリ
+p_B = Path("Bフォルダ")
+# 計算結果のinput_data_Aにファイル名の情報が入っていないので、かなり苦しい
+# 入力ファイルのリスト(data_file)の並びと、結果ファイルの並びが同じであることを前提に処理
+for input_file_path, avaraged_data in zip(data_files, input_data_A):
+    output_file_path = p_B / (input_file_path.stem + "c.csv")
+    avaraged_data.to_csv(output_file_path, index=False, encoding='utf-8-sig')
+```
+■2つめは、この処理に合うように書き換えたもの
+ファイルを読んで、平均を計算して、結果を出力するというループにしました。
+また、変数名/関数名も適切と思うようなものに改めています。
+```python
+from pathlib import Path
+import pandas as pd
+# csvを読み込んで、平均を算出したdfを返す
+def make_avaraged_data(filename):
+    # csvデータを読み込む
+    df = pd.read_csv(file, encoding="cp932",skiprows=2,sep=',',index_col=0,parse_dates=True)
+    # 平均を算出
+    averaged_data = df.resample('3S').mean()
+    return avaraged_data
+# 入力ディレクトリ
+p_A = Path("Aフォルダ")
+# 出力ディレクトリ
+p_B = Path("Bフォルダ")
+# 入力ファイルのリスト
+input_files = p_A.glob("*.csv")
+# 全ての入力ファイルについて処理を実施
+for input_file_path in input_files
+    # データの平均を算出
+    avaraged_data = make_avaraged_data(input_file_path)
+    # データの書き込み
+    output_file_path = p_B / (input_file_path.stem + "c.csv")
+    avaraged_data.to_csv(output_file_path, index=False, encoding='utf-8-sig')
+```