質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

585閲覧

for文を使って、複数ファイルを同時に生成したい。

mom_mom

総合スコア2

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/01/11 08:31

編集2023/01/11 09:11

前提

  • Databricks上でPySparkを使用。
  • データはparquet形式で月ごとにAzure Blobに保存されており、月ごとに読み込みながらExcel形式のファイルを生成する
  • 保存先もAzure Blob
  • 変数kは、2022/1から2022/6までのデータセット
  • output_path_delivery_iは、year_mthに入っている2022/1から2022/6までの定数

実現したいこと

  • 月ごとのparquet形式のファイルを月ごとのExcel形式のファイルとして目的のディレクトリへ保存したい。
  • ループ処理を使って分かりやすいコードにしたい。
  • 対象の年月は、2022/1から2022/6

発生している問題・エラーメッセージ

  • 最終月の2022/6分のExcelファイルしか出力されない。

該当のソースコード

PySpark

1for i, k in zip(year_mth, dataset): 2 with tempfile.NamedTemporaryFile() as tmp_file: 3 # やむを得ない事情があり、一時ファイルを経由して出力しています。 4 with pandas.ExcelWriter(tmp_file.name, engine="openpyxl") as writer: 5 actual_data = spark.read.parquet( 6 (datamart_dir / "output" / "output2" / i).as_posix() 7 ) 8 actual_data.toPandas().to_excel(writer, sheet_name='actual', header=True, index=False) 9 shutil.copyfile( 10 tmp_file.name, convert_dbfs_path_to_local_path(output_path_delivery_i) 11 )

試したこと

for文の挿入位置を先頭にしたが、最終月のExcelファイルしか出力されない。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2023/01/11 08:38

DatabricksやPySparkなどなどは門外漢ですが、コードだけ見て - 変数kは利用されていない? - output_path_delivery_i変数の値は不変? のように見えますが、意図通りでしょうか?
pig_vba

2023/01/11 08:43

ぱっと見た感じ、同じファイルに毎回上書き出力してしまってるように見えますね
TakaiY

2023/01/11 09:14

> output_path_delivery_iは、year_mthに入っている2022/1から2022/6までの定数です。 の「2022/1から2022/6までの定数」とは、変数としては1つしか値を持てませんから意味がわかりません。 その定数を定義しているところを提示いただけますか。 > 変数iでコントロールしているはず とありますが、変数iも処理の中で使われていませんよという指摘だと思います。 もしかして、 output_path_delivery_i の「i」がそれだということでしょうか? であればpythonの文法として間違えています。 最初の質問の答えを見たらわかるような気がします。 > 変数kは、2022/1から2022/6までのデータセットです。 ですが、処理の中で k がどこにも使われていませんよという指摘だと思います。
pig_vba

2023/01/11 23:46

> output_path_delivery_iは、year_mthに入っている2022/1から2022/6までの定数です。 仮に定数「リスト」としたいのであれば、output_path_delivery(i)ではないでしょうか?
mom_mom

2023/01/12 01:28

for文と1つ目のwith句の間でoutput_path_delivery_iのファイル名を含むpathを指定することで解決しました。 いろいろと示唆に富むコメントをいただき、ありがとうございました!
guest

回答3

0

自己解決

for文と1つ目のwith句の間でoutput_path_delivery_iのファイル名を含むpathを指定することで解決!

投稿2023/01/12 01:29

mom_mom

総合スコア2

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ぱっと見た感じ、同じファイルに毎回上書き出力してしまってるように見えますね

2022/1から2022/6までの6個のファイルを出力したいのですが、2022/5までのファイルが出力されず、2022/6のファイルのみ出力されている状況です。変数iでコントロールしているはずなのですが、挙動が想定と異なっています。

投稿2023/01/11 08:56

mom_mom

総合スコア2

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

  • 変数kは、2022/1から2022/6までのデータセットです。
  • output_path_delivery_iは、year_mthに入っている2022/1から2022/6までの定数です。

どちらも意図通りです。

投稿2023/01/11 08:50

mom_mom

総合スコア2

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

TakaiY

2023/01/11 09:03

ここは質問への回答を書く欄ですから、コメントへの回答はここではなく質問を編集して対応しましょう。
mom_mom

2023/01/11 09:06

失礼しました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問