Python 内の pandas に関する質問です。非常に初歩的な質問で申し訳ありません。 ![イメージ説明](ac26497ffe295a11685941612846abef.jpeg) 上記のようなcsvファイルがあり、1つのシリアル番号別のcsvファイルを作成したく考えております。データに関してはこの下に10万行ほどあり、1つのシリアル番号につき、20～30行ほどのデータがございます。 ![イメージ説明](b77ea3d9efe3761158039ebada12270c.jpeg) ```import pandas as pd import pandas as pd df = pd.read_csv('----------.csv', encoding='cp932' ) df2 = df["シリアル番号"].drop_duplicates() df4 = (df[["日付", "日時", "目標番号", "シリアル番号"]]) df5 = (df4[df4["シリアル番号"] == df2 ]) ``` 2行目でcsvファイルを読み込み、 3行目で、csvファイル内の重複したシリアル番号を処理しました。ここで、シリアル番号を1つずつ取り出したつもりです。 4行目で、同csvファイル内から必要な列を取り出し、 5行目で、3行目で取り出した重複の無いシリアル番号をそれぞれ代入し、シリアル番号別に、4行目で取り出した特定の行に関するcsvファイルを作成したく考えています。【期待する結果】元のcsvファイル内の、重複したデータを削除したいわけではございません。シリアル番号別のcsvファイルを、シリアル番号ごとに1つずつ作成したく考えております。この先どう処理すれば良いのか分からず苦戦しております。 for文を使うべきだと思うのですが。。。お力を貸して頂けませんでしょうか？

Pandasに関する質問です。初歩的な質問で申し訳ございません。

Python 内の pandas に関する質問です。
非常に初歩的な質問で申し訳ありません。

上記のようなcsvファイルがあり、1つのシリアル番号別のcsvファイルを作成したく考えております。
データに関してはこの下に10万行ほどあり、1つのシリアル番号につき、20～30行ほどのデータがございます。

import
1import pandas as pd
2
3df = pd.read_csv('----------.csv', encoding='cp932' )
4df2 = df["シリアル番号"].drop_duplicates()
5
6df4 = (df[["日付", "日時", "目標番号", "シリアル番号"]])
7  
8df5 = (df4[df4["シリアル番号"] == df2 ])

2行目でcsvファイルを読み込み、
3行目で、csvファイル内の重複したシリアル番号を処理しました。
ここで、シリアル番号を1つずつ取り出したつもりです。

4行目で、同csvファイル内から必要な列を取り出し、
5行目で、3行目で取り出した重複の無いシリアル番号をそれぞれ代入し、
シリアル番号別に、4行目で取り出した特定の行に関するcsvファイルを作成したく考えています。

【期待する結果】

元のcsvファイル内の、重複したデータを削除したいわけではございません。
シリアル番号別のcsvファイルを、シリアル番号ごとに1つずつ作成したく考えております。

この先どう処理すれば良いのか分からず苦戦しております。

for文を使うべきだと思うのですが。。。
お力を貸して頂けませんでしょうか？

hentaiman

2020/12/08 15:31

そこまでやってたらさらにCSV出力したいデータのみ条件指定してto_csvするだけだと思うけど、どういった処理でforが必要だと思いましたか？

hentaiman

2020/12/08 15:36

あとコードみにくいから最低限投稿画面の説明読んで回答してくれる人たちが分かりやすい＆読み易いように心掛けましょう。

ss767_777

2020/12/08 15:40 編集

質問ありがとうございます。今回、複数の重複したシリアル番号が混在しているcsvファイルから、1つずつシリアル番号を取り出し、取り出した番号別のcsvファイル(df4で定義したもの)を作成したく考えております。この質問について文献や質問サイトを参考にしたのですが、for文に関する説明を読んだ際に各要素について順番に代入し処理を行う～との説明を拝見しました。順番に、1つずつ代入というワードから for文を使うのが相応しいと考えましたが、処理方法が分からず質問させて頂いた次第です。

hentaiman

2020/12/08 15:47

具体的なデータの提示が無いと何が適切かは分かりません。とりあえずサンプルデータを用意して載せてもらえれば色んな人が回答し易くなると思いますが。あとコードはマークダウンで書いてください。サンプルデータをコード中に書く際も同様です。じゃないとコピペできない

hentaiman

2020/12/08 16:23

やはりforをどこで使うと思ってるのか分からないんだけど、重複削除して再度CSV出力したいっていうだけの事ですよね？

ss767_777

2020/12/08 16:28

質問ありがとうございます。重複の削除については、シリアル番号を1つずつ代入するために行ったつもりです。 1つのシリアル番号につき、1つのcsvファイルを作成するプログラムを作りたいのですが、やはりfor文は不要でしょうか？

hentaiman

2020/12/08 16:33

失礼、やっと理解しました要は (df4[df4["シリアル番号"] == df2 ] のdf2の部分が実際にはdf2じゃなくてユニークなシリアルごとってことですねで、データ自体は重複を削除したい訳ではないと。あってますか？こういうのはソースデータ（コードとは別で）と期待する結果が書かれていると質問読む側としては理解しやすい

ss767_777

2020/12/08 16:38

その通りでございます。説明不足で、大変申し訳ございませんでした。

hentaiman

2020/12/08 17:04 編集

通常このような質問でのサンプルデータと言ったら回答に書いたコードの１行目を期待する結果と言ったら１行目と同じ形の整形したもの、またはテーブルマークダウンで整形したものを記載しますでないと回答する側からしたら何をしたいのか意図が読み取りにくいし、サンプルデータを回答者が用意するなんて面倒なので回答する気は激減するし、それ以前に質問読む気も失せてしまいます。ご留意を。

行動規範の内容に同意します

回答1件

サンプルデータ載せて貰えないので簡単なサンプルデータとコードを作りました。
これを参考に頑張ってください。

df=pd.DataFrame({'serial':['0001', '0001', '0002', '0003'],'data':['りんご', 'ごりら', 'らっぱ', 'ぱいそん']})
df=df.groupby('serial')
[data.to_csv(f"{serial}.csv") for serial, data in df]

投稿2020/12/08 16:57

hentaiman

総合スコア6434