dataframeに対し、for文を用いて文字列検索を行い、複数dataframeに分割する。

以下のdataframe(実際には100行以上ある)に対し、ID(AAA100,BBB200など)で文字列検索をかけ、各IDに対応した5種の新しいdataframe(df_AAA100,df_BBB200,... の5種)に入れたいです(※期待されるアウトプット)。

import pandas as pd

list = [
[1, 100, 0.33, 'AAA', 'AAA100'], 
[2, 200, 0.67, 'BBB', 'BBB200'], 
[3, 300, 1, 'CCC', 'CCC300'], 
[4, 400, 1.33, 'DDD', 'DDD400'], 
[5, 500, 1.67, 'EEE', 'EEE500'], 
[6, 600, 2, 'FFF', 'FFF600']]

df = pd.DataFrame(list)

df.index = ['row0','row1','row2','row3','row4','row5']
print(df)

# c00  c01   c02  c03     c04
#0  1  100  0.33  AAA  AAA100
#1  2  200  0.67  BBB  BBB200
#2  3  300  1.00  CCC  CCC300
#3  4  400  1.33  DDD  DDD400
#4  5  500  1.67  EEE  EEE500
#5  6  600  2.00  FFF  FFF600
コード

※期待されるアウトプット
下記dataframeはdf_AAA100 = df[df["c04"] == "AAA100"]のように、それぞれでスクリプトを書けば
作成されると思いますが、for文で数行でまとめて実行することはできませんでしょうか。

print(df_AAA100)
# 0    1     2    3       4
#0  1  100  0.33  AAA  AAA100

print(df_BBB200)
# 0    1     2    3       4
#0  2  200  0.67  BBB  BBB200

print(df_CCC300)
# 0    1     2    3       4
#0  3  300  1.00  CCC  CCC300

print(df_DDD400)
# 0    1     2    3       4
#0  4  400  1.33  DDD  DDD400

print(df_EEE500)
# 0    1     2    3       4
#0  5  500  1.67  EEE  EEE500

print(df_FFF600)
# 0    1     2    3       4
#0  6  600  2.00  FFF  FFF600
コード

meg_

2020/10/07 12:03

コードは「コードの挿入」で記入してください。

firegrape

2020/10/07 12:14

この場合で言うと、右から2列目と左から2列目の値を結合して一番右の列に挿入したいという意図であっていますでしょうか？

Shiro.Shiro

2020/10/07 12:17

いえ、検索文字列に応じて各行を丸丸抽出して、各新規dataframe(df_AAA100,df_BBB200,... )の5種に挿入したいということになります。説明が下手で申し訳ありません。

firegrape

2020/10/07 12:21

うーん、まだわからないです。。ごめんなさい。上記のlistの値以外に別の値の例があればわかるのかな？？

meg_

2020/10/07 12:22

やりたいことは、グループ化とはまた別の処理ですか？

toast-uz

2020/10/07 12:33

IDとは、一番右の列ですか？2列目、4列目は、気にしなくて良いですか？ IDは同じものが複数回出てくるのですか？各IDごとのデータフレームは、元のデータフレームを単純に行抽出したもので良いですか？

Shiro.Shiro

2020/10/07 12:36

※期待されるアウトプットについて、追加いたしました。

Shiro.Shiro

2020/10/07 12:37

IDは一番右の列です。2列目、4列目は検索に関係してきません。IDは実際は同じものが複数回現れます。元のデータフレームを行抽出したいです。

行動規範の内容に同意します

回答2件

ベストアンサー

まあ一応、forで回してdf_AAA100などを動的に作成することはできます。

Python
1import pandas as pd
2
3list = [
4    [1, 100, 0.33, 'AAA', 'AAA100'],
5    [2, 200, 0.67, 'BBB', 'BBB200'],
6    [3, 300, 1, 'CCC', 'CCC300'],
7    [4, 400, 1.33, 'DDD', 'DDD400'],
8    [5, 500, 1.67, 'EEE', 'EEE500'],
9    [6, 600, 2, 'FFF', 'FFF600']]
10
11df = pd.DataFrame(list)
12
13df.index = ['row0', 'row1', 'row2', 'row3', 'row4', 'row5']
14# print(df)
15
16for id_code in df[4]:
17    exec(f'df_{id_code} = df[df[4] == "{id_code}"]')
18
19print(df_AAA100)
20print(df_BBB200)
21print(df_CCC300)
22print(df_DDD400)
23print(df_EEE500)
24print(df_FFF600)

result
1      0    1     2    3       4
2row0  1  100  0.33  AAA  AAA100
3      0    1     2    3       4
4row1  2  200  0.67  BBB  BBB200
5      0    1    2    3       4
6row2  3  300  1.0  CCC  CCC300
7      0    1     2    3       4
8row3  4  400  1.33  DDD  DDD400
9      0    1     2    3       4
10row4  5  500  1.67  EEE  EEE500
11      0    1    2    3       4
12row5  6  600  2.0  FFF  FFF600

投稿2020/10/07 13:49

編集2020/10/07 13:51

Daregada

総合スコア11992

Shiro.Shiro

2020/10/08 05:34

ご回答誠にありがとうございます。作製されたdataframe(df_AAA100、df_BBB200、...）をto_csvを用いて、TSV形式(ファイル名は大きく変えずに、df_AAA100.tsv、df_BBB200.tsv)に出力したいのですが、for文などを用いて数行で実行する方法はありますでしょうか。

Daregada

2020/10/08 06:01

回答に評価も出さないまま、質問に書いていない追加仕様をどんどん積み重ねないでください。ここは質問に対して回答を述べる場で、あなたの要求を無料で実現する場所ではありません。 df[4] で、IDコードのSeriesが得られ、for文でそれを回しながら処理できることが回答で示されたのですから、あとはあなたがそれを利用して、ファイルに書き出すコードを書けばいいのです。

Shiro.Shiro

2020/10/08 07:15

失礼いたしました。トライしてみます。

行動規範の内容に同意します

pandasのDataFrameには、グループという機能があり、質問者様のやりたいことが１行でできます。
若干、期待する変数の形とは異なりますが、これで十分でしょう。

Python
1import pandas as pd
2
3list = [
4[1, 100, 0.33, 'AAA', 'AAA100'], 
5[2, 200, 0.67, 'BBB', 'BBB200'], 
6[3, 300, 1, 'CCC', 'CCC300'], 
7[4, 400, 1.33, 'DDD', 'DDD400'], 
8[5, 500, 1.67, 'EEE', 'EEE500'], 
9[6, 600, 2, 'FFF', 'FFF600']]
10
11df = pd.DataFrame(list)
12
13grouped = df.groupby(4)  # これだけ
14
15print(grouped.get_group('AAA100'))
16#    0    1     2    3       4
17# 0  1  100  0.33  AAA  AAA100
18
19print(grouped.get_group('BBB200'))
20#    0    1     2    3       4
21# 1  2  200  0.67  BBB  BBB200
22
23# 以下略

行ラベルは、あえてそのままにしていますが、振り直すことも簡単にできます。

投稿2020/10/07 12:46

編集2020/10/07 12:49

toast-uz

総合スコア3266

Shiro.Shiro

2020/10/07 12:49

ご回答誠にありがとうございます。 for文を使って、print(grouped.get...)を一行で済ませることはできますでしょうか？

toast-uz

2020/10/07 12:56 編集

index_list = ['AAA100', 'BBB200', ...] for index in index_list: print(index) print(grouped.get_group(index)) または for index, group_df in grouped: print(index) print(group_df) などでできます。それぞれforの後のprint 2つはインデントします。後半は全てのIDを出力してしまいますが。

Shiro.Shiro

2020/10/08 07:12

誠にありがとうございました。大変良い勉強になりました。

行動規範の内容に同意します

あなたの回答