質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

2604閲覧

dataframeに対し、for文を用いて文字列検索を行い、複数dataframeに分割する。

Shiro.Shiro

総合スコア9

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/10/07 11:51

編集2020/10/07 12:35

以下のdataframe(実際には100行以上ある)に対し、ID(AAA100,BBB200など)で文字列検索をかけ、各IDに対応した5種の新しいdataframe(df_AAA100,df_BBB200,... の5種)に入れたいです(※期待されるアウトプット)。

import pandas as pd list = [ [1, 100, 0.33, 'AAA', 'AAA100'], [2, 200, 0.67, 'BBB', 'BBB200'], [3, 300, 1, 'CCC', 'CCC300'], [4, 400, 1.33, 'DDD', 'DDD400'], [5, 500, 1.67, 'EEE', 'EEE500'], [6, 600, 2, 'FFF', 'FFF600']] df = pd.DataFrame(list) df.index = ['row0','row1','row2','row3','row4','row5'] print(df) # c00 c01 c02 c03 c04 #0 1 100 0.33 AAA AAA100 #1 2 200 0.67 BBB BBB200 #2 3 300 1.00 CCC CCC300 #3 4 400 1.33 DDD DDD400 #4 5 500 1.67 EEE EEE500 #5 6 600 2.00 FFF FFF600 コード

※期待されるアウトプット
下記dataframeはdf_AAA100 = df[df["c04"] == "AAA100"]のように、それぞれでスクリプトを書けば
作成されると思いますが、for文で数行でまとめて実行することはできませんでしょうか。

print(df_AAA100) # 0 1 2 3 4 #0 1 100 0.33 AAA AAA100 print(df_BBB200) # 0 1 2 3 4 #0 2 200 0.67 BBB BBB200 print(df_CCC300) # 0 1 2 3 4 #0 3 300 1.00 CCC CCC300 print(df_DDD400) # 0 1 2 3 4 #0 4 400 1.33 DDD DDD400 print(df_EEE500) # 0 1 2 3 4 #0 5 500 1.67 EEE EEE500 print(df_FFF600) # 0 1 2 3 4 #0 6 600 2.00 FFF FFF600 コード

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/10/07 12:03

コードは「コードの挿入」で記入してください。
firegrape

2020/10/07 12:14

この場合で言うと、右から2列目と左から2列目の値を結合して 一番右の列に挿入したいという意図であっていますでしょうか?
Shiro.Shiro

2020/10/07 12:17

いえ、検索文字列に応じて各行を丸丸抽出して、各新規dataframe(df_AAA100,df_BBB200,... )の5種に挿入したいということになります。説明が下手で申し訳ありません。
firegrape

2020/10/07 12:21

うーん、まだわからないです。。 ごめんなさい。 上記のlistの値以外に別の値の例があればわかるのかな??
meg_

2020/10/07 12:22

やりたいことは、グループ化とはまた別の処理ですか?
toast-uz

2020/10/07 12:33

IDとは、一番右の列ですか?2列目、4列目は、気にしなくて良いですか? IDは同じものが複数回出てくるのですか? 各IDごとのデータフレームは、元のデータフレームを単純に行抽出したもので良いですか?
Shiro.Shiro

2020/10/07 12:36

※期待されるアウトプットについて、追加いたしました。
Shiro.Shiro

2020/10/07 12:37

IDは一番右の列です。2列目、4列目は検索に関係してきません。IDは実際は同じものが複数回現れます。元のデータフレームを行抽出したいです。
guest

回答2

0

ベストアンサー

まあ一応、forで回してdf_AAA100などを動的に作成することはできます。

Python

1import pandas as pd 2 3list = [ 4 [1, 100, 0.33, 'AAA', 'AAA100'], 5 [2, 200, 0.67, 'BBB', 'BBB200'], 6 [3, 300, 1, 'CCC', 'CCC300'], 7 [4, 400, 1.33, 'DDD', 'DDD400'], 8 [5, 500, 1.67, 'EEE', 'EEE500'], 9 [6, 600, 2, 'FFF', 'FFF600']] 10 11df = pd.DataFrame(list) 12 13df.index = ['row0', 'row1', 'row2', 'row3', 'row4', 'row5'] 14# print(df) 15 16for id_code in df[4]: 17 exec(f'df_{id_code} = df[df[4] == "{id_code}"]') 18 19print(df_AAA100) 20print(df_BBB200) 21print(df_CCC300) 22print(df_DDD400) 23print(df_EEE500) 24print(df_FFF600)

result

1 0 1 2 3 4 2row0 1 100 0.33 AAA AAA100 3 0 1 2 3 4 4row1 2 200 0.67 BBB BBB200 5 0 1 2 3 4 6row2 3 300 1.0 CCC CCC300 7 0 1 2 3 4 8row3 4 400 1.33 DDD DDD400 9 0 1 2 3 4 10row4 5 500 1.67 EEE EEE500 11 0 1 2 3 4 12row5 6 600 2.0 FFF FFF600

投稿2020/10/07 13:49

編集2020/10/07 13:51
Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Shiro.Shiro

2020/10/08 05:34

ご回答誠にありがとうございます。作製されたdataframe(df_AAA100、df_BBB200、...)をto_csvを用いて、TSV形式(ファイル名は大きく変えずに、df_AAA100.tsv、df_BBB200.tsv)に出力したいのですが、for文などを用いて数行で実行する方法はありますでしょうか。
Daregada

2020/10/08 06:01

回答に評価も出さないまま、質問に書いていない追加仕様をどんどん積み重ねないでください。ここは質問に対して回答を述べる場で、あなたの要求を無料で実現する場所ではありません。 df[4] で、IDコードのSeriesが得られ、for文でそれを回しながら処理できることが回答で示されたのですから、あとはあなたがそれを利用して、ファイルに書き出すコードを書けばいいのです。
Shiro.Shiro

2020/10/08 07:15

失礼いたしました。トライしてみます。
guest

0

pandasのDataFrameには、グループという機能があり、質問者様のやりたいことが1行でできます。
若干、期待する変数の形とは異なりますが、これで十分でしょう。

Python

1import pandas as pd 2 3list = [ 4[1, 100, 0.33, 'AAA', 'AAA100'], 5[2, 200, 0.67, 'BBB', 'BBB200'], 6[3, 300, 1, 'CCC', 'CCC300'], 7[4, 400, 1.33, 'DDD', 'DDD400'], 8[5, 500, 1.67, 'EEE', 'EEE500'], 9[6, 600, 2, 'FFF', 'FFF600']] 10 11df = pd.DataFrame(list) 12 13grouped = df.groupby(4) # これだけ 14 15print(grouped.get_group('AAA100')) 16# 0 1 2 3 4 17# 0 1 100 0.33 AAA AAA100 18 19print(grouped.get_group('BBB200')) 20# 0 1 2 3 4 21# 1 2 200 0.67 BBB BBB200 22 23# 以下略

行ラベルは、あえてそのままにしていますが、振り直すことも簡単にできます。

投稿2020/10/07 12:46

編集2020/10/07 12:49
toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Shiro.Shiro

2020/10/07 12:49

ご回答誠にありがとうございます。 for文を使って、print(grouped.get...)を一行で済ませることはできますでしょうか?
toast-uz

2020/10/07 12:56 編集

index_list = ['AAA100', 'BBB200', ...] for index in index_list: print(index) print(grouped.get_group(index)) または for index, group_df in grouped: print(index) print(group_df) などでできます。それぞれforの後のprint 2つはインデントします。 後半は全てのIDを出力してしまいますが。
Shiro.Shiro

2020/10/08 07:12

誠にありがとうございました。大変良い勉強になりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問