質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.33%

dataframeに対し、for文を用いて文字列検索を行い、複数dataframeに分割する。

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 186

Shiro.Shiro

score 5

以下のdataframe(実際には100行以上ある)に対し、ID(AAA100,BBB200など)で文字列検索をかけ、各IDに対応した5種の新しいdataframe(df_AAA100,df_BBB200,... の5種)に入れたいです(※期待されるアウトプット)。

import pandas as pd

list = [
[1, 100, 0.33, 'AAA', 'AAA100'], 
[2, 200, 0.67, 'BBB', 'BBB200'], 
[3, 300, 1, 'CCC', 'CCC300'], 
[4, 400, 1.33, 'DDD', 'DDD400'], 
[5, 500, 1.67, 'EEE', 'EEE500'], 
[6, 600, 2, 'FFF', 'FFF600']]

df = pd.DataFrame(list)

df.index = ['row0','row1','row2','row3','row4','row5']
print(df)

# c00  c01   c02  c03     c04
#0  1  100  0.33  AAA  AAA100
#1  2  200  0.67  BBB  BBB200
#2  3  300  1.00  CCC  CCC300
#3  4  400  1.33  DDD  DDD400
#4  5  500  1.67  EEE  EEE500
#5  6  600  2.00  FFF  FFF600
コード

※期待されるアウトプット
下記dataframeはdf_AAA100 = df[df["c04"] == "AAA100"]のように、それぞれでスクリプトを書けば
作成されると思いますが、for文で数行でまとめて実行することはできませんでしょうか。

print(df_AAA100)
# 0    1     2    3       4
#0  1  100  0.33  AAA  AAA100

print(df_BBB200)
# 0    1     2    3       4
#0  2  200  0.67  BBB  BBB200

print(df_CCC300)
# 0    1     2    3       4
#0  3  300  1.00  CCC  CCC300

print(df_DDD400)
# 0    1     2    3       4
#0  4  400  1.33  DDD  DDD400

print(df_EEE500)
# 0    1     2    3       4
#0  5  500  1.67  EEE  EEE500

print(df_FFF600)
# 0    1     2    3       4
#0  6  600  2.00  FFF  FFF600
コード
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • toast-uz

    2020/10/07 21:33

    IDとは、一番右の列ですか?2列目、4列目は、気にしなくて良いですか?
    IDは同じものが複数回出てくるのですか?
    各IDごとのデータフレームは、元のデータフレームを単純に行抽出したもので良いですか?

    キャンセル

  • Shiro.Shiro

    2020/10/07 21:36

    ※期待されるアウトプットについて、追加いたしました。

    キャンセル

  • Shiro.Shiro

    2020/10/07 21:37

    IDは一番右の列です。2列目、4列目は検索に関係してきません。IDは実際は同じものが複数回現れます。元のデータフレームを行抽出したいです。

    キャンセル

回答 2

checkベストアンサー

+1

まあ一応、forで回してdf_AAA100などを動的に作成することはできます。

import pandas as pd

list = [
    [1, 100, 0.33, 'AAA', 'AAA100'],
    [2, 200, 0.67, 'BBB', 'BBB200'],
    [3, 300, 1, 'CCC', 'CCC300'],
    [4, 400, 1.33, 'DDD', 'DDD400'],
    [5, 500, 1.67, 'EEE', 'EEE500'],
    [6, 600, 2, 'FFF', 'FFF600']]

df = pd.DataFrame(list)

df.index = ['row0', 'row1', 'row2', 'row3', 'row4', 'row5']
# print(df)

for id_code in df[4]:
    exec(f'df_{id_code} = df[df[4] == "{id_code}"]')

print(df_AAA100)
print(df_BBB200)
print(df_CCC300)
print(df_DDD400)
print(df_EEE500)
print(df_FFF600)
      0    1     2    3       4
row0  1  100  0.33  AAA  AAA100
      0    1     2    3       4
row1  2  200  0.67  BBB  BBB200
      0    1    2    3       4
row2  3  300  1.0  CCC  CCC300
      0    1     2    3       4
row3  4  400  1.33  DDD  DDD400
      0    1     2    3       4
row4  5  500  1.67  EEE  EEE500
      0    1    2    3       4
row5  6  600  2.0  FFF  FFF600

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/10/08 14:34

    ご回答誠にありがとうございます。作製されたdataframe(df_AAA100、df_BBB200、...)をto_csvを用いて、TSV形式(ファイル名は大きく変えずに、df_AAA100.tsv、df_BBB200.tsv)に出力したいのですが、for文などを用いて数行で実行する方法はありますでしょうか。

    キャンセル

  • 2020/10/08 15:01

    回答に評価も出さないまま、質問に書いていない追加仕様をどんどん積み重ねないでください。ここは質問に対して回答を述べる場で、あなたの要求を無料で実現する場所ではありません。

    df[4] で、IDコードのSeriesが得られ、for文でそれを回しながら処理できることが回答で示されたのですから、あとはあなたがそれを利用して、ファイルに書き出すコードを書けばいいのです。

    キャンセル

  • 2020/10/08 16:15

    失礼いたしました。トライしてみます。

    キャンセル

+1

pandasのDataFrameには、グループという機能があり、質問者様のやりたいことが1行でできます。
若干、期待する変数の形とは異なりますが、これで十分でしょう。

import pandas as pd

list = [
[1, 100, 0.33, 'AAA', 'AAA100'], 
[2, 200, 0.67, 'BBB', 'BBB200'], 
[3, 300, 1, 'CCC', 'CCC300'], 
[4, 400, 1.33, 'DDD', 'DDD400'], 
[5, 500, 1.67, 'EEE', 'EEE500'], 
[6, 600, 2, 'FFF', 'FFF600']]

df = pd.DataFrame(list)

grouped = df.groupby(4)  # これだけ

print(grouped.get_group('AAA100'))
#    0    1     2    3       4
# 0  1  100  0.33  AAA  AAA100

print(grouped.get_group('BBB200'))
#    0    1     2    3       4
# 1  2  200  0.67  BBB  BBB200

# 以下略

行ラベルは、あえてそのままにしていますが、振り直すことも簡単にできます。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/10/07 21:49

    ご回答誠にありがとうございます。
    for文を使って、print(grouped.get...)を一行で済ませることはできますでしょうか?

    キャンセル

  • 2020/10/07 21:54 編集

    index_list = ['AAA100', 'BBB200', ...]
    for index in index_list:
    print(index)
    print(grouped.get_group(index))
    または
    for index, group_df in grouped:
    print(index)
    print(group_df)
    などでできます。それぞれforの後のprint 2つはインデントします。
    後半は全てのIDを出力してしまいますが。

    キャンセル

  • 2020/10/08 16:12

    誠にありがとうございました。大変良い勉強になりました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.33%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る