質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

  • Python 3.x

    7443questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Jupyter

    297questions

データフレームが格納された変数の自動生成

受付中

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 190

jun.k

score 20

indexが日付、columnsがa,b,cとあるデータフレームdf(1000行)があり、a列は1から100までの重複を許容した値が入っているものとします。ここでa列を各々ソート(1,2,3・・・でソート)したデータフレームを新たに作成して、df1,df2,df3・・・・・としたいのですが。

個別にはdf1=df[df['a']==1]などとして数字の部分を変えていけばよいと思うのですが、数が多いのでFor文を使おうと考えて下記コードを組んだのですが、うまくいきませんでした。

for i in range(99):
exec('df'+str(i+1))=df[df['a']==i+1]

どのようなコードを書くべきでしょうか。
お手数をお掛けしますが、よろしくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+1

df1のような個々の変数を用いるよりもデータフレームのリストを用いた方がよいです。

dfs = []
for i in range(100):
    dfs.append( df[df['a']==i+1])

dfs[0] # df[df['a'] == 1]


ただ、そもそも重複を除去したデータフレームを100個生成する必要が本当にあるのか、全体の処理を見直したほうがよいかもしれません。(ループ処理内で必要に応じ生成でもできないか?)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/09 16:43

    ありがとうございます。ちょっとこちらではエラーになってしまう(list indices must be integers or slices, not str)のですが、趣旨はわかりました。
    そうですね。もう一度本当に必要か考えてみます。

    キャンセル

+1

個人的には特に新しく100個に分割したDataFrameを生成する必要はなく、単に
groupby() にてaの値に応たてグループ分けしておき、必用に応じて get_group() にてViewを取得すると良いかと思います。

import pandas as pd
import numpy as np

# ダミーデータの生成
N = 1000
df = pd.DataFrame(
  {'a':np.random.randint(1, 100+1, N),
   'b':np.random.rand(N),
   'c':np.random.rand(N)},
  index=pd.date_range('2018/01/01 00:00', freq='1h', periods=N))

# 'a'列の値でグループ分けする
groupd_df = df.groupby('a')

# a == 1 のグループを取得・表示
print(groupd_df.get_group(1))

# a == 100 のグループを取得・表示
print(groupd_df.get_group(100))

# ループで全グループを取得
for a_value, d in groupd_df:
    print(a_value)
    print(d)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/09 17:09

    ありがとうございます。生成したデータを加工したいので、viewだけだとちょっと厳しいです。ソートしたデータフレームごとに欠損値をそのデータの中央値で補完とかの処理をすることを考えていました。

    キャンセル

  • 2018/01/09 17:18 編集

    なるほど。
    であれば、上記に記述したループを使って

    dfs = {}
    for a_value, d in groupd_df:
    __dfs[a_value] = d.copy()

    として、Dictに格納すると良いのではないかと思います

    キャンセル

  • 2018/01/09 17:48

    ありがとうございます。できましたが、DataFrameでないので加工がしにくいのですが、変換はできないのでしょうか。pd.DataFrame(dfs[1])でできませんでした。

    キャンセル

  • 2018/01/09 17:54 編集

    dfs[1]~dfs[100] それぞれが既に 独立したDataFrame型になっていると思います。

    キャンセル

  • 2018/01/09 18:03

    試しにdfs[1].head()とすると、'function' object has no attribute 'head'と表示されてしまいます。type(dfs[1])ではmethodとなってしまいます。

    キャンセル

  • 2018/01/11 10:27

    色々ありがとうございました。別の方法を検討しますので、本件は一旦クローズさせて頂きます。

    キャンセル

同じタグがついた質問を見る

  • Python 3.x

    7443questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Jupyter

    297questions