データフレームが格納された変数の自動生成

indexが日付、columnsがa,b,cとあるデータフレームdf(1000行)があり、a列は1から100までの重複を許容した値が入っているものとします。ここでa列を各々ソート(1,2,3・・・でソート)したデータフレームを新たに作成して、df1,df2,df3・・・・・としたいのですが。

個別にはdf1=df[df['a']==1]などとして数字の部分を変えていけばよいと思うのですが、数が多いのでFor文を使おうと考えて下記コードを組んだのですが、うまくいきませんでした。

for i in range(99):
exec('df'+str(i+1))=df[df['a']==i+1]

どのようなコードを書くべきでしょうか。
お手数をお掛けしますが、よろしくお願い致します。

行動規範の内容に同意します

回答2件

個人的には特に新しく100個に分割したDataFrameを生成する必要はなく、単に
groupby() にてaの値に応たてグループ分けしておき、必用に応じて get_group() にてViewを取得すると良いかと思います。

Python
1import pandas as pd
2import numpy as np
3
4# ダミーデータの生成
5N = 1000
6df = pd.DataFrame(
7  {'a':np.random.randint(1, 100+1, N),
8   'b':np.random.rand(N),
9   'c':np.random.rand(N)},
10  index=pd.date_range('2018/01/01 00:00', freq='1h', periods=N))
11
12# 'a'列の値でグループ分けする
13groupd_df = df.groupby('a')
14
15# a == 1 のグループを取得・表示
16print(groupd_df.get_group(1))
17
18# a == 100 のグループを取得・表示
19print(groupd_df.get_group(100))
20
21# ループで全グループを取得
22for a_value, d in groupd_df:
23    print(a_value)
24    print(d)

投稿2018/01/09 07:40

magichan

総合スコア15898

jun.k

2018/01/09 08:09

ありがとうございます。生成したデータを加工したいので、viewだけだとちょっと厳しいです。ソートしたデータフレームごとに欠損値をそのデータの中央値で補完とかの処理をすることを考えていました。

magichan

2018/01/09 08:18 編集

なるほど。であれば、上記に記述したループを使って dfs = {} for a_value, d in groupd_df: __dfs[a_value] = d.copy() として、Dictに格納すると良いのではないかと思います

jun.k

2018/01/09 08:48

ありがとうございます。できましたが、DataFrameでないので加工がしにくいのですが、変換はできないのでしょうか。pd.DataFrame(dfs[1])でできませんでした。

magichan

2018/01/09 08:57 編集

dfs[1]～dfs[100] それぞれが既に独立したDataFrame型になっていると思います。

jun.k

2018/01/09 09:03

試しにdfs[1].head()とすると、'function' object has no attribute 'head'と表示されてしまいます。type(dfs[1])ではmethodとなってしまいます。

jun.k

2018/01/11 01:27

色々ありがとうございました。別の方法を検討しますので、本件は一旦クローズさせて頂きます。

行動規範の内容に同意します

df1のような個々の変数を用いるよりもデータフレームのリストを用いた方がよいです。

Python
1dfs = []
2for i in range(100):
3    dfs.append( df[df['a']==i+1])
4
5dfs[0] # df[df['a'] == 1]

ただ、そもそも重複を除去したデータフレームを１００個生成する必要が本当にあるのか、全体の処理を見直したほうがよいかもしれません。（ループ処理内で必要に応じ生成でもできないか？）

投稿2018/01/09 07:32

can110

総合スコア38256

jun.k

2018/01/09 07:43

ありがとうございます。ちょっとこちらではエラーになってしまう(list indices must be integers or slices, not str)のですが、趣旨はわかりました。そうですね。もう一度本当に必要か考えてみます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

データフレームが格納された変数の自動生成

関連した質問