【Python】データフレームの行の複製

前提・実現したいこと

プログラミング超初心者です。
初めてこちらのサイトで質問させていただきます。

Pythonに関する質問です。
やりたいこととしては、以下のようなdf1からdf2に加工することです。

import pandas as pd
df1 = pd.DataFrame({'n': [2, 3, 2],
'a': [100, 300, 500],
'b': [200, 400, 600]})

df2 = pd.DataFrame({'n': [2, 2, 3, 3, 3, 2, 2],
'a': [100, 100, 300, 300, 300, 500, 500],
'b': [200, 200, 400, 400, 400, 600, 600]})

すなわち、df1['n']の数だけdf1の行を複製することです。
私が試してみたコードは以下の通りで、結果は問題ないのですが、
実際やろうとしているデータではdf1の行数が数百行で、nの数も
ある程度大きな数字です。
私が書いたような2重ループのコードだとかなり非効率なので、
より効率の良い書き方はありませんでしょうか。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

ソースコード

試したこと

import pandas as pd
df1 = pd.DataFrame({'n': [2, 3, 2],
'a': [100, 300, 500],
'b': [200, 400, 600]})

df2 = df1
for i in range(len(df1)):
for j in range(df1.iloc[i]['n']-1):
df2 = df2.append(df1.iloc[i])

df2 = df2.sort_index()

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答2件

ベストアンサー

pd.Index.repeat()を用いると、Indexの値を任意の数ずつ複製することができます。
pandas.Index.repeat — pandas documentation

python
1import pandas as pd
2
3df1 = pd.DataFrame({'n': [2, 3, 2],
4                    'a': [100, 300, 500],
5                    'b': [200, 400, 600]})
6#    n    a    b
7# 0  2  100  200
8# 1  3  300  400
9# 2  2  500  600
10
11df1.index.repeat(df1['n'])
12# Int64Index([0, 0, 1, 1, 1, 2, 2], dtype='int64')
13
14df1.loc[df1.index.repeat(df1['n'])]
15#    n    a    b
16# 0  2  100  200
17# 0  2  100  200
18# 1  3  300  400
19# 1  3  300  400
20# 1  3  300  400
21# 2  2  500  600
22# 2  2  500  600

なお、df1のインデックスが重複している場合や、より高速な処理を求める場合は以下の方法で

python
1import numpy as np
2
3df1 = pd.DataFrame({'n': [2, 3, 2],
4                    'a': [100, 300, 500],
5                    'b': [200, 400, 600]},
6                    index=[1, 2, 1])
7
8df1.loc[df1.index.repeat(df1['n'])]  # インデックスが重複していると結果が正しくない
9#    n    a    b
10# 1  2  100  200
11# 1  2  500  600
12# 1  2  100  200
13# 1  2  500  600
14# 2  3  300  400
15# 2  3  300  400
16# 2  3  300  400
17# 1  2  100  200
18# 1  2  500  600
19# 1  2  100  200
20# 1  2  500  600
21
22df1.iloc[np.repeat(np.arange(len(df1)), df1['n'].to_numpy())]  # 正しく、かつ高速
23#    n    a    b
24# 1  2  100  200
25# 1  2  100  200
26# 2  3  300  400
27# 2  3  300  400
28# 2  3  300  400
29# 1  2  500  600
30# 1  2  500  600

投稿2020/08/26 06:56

編集2020/08/26 07:04

kirara0048

総合スコア1399

mashita_takuo

2020/08/26 07:05

ありがとうございます。考えたり調べたりするのにかなり時間が掛かっていました。大変助かりました。

行動規範の内容に同意します

Repeat Rows in Data Frame n Timesにシンプルな方法があげられていました。

Python
1import pandas as pd
2
3df1 = pd.DataFrame({'n': [2, 3, 2],
4'a': [100, 300, 500],
5'b': [200, 400, 600]})
6df2 = df1.loc[df1.index.repeat(df1['n'])].reset_index(drop=True)
7print(df2)
8"""
9   n    a    b
100  2  100  200
111  2  100  200
122  3  300  400
133  3  300  400
144  3  300  400
155  2  500  600
166  2  500  600
17"""