複製した行を指定して一部のセルに値を代入したい

前提・実現したいこと

Pandasを使ってデータフレームの操作をしたいと考えています。具体的には、

既存のデータフレームで、特定カラムにIDが２つ入っている行を探して複製する(１つのIDは7文字)
１つめのIDは既存行に残す
２つめのIDは複製した行に上書きする

しかし、３.に失敗しています。

発生している問題・エラーメッセージ

３.の「２つめのIDを複製した行に上書きする」を実現するには、IDカラムと複製行の交わるセルを指定する必要があります。そこで、データフレームのインデックスを使えばうまくいくのではないかと考え、「既存データフレームの行数＋特定行のインデックス」を指定しました。しかし、複製行のインデックスが既存行と同じになってしまい、該当セルが上書きされず、元のままになります。

該当のソースコード

Python3.8.2
1convs = pd.read_csv('hoge.csv', index_col=0)
2convs = convs.reset_index()
3convs = convs.drop('index', axis=1)
4
5count = len(convs) #データフレームの行数を取得
6
7for index, row in convs.iterrows():
8        if (len(str(row['id_columns']))) > 7:
9            ids = str(row['id_columns'])
10            convs['id_columns'][index] = str(ids[0:6])
11            convs = convs.append(row)
12            convs['id_columns'][index+count] = str(ids[7:13]) #ここのconvs['id_columns'][index+count]という指定がうまく行かず、IDが上書きされない
13
14convs.to_csv('test.csv') #結果をCSVに保存

試したこと

特定行のインデックスを指定する方法がないか調べてみましたが、情報が見つかりませんでした。解決策がありましたら、ぜひ教えていただけるとうれしいです。

バージョン情報など

Pythonのバージョンは3.8.2です。

meg_

2020/05/18 07:39

現在のデータフレームと希望する結果のデータフレームを掲載されると回答がつきやすいかと思います。

tonkichi

2020/05/18 07:57

meg_さん、アドバイスありがとうございます！　後ほどデータフレームを掲載してみます！

行動規範の内容に同意します

回答1件

ベストアンサー

やりたいことはこういう事でしょうか？

Python
1import pandas as pd
2
3convs = pd.DataFrame({'id_columns':['aaaaaaabbbbbbb',
4                                    'ccccccc',
5                                    'dddddddeeeeeee'],
6                      'value':[10,20,30]})
7print(convs)
8#       id_columns  value
9#0  aaaaaaabbbbbbb     10
10#1         ccccccc     20
11#2  dddddddeeeeeee     30
12
13for index, row in convs.iterrows():
14    if (len(str(row['id_columns'])) > 7):
15        ids = str(row['id_columns'])
16        convs.loc[index, 'id_columns'] = ids[0:7]
17        convs = convs.append(row)
18        convs.iloc[-1, convs.columns.get_loc('id_columns')] = ids[7:14]
19
20convs.to_csv('test.csv')
21print(convs)
22#  id_columns  value
23#0    aaaaaaa     10
24#1    ccccccc     20
25#2    ddddddd     30
26#0    bbbbbbb     10
27#2    eeeeeee     30

ループを使わなくても、正規表現で同様のことを実装できます。（順番が若干変わりますが）

Python
1import pandas as pd
2
3convs = pd.DataFrame({'id_columns':['aaaaaaabbbbbbb',
4                                    'ccccccc',
5                                    'dddddddeeeeeee'],
6                      'value':[10,20,30]})
7
8tmp = convs['id_columns'].str.extract('(.{7,7})(.{7,7})?').stack().reset_index(level=1, drop=True).rename('id_columns')
9df = pd.concat([tmp, convs.drop('id_columns', axis=1)], axis=1)
10print(df)
11#  id_columns  value
12#0    aaaaaaa     10
13#0    bbbbbbb     10
14#1    ccccccc     20
15#2    ddddddd     30
16#2    eeeeeee     30