pandas 文字列変換

Question

### 前提

pandas データフレームに格納されている文字を最新のデータに変換したい

### 実現したいこと

例）1_あいうえお **2_かきく** 3_さしすせそ **2_かきくけこ**

２_が2回発生しているので後ろの「２_かきくけこ」を「２_かきく」と置き換えたい

変換後↓
1_あいうえお **2_かきくけこ** 3_さしすせそ

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-09-19/7649d38b-233a-4338-b0a8-b3835164f307.png)
### 該当のソースコード
サンプルのソースコードですが、A列が例、B列が実現したい形になります

```ここに言語名を入力
import pandas as pd

df = pd.DataFrame(
    data={'A': ['1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ', '1_あいうえお 2_かきくけこ 3_さしすせそ 3_さしす'],
          'B': ['1_あいうえお 2_かきくけこ 3_さしすせそ', '1_あいうえお 2_かきくけこ 3_さしす']} 
)
```

### 試したこと
前回  「最新データを累積」で回答頂いたのを参考に
splitで数字と文字列に分けて、辞書に格納して変換？と考えてはみたのですが、
自力では書けず苦戦しています

Accepted Answer

```python
import pandas as pd

df = pd.DataFrame(data={
    'A': ['1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ',
          '1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ 3_さしす']
})

#
df['B'] = df['A'].str.split(r'\s+', expand=True)\
                 .apply(lambda x: x.groupby(x.str.extract(r'^(\d+_)')[0])
                                   .last().str.cat(sep=' '), axis=1)

print(df)
```

|    | A                                                        | B                                      |
|---:|:---------------------------------------------------------|:---------------------------------------|
|  0 | 1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ          | 1_あいうえお 2_かきくけこ 3_さしすせそ |
|  1 | 1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ 3_さしす | 1_あいうえお 2_かきくけこ 3_さしす     |

Answer

以下のような感じでよいでしょうか。動かしてご確認いただければと思います。

注意点としては、処理元の文字列書式は [数字][アンダースコア][文字列][スペース].... であることです。
特に、アンダースコアとスペースの順番が崩れると、期待通りとはならないかと思います。
思ったより複雑な処理となったので、文字列の処理部は関数化しています。

あと、用意されたデータの2つ目（1-A、1-B）についてですが、
    変換前：1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ 3_さしす
    変換後：1_あいうえお 2_かきく 3_さしす 2_かきくけこ
となっており、番号「2」の「か行のデータ」が2回登場しますが上書きされていません。
こちらは、誤記かと思いましたのでこのまま回答とさせていただきます。

```python
import pandas as pd

df = pd.DataFrame(
    data={'A': ['1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ', '1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ 3_さしす'],
          'B': ['1_あいうえお 2_かきくけこ 3_さしすせそ', '1_あいうえお 2_かきく 3_さしす 2_かきくけこ']} 
)

def process_for_str(before_data:str):
    """文字列を処理する関数"""
    # 元データをスペースで区切った配列にする
    list1 = before_data.split(' ')
    print('  proc1 : list1 = {}'.format(list1)) # 確認用
    d:dict={}
    # 上記配列の各要素に対し、
    # アンダースコアで区切った配列を作成して、
    # それを dictに変換して d に追加・上書きしていく
    # ※ dict.update メソッドは同じkeyが存在するときは上書きされる
    for l in list1:
        list2 = l.split('_')
        d.update({list2[0]:list2[1]}) # 確認用
    print('  proc2 : d = {}'.format(d))
    # 上記で処理された dict を str に戻す
    ret = ''
    for k in d.keys():
        ret+='{}_{} '.format(k,d[k])
    ret=ret[:-1]
    return ret

#####
# メイン処理
#####
for data in df.iterrows():
    before_data = data[1]['A']
    print('*******')
    print('before_data= {}'.format(before_data))
    after_data = process_for_str(before_data)
    print('after_data= {}'.format(after_data))
    print('result = {}'.format(after_data == data[1]['B']))
    print()
```

	A	B
0	1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ	1_あいうえお 2_かきくけこ 3_さしすせそ
1	1_あいうえお 2_かきく 3_さしすせそ 2_かきくけこ 3_さしす	1_あいうえお 2_かきくけこ 3_さしす

前提

実現したいこと

該当のソースコード

試したこと

関連した質問