年月表記のスマートな処理の仕方

Question

お世話になります。
教えてください。
フォーマットの異なる年月表記を統一したいと考えています。
下表のイメージです。
|処理前|処理後|
|:--:|:--:|
|2018-04-10|2018年4月|
|2018-05-11|2018年5月
|平成10年09月|1998年9月
|昭和47年12月|1972年12月

そこで自分で書いたコードがこちらなのですが、我ながらなんとも冗長なコードになってしまい、
もっとスマートな書き方があればぜひご教示いただきたいです。よろしくお願いいたします。

```python
import pandas as pd

df = pd.DataFrame({
    '基準日':["2018-04-10",
              "2018-05-11",
              "平成30年09月",
              "昭和47年12月",]
})

df["年号"] = df["基準日"].str[:2]
df["基準日"] = df["基準日"].str.replace("昭和", '@')
df["基準日"] = df["基準日"].str.replace("平成", '@')

df["和暦抽出用"] = df["基準日"].str.split("@", expand=True)[1]
df["和暦年"] = df["和暦抽出用"].str.split("年", expand=True)[0]
df["和暦年"].fillna(0, inplace=True)
df["和暦月"] = df["和暦抽出用"].str.split("年", expand=True)[1]
df["和暦月2"] = df["和暦月"].str.split("月", expand=True)[0]

df["西暦"] = df["和暦年"].astype(int)
df.loc[df["年号"]=="平成","西暦"] = df["西暦"] + 1988
df.loc[df["年号"]=="昭和","西暦"] = df["西暦"] + 1925
df.loc[df["年号"]=="令和","西暦"] = df["西暦"] + 2019
df["西暦年月"] = df["西暦"].map(str) + "-" + df["和暦月2"] + "-01"

df["西暦年月"] = pd.to_datetime(df["西暦年月"])
df["西暦年"] = df["西暦年月"].dt.year
df['西暦年'] = df['西暦年'].dropna().apply(int).apply(str)

df["西暦月"] = df["西暦年月"].dt.month
df['西暦月'] = df['西暦月'].dropna().apply(int).apply(str)

df.loc[df["基準日"].str.contains("-"),"西暦年"] = df["基準日"].str[:4]
df.loc[df["基準日"].str.contains("-"),"西暦月"] = df["基準日"].str[5:7]
df["西暦年月"] = df["西暦年"] +"年"+ df["西暦月"]+"月"
```

Accepted Answer

- 年月の抽出に正規表現を使う
- applyで一括処理する

以上で以下のように書けます。
```Python
import pandas as pd
import re

df = pd.DataFrame({
    '基準日':["2018-04-10",
              "2018-05-11",
              "平成30年09月",
              "昭和47年12月",]
})

def conv(s):
    # 年月を抽出
    rules = [(r'(\d+)-(\d+)', 0), (r'平成(\d+)年(\d+)月', 1988), (r'昭和(\d+)年(\d+)月', 1925)]
    y, m = None, None
    for exp, offset in rules:
        ret = re.search(exp, s)
        if ret:
            y = int(ret.group(1)) + offset
            m = int(ret.group(2))
            break

    s = ''
    if y and m:
        s = f'{y}年{m}月'
    return s

df['西暦年月'] = df['基準日'].apply(conv)
print(df)
#          基準日      西暦年月
#0  2018-04-10   2018年4月
#1  2018-05-11   2018年5月
#2    平成30年09月   2018年9月
#3    昭和47年12月  1972年12月


```

Answer

```python
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)

df = pd.DataFrame({
    '基準日':["2018-04-10",
              "2018-05-11",
              "平成30年09月",
              "昭和47年12月",]
})

start = {'明治': 1867, '大正': 1911, '昭和': 1925, '平成': 1988, '令和': 2018}
df['西暦年月'] = (
  df['基準日'].str
    .extract(r'((\d{4})-(\d{2})|([^\d]+)(\d+)年(\d{2})月)')
    .fillna(0).astype({1: int, 2: int, 4: int, 5: int})
    .apply(
      lambda x:
        f'{x[1]}年{x[2]}月' if x[1] else f'{start[x[3]]+x[4]}年{x[5]}月', axis=1)
)

print(df)

#
         基準日    西暦年月
0    2018-04-10   2018年4月
1    2018-05-11   2018年5月
2  平成30年09月   2018年9月
3  昭和47年12月  1972年12月
```

処理前	処理後
2018-04-10	2018年4月
2018-05-11	2018年5月
平成10年09月	1998年9月
昭和47年12月	1972年12月

関連した質問