年月表記のスマートな処理の仕方

お世話になります。
教えてください。
フォーマットの異なる年月表記を統一したいと考えています。
下表のイメージです。

処理前	処理後
2018-04-10	2018年4月
2018-05-11	2018年5月
平成10年09月	1998年9月
昭和47年12月	1972年12月

そこで自分で書いたコードがこちらなのですが、我ながらなんとも冗長なコードになってしまい、
もっとスマートな書き方があればぜひご教示いただきたいです。よろしくお願いいたします。

python
1import pandas as pd
2
3df = pd.DataFrame({
4    '基準日':["2018-04-10",
5              "2018-05-11",
6              "平成30年09月",
7              "昭和47年12月",]
8})
9
10df["年号"] = df["基準日"].str[:2]
11df["基準日"] = df["基準日"].str.replace("昭和", '@')
12df["基準日"] = df["基準日"].str.replace("平成", '@')
13
14df["和暦抽出用"] = df["基準日"].str.split("@", expand=True)[1]
15df["和暦年"] = df["和暦抽出用"].str.split("年", expand=True)[0]
16df["和暦年"].fillna(0, inplace=True)
17df["和暦月"] = df["和暦抽出用"].str.split("年", expand=True)[1]
18df["和暦月2"] = df["和暦月"].str.split("月", expand=True)[0]
19
20df["西暦"] = df["和暦年"].astype(int)
21df.loc[df["年号"]=="平成","西暦"] = df["西暦"] + 1988
22df.loc[df["年号"]=="昭和","西暦"] = df["西暦"] + 1925
23df.loc[df["年号"]=="令和","西暦"] = df["西暦"] + 2019
24df["西暦年月"] = df["西暦"].map(str) + "-" + df["和暦月2"] + "-01"
25
26df["西暦年月"] = pd.to_datetime(df["西暦年月"])
27df["西暦年"] = df["西暦年月"].dt.year
28df['西暦年'] = df['西暦年'].dropna().apply(int).apply(str)
29
30df["西暦月"] = df["西暦年月"].dt.month
31df['西暦月'] = df['西暦月'].dropna().apply(int).apply(str)
32
33df.loc[df["基準日"].str.contains("-"),"西暦年"] = df["基準日"].str[:4]
34df.loc[df["基準日"].str.contains("-"),"西暦月"] = df["基準日"].str[5:7]
35df["西暦年月"] = df["西暦年"] +"年"+ df["西暦月"]+"月"

Zuishin

2022/01/08 01:52

ほぼ同じことをしているんじゃないかと思います。 https://qiita.com/kirin123kirin/items/6a22a292a0c56c5ff9c0

gogotowel

2022/01/11 11:46

ありがとうございました。

行動規範の内容に同意します

回答2件

python
1import pandas as pd
2
3pd.set_option('display.unicode.east_asian_width', True)
4
5df = pd.DataFrame({
6    '基準日':["2018-04-10",
7              "2018-05-11",
8              "平成30年09月",
9              "昭和47年12月",]
10})
11
12start = {'明治': 1867, '大正': 1911, '昭和': 1925, '平成': 1988, '令和': 2018}
13df['西暦年月'] = (
14  df['基準日'].str
15    .extract(r'((\d{4})-(\d{2})|([^\d]+)(\d+)年(\d{2})月)')
16    .fillna(0).astype({1: int, 2: int, 4: int, 5: int})
17    .apply(
18      lambda x:
19        f'{x[1]}年{x[2]}月' if x[1] else f'{start[x[3]]+x[4]}年{x[5]}月', axis=1)
20)
21
22print(df)
23
24#
25         基準日    西暦年月
260    2018-04-10   2018年4月
271    2018-05-11   2018年5月
282  平成30年09月   2018年9月
293  昭和47年12月  1972年12月

投稿2022/01/08 03:39

melian

総合スコア20655

gogotowel

2022/01/11 11:44

ご回答ありがとうございました。分かりやすさでcan110様をベストアンサーとさせていただきましたが、melian様のご回答も試してみたいと思います。大変ありがとうございました。

行動規範の内容に同意します

ベストアンサー

年月の抽出に正規表現を使う
applyで一括処理する

以上で以下のように書けます。

Python
1import pandas as pd
2import re
3
4df = pd.DataFrame({
5    '基準日':["2018-04-10",
6              "2018-05-11",
7              "平成30年09月",
8              "昭和47年12月",]
9})
10
11def conv(s):
12    # 年月を抽出
13    rules = [(r'(\d+)-(\d+)', 0), (r'平成(\d+)年(\d+)月', 1988), (r'昭和(\d+)年(\d+)月', 1925)]
14    y, m = None, None
15    for exp, offset in rules:
16        ret = re.search(exp, s)
17        if ret:
18            y = int(ret.group(1)) + offset
19            m = int(ret.group(2))
20            break
21
22    s = ''
23    if y and m:
24        s = f'{y}年{m}月'
25    return s
26
27df['西暦年月'] = df['基準日'].apply(conv)
28print(df)
29#          基準日      西暦年月
30#0  2018-04-10   2018年4月
31#1  2018-05-11   2018年5月
32#2    平成30年09月   2018年9月
33#3    昭和47年12月  1972年12月
34
35

投稿2022/01/08 01:00

編集2022/01/08 01:10

8524ba23

総合スコア38341

gogotowel

2022/01/10 21:42

ご回答ありがとうございました。いただいた回答をいろいろ試して返答が遅くなりました。 applyの処理について教えてください。 conv()がapplyで実行される際、引数sはどのように与えられるのでしょうか。というのも、手持ちのデータで試すと次のエラーが出るのです。 ------------ ~\AppData\Local\Temp/ipykernel_9412/200884706.py in conv(s) 17 y,m = None,None 18 for exp,offset in rules: ---> 19 ret = re.search(exp,s) 20 if ret : 21 y = int(ret.group(1)) + offset ~\AppData\Local\Programs\Python\Python310\lib\re.py in search(pattern, string, flags) 198 """Scan through string looking for a match to the pattern, returning 199 a Match object, or None if no match was found.""" --> 200 return _compile(pattern, flags).search(string) 201 202 def sub(pattern, repl, string, count=0, flags=0): TypeError: expected string or bytes-like object ------------ 原因はメッセージの通り与えられた引数sが文字列じゃないということなのでしょうが、要素はobjectであることを確認しております。ご提示いただいたコードではエラーなく動作するので、データ側の問題だとは思うのですが、ヒントをいただけるとありがたいです。よろしくお願いいたします。

8524ba23

2022/01/11 00:55

applyの詳細については以下マニュアルを参照ください。 https://pandas.pydata.org/docs/reference/api/pandas.Series.apply.html 呼び出される関数の第一引数にシリーズの各値が入ってきます。コード全体が不明なのでなんともいえませんが、おそらく意図しない引数を渡しているものと思います。

gogotowel

2022/01/11 11:41

元データ（excel）からDataFrameの変換時に文字列で読み込んだら解消しました。 df = pd.read_excel(path_to_file, dtype=str) 根本的な解決ではないのですが、この書き方で進めることとしました。今回いただいたご回答で正規表現のいろはのいを学ぶことができて、大変参考になりました。改めて、ありがとうございました。

行動規範の内容に同意します

あなたの回答