csvの列名rename操作（ループ処理）

前提・実現したいこと

pandasで列名のrenameを下記のように複数列一度に行いたいです。
※直近を1M、2ヶ月前を2M、3ヶ月前を3M...という表記

[列名]
( 現状 ) → ( rename後 )
@_201905_データ → データ_1M
@_201904_データ → データ_2M
@_201903_データ → データ_3M

ステップは下記を考えていましたが、データ自体の操作ではなく、列名の操作をどのように行えば良いのか困っております。。
①「@201905」のような文字列を含む列名を取得
②「@201905」であれば列名最後に「1M」、「@201904」であれば列名最後に「2M」を付与するループ処理
③「@201905」部分の文字列削除

sampledata
1df=DataFrame([[2190,13378,2190,13378],[1904,13378,2190,13378],[5157,13378,2190,13378]],
2             columns=['area','@_201905_データ','@_201905_データ','@_201905_データ'],
3             index=['Tokyooo','Osaka','Chibaaa'])

ぜひご教授いただけますでしょうか..?
よろしくお願いします。。

行動規範の内容に同意します

回答1件

ベストアンサー

各列を変更する関数を作り、DataFrame.rename に指定してください。

rename する関数の内容

pd.to_datetime で "@_{年}{月}_データ" を datetime に変換する。
pd.isna() を調べて、"area" のような "@_{年}{月}_データ" という形式でない列は変更しないでそのまま返す。
今日の datetime との差分を計算し、何ヶ月前かを調べる。
"データ_{nヶ月前}M" という文字列を返す。

python
1
2
3import pandas as pd
4import numpy as np
5
6df = pd.DataFrame(
7    [
8        [2190, 13378, 2190, 13378],
9        [1904, 13378, 2190, 13378],
10        [5157, 13378, 2190, 13378],
11    ],
12    columns=["area", "@_201905_データ", "@_201904_データ", "@_201903_データ"],
13    index=["Tokyooo", "Osaka", "Chibaaa"],
14)
15
16
17def renamer(name):
18    # "@_%Y%m_データ" を datetime に変換する。
19    date = pd.to_datetime(name, format="@_%Y%m_データ", errors="coerce")
20    if pd.isna(date):
21        return name  # "@_{年}{月}_データ" という形式でない場合
22
23    # 何ヶ月前かを計算する。
24    months = (pd.to_datetime("today") - date) // np.timedelta64(1, "M")
25
26    return f"データ_{months}M"
27
28
29df.rename(columns=renamer, inplace=True)
30
31print(df)
32#          area  データ_1M  データ_2M  データ_3M
33# Tokyooo  2190   13378    2190   13378
34# Osaka    1904   13378    2190   13378
35# Chibaaa  5157   13378    2190   13378

追記

複数パターン存在する場合は、どのようにループさせていけば良いでしょうか..？

pandas.to_datetime() に exact=False を追加してください。
これにより、列名の一部が @_{年}{月}_データ とマッチすれば、日付に変換できます。

pandas.to_datetime — pandas 0.24.2 documentation

変更箇所

diff
1- date = pd.to_datetime(name, format="@_%Y%m_データ", errors="coerce")
2+ date = pd.to_datetime(name, format="@_%Y%m_データ", errors="coerce", exact=False)

修正後のコード全体

python
1import pandas as pd
2import numpy as np
3
4df = pd.DataFrame(
5    [
6        [2190, 13378, 2190, 13378, 13378, 2190, 13378],
7        [1904, 13378, 2190, 13378, 13378, 2190, 13378],
8        [5157, 13378, 2190, 13378, 13378, 2190, 13378],
9    ],
10    columns=[
11        "area",
12        "@_201905_データA",
13        "@_201904_データA",
14        "@_201905_データB",
15        "@_201904_データB",
16        "@_201905_データC",
17        "@_201904_データC",
18    ],
19    index=["Tokyooo", "Osaka", "Chibaaa"],
20)
21
22def renamer(name):
23    # "@_%Y%m_データ" を datetime に変換する。
24    date = pd.to_datetime(name, format="@_%Y%m_データ", errors="coerce", exact=False)
25    if pd.isna(date):
26        return name  # "@_{年}{月}_データ" という形式でない場合
27
28    # 何ヶ月前かを計算する。
29    months = (pd.to_datetime("today") - date) // np.timedelta64(1, "M")
30
31    return f"データ_{months}M"
32
33
34df.rename(columns=renamer, inplace=True)
35
36print(df)
37#          area  データ_1M  データ_2M  データ_1M  データ_2M  データ_1M  データ_2M
38# Tokyooo  2190   13378    2190   13378   13378    2190   13378
39# Osaka    1904   13378    2190   13378   13378    2190   13378
40# Chibaaa  5157   13378    2190   13378   13378    2190   13378

投稿2019/06/10 09:45

編集2019/06/11 04:21

tiitoi

総合スコア21956

haruhika

2019/06/11 01:57

早急なご対応ありがとうございます！！理解できました。。！また、さらにご質問なのですが、「_データ」の部分が ’_データA’,’_データB’,’_データC’ と複数パターン存在する場合は、どのようにループさせていけば良いでしょうか..？ ※下記のようなデータパターンです。 import pandas as pd df = pd.DataFrame( [ [2190, 13378, 2190, 13378,13378, 2190, 13378], [1904, 13378, 2190, 13378,13378, 2190, 13378], [5157, 13378, 2190, 13378,13378, 2190, 13378], ], columns=["area", "@_201905_データA", "@_201904_データA", "@_201905_データB","@_201904_データB","@_201905_データC","@_201904_データC"], index=["Tokyooo", "Osaka", "Chibaaa"], )