pandasでの正規表現について

前提・実現したいこと

python初めて４ヶ月の初心者です。
pandasでの正規表現についてわからないことがあるので教えて下さい。

こちらのデータフレームでrireki列の日付だけをとってrireki2の列を作りたいのですが
matchでやると、
0 <re.Match object; span=(0, 8), match='2021/1/1'>
1 <re.Match object; span=(0, 8), match='2021/1/1'>
2 <re.Match object; span=(0, 8), match='2021/1/1'>

Name: rireki2, dtype: object
になり、欲しい日付が抽出できません。
できる方法があればご教示お願いします。

該当のソースコード

python
1import pandas as pd
2import re
3list1=["2021/1/1hogehoge","2021/1/1（hoge）","2021/1/1（hoge）"]
4columns1 = "rireki"
5df2 = pd.DataFrame(data=list1)
6df2["rireki2"] = [re.match(r"^\d+/\d+/\d",value) for value in df2.rireki]
7df2["rireki2"].group()
8
9エラー：
10---------------------------------------------------------------------------
11AttributeError                            Traceback (most recent call last)
12<ipython-input-40-c7525894ec4e> in <module>
13----> 1 df2["rireki2"].group()
14
15~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/generic.py in __getattr__(self, name)
16   5137             if self._info_axis._can_hold_identifiers_and_holds_name(name):
17   5138                 return self[name]
18-> 5139             return object.__getattribute__(self, name)
19   5140 
20   5141     def __setattr__(self, name: str, value) -> None:
21
22AttributeError: 'Series' object has no attribute 'group'
23
24
25

試したこと

雑なやり方としては
①findallでリストにして、そこから文字列にするなどです。
df2["rireki2"] = [re.findall(r"^\d+/\d+/\d",value) for value in df2.rireki]
df2["rireki2"] = ["".join(value) for value in df2.rireki2]
です。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答2件

group()メソッドは、 re.match()で返ってくるオブジェクトのメソッドなので、同時にやってしまえばできます。

python
1In [29]: df["regex"] = [re.match(r"^(\d+/\d+/\d+)", val).groups()[0] for val in df[0]]
2
3In [30]: df
4Out[30]:
5                  0     regex
60  2021/1/1hogehoge  2021/1/1
71    2021/1/1(hoge)  2021/1/1
82    2021/1/1(hoge)  2021/1/1

投稿2021/05/10 10:47

hide5stm

総合スコア426

oobutamaru

2021/05/10 10:55

ありがとうございます。無事にできました！すごく助かりました。同時にやるんですね。てっきり最後かと思っていました。勉強不足を痛感いたしました。ご回答ありがとうございました。

行動規範の内容に同意します

ベストアンサー

この方法が良い方法かは別にして、こうすればできますね。

python
1df2["rireki2"] = [re.match(r"^\d+/\d+/\d+",value).group() for value in df2.rireki]

後から、group()を採るのでなく、最初からgroup()を掛けてしまいます。

また、最後の\dにも+が必要だと思うので付けておきました。

投稿2021/05/10 10:37

TakaiY

総合スコア13792

oobutamaru

2021/05/10 10:53

ありがとうございます。無事にできました！すごく助かりました。同時にやるんですね。てっきり最後かと思っていました。勉強不足を痛感いたしました。ご回答ありがとうございました。最後のdも＋入りますね！すみません。ご指摘ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pandasでの正規表現について

前提・実現したいこと

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問