正規表現の初心者です。
Pythonにおいて、マークダウンで記述された長いストリングから、一部分の文字列を抽出したいです。
ネットで色々と見てみましたが、思うように実行する方法がいまいち理解できていません。
長い文字列(6万文字ほど)をstrという変数に格納して、Category:(文字)とある、文字の部分を抽出したいです。
長い文字列の一部、抽出したいところはこんな感じです。
[[Category:新潟県の市町村]]
[[Category:新潟市|*]]
[[Category:都道府県県庁所在地]]
[[Category:日本の港町]]
[[Category:政令指定都市]]
Pythonでpatternの右辺に入る形で記述したいです。
pathにはマークダウンテキストのファイルパスが入っています。
with open(path) as f:
s = f.read()
pattern = r"正規表現各書く"
categories = re.findall(pattern, s)
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー