スクレイピングして手に入れたデータを綺麗にしたい

本の情報をスクレイピングして、スプレッドシートにまとめるシステムを作っています。

スクレイピングした情報で、

name = 玉川, 竜司||タマガワ, リュウジ <1716382783>

の　玉川, 竜司だけを抽出するにはどのようにすればよいでしょうか？

行動規範の内容に同意します

回答1件

文字列に規則性が見いだせる場合は正規表現で抽出してください。
name = {1文字以上の文字列}||{1文字以上の文字列} にマッチする正規表現は以下です。

python
1import re
2
3txt = "name = 玉川, 竜司||タマガワ, リュウジ <1716382783>"
4match = re.search(r'name = (.+)\|\|.+', txt)
5if match:
6    name = match.group(1)
7    print(name)  # 玉川, 竜司
8else:
9    print("not found")

投稿2019/06/12 09:28

tiitoi

総合スコア21956

mush01

2019/06/12 12:23

回答有り難うございます。正規表現をつかうのですね。コードまで教えていただき、本当に助かります。

tiitoi

2019/06/12 14:02

不明点があれば補足します。解決したようであれば、お手数ですが質問をクローズしてください。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

スクレイピングして手に入れたデータを綺麗にしたい

関連した質問