htmlの が付いた行からPython3でデータを取得したい

前提・実現したいこと

Pythonで次の画像のhtmlのページからデータを取得しようとしております。

この画像の
" kristofff"
という部分の「kristofff」の部分を取得したいのですが、「」が邪魔して上手く取得できません。

※
この「kristofff」という部分は文字列が変わる部分なので、例えば
" bob"
のようになっていたら「bob」をそのまま取得するようにプログラムを組みたいです。

発生している問題・エラーメッセージ

Python3
1import requests, re
2
3url = "http://www.boiteajeux.net/jeux/agr/historique.php?id=3041220"
4
5history_res = requests.get(url)
6history_res.raise_for_status()
7
8player_regex = re.compile(r'''
9    <tr>.*?                        # 表の一番上のプレイヤー名の行から遡って直近の<tr>
10    (<th.*?>.*?</th>.*?){1}        # 上記<tr>と下記プレイヤー名の間の<td></td>数
11    "&nbsp;kristofff"              # プレイヤー名抽出
12    ''', re.VERBOSE | re.DOTALL)
13
14player_name = player_regex.search(history_res.text)
15print(player_name)

最後の
print(player_name)
で
Noneではなく、何か値を取得したことが分かるような結果を望んでいるのですが、
Noneをかえされてしまいます。

試したこと

Python3
1history_res.text.replace("&nbsp;", "")

replace()メソッドを用いて「」を削除してから

Python3
1player_regex = re.compile(r'''
2    <tr>.*?                        # 表の一番上のプレイヤー名の行から遡って直近の<tr>
3    (<th.*?>.*?</th>.*?){1}        # 上記<tr>と下記プレイヤー名の間の<td></td>数
4    "kristofff"                    # プレイヤー名抽出(上記の元のコードから&nbsp;をここで消してる)
5    ''', re.VERBOSE | re.DOTALL)

データの取得を試みましたが、
これもうまくいきませんでした。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

tiitoi

2019/03/28 04:47

正規表現の中にコメントが含まれてしまっていますが、転記した際のミスですか？ ``` で囲まれた here ドキュメントの場合、そこに含まれる記号や文字はすべて含まれてしまいますが。

otn

2019/03/28 05:02

> 「 」が邪魔して上手く取得できません。どういう邪魔でしょうか？ > 上手く取得できません。どうなるのでしょうか？ > player_regex = re.compile この正規表現は何の目的ですか？

nsmt

2019/03/28 15:41

>>tiitoi様 re.compile() 関数の第2引数に re.IGNORECASE を渡していますが、ここが間違っておりました。正しくは re.IGNORECASE の代わりに re.VERBOSE を渡してコメントを入れております。間違えてしまい申し訳ございません。 ※ re.VERBOSE の場合でも思い通りには動いてくれておりません。

行動規範の内容に同意します

回答1件

まえもってをスペースに置換しておけばよろしいかと。

投稿2019/03/28 04:49

y_waiwai

総合スコア87784

nsmt

2019/03/28 16:28

画像のhtmlのコードのResponseオブジェクトを url = "http://www.boiteajeux.net/jeux/agr/historique.php?id=3041220" history_res = requests.get(url) で取得し、更に history_res.text でResponseオブジェクトをテキスト形式で取得。そして、 replaced_text = history_res.text.replace(" ", " ") player_regex = re.compile(r''' <tr>.*? (<th.*?>.*?</th>.*?){1} "\skristofff" ''', re.VERBOSE | re.DOTALL) player_name = player_regex.search(replaced_text) としましたが、望んでいるデータの取得はできませんでした。 .replace()メソッド以外に何か をスペースに置換する方法があるのでしょうか？