PyQueryによって環境依存文字を無視してスクレイピングしたい

前提・実現したいこと

PyQueryでログインの必要なサイトのスクレイピングを練習しています．
概ねうまくいっているのですが「Ⅲ」などの環境依存文字があると，以降のテキストを抽出できなくなってしまっています．
環境依存文字を無視して，テキストを抽出するにはどうしたらよいでしょうか．

該当のソースコード

Python
1import requests
2from urllib.parse import urljoin
3from pyquery import PyQuery as pq
4
5# セッションを開始
6session = requests.session()
7
8# ログイン
9login_info = {
10    '__event': 'ID01_001_001',
11    'service_id': 'p06',
12    'SERVICE_ID': '0',
13    'return_url': 'index.phtml',
14    'return_url_nikki': 'https://www.nikki.ne.jp/login/',
15    'pp_version': '20170213',
16    'u': '***', #ユーザ名
17    'p': '***', #パスワード
18    'submit': 'ログイン'
19}
20
21# action
22url_login = "https://grp03.id.rakuten.co.jp/rms/nid/vc"
23session.post(url_login, data=login_info)
24
25# スクレイピングの関数定義
26def scrapeNikki(targetURL, lists):
27    response = session.get(targetURL)
28    data = pq(response.content)
29    
30    for count in range(9):
31        lec = data('.lecture').eq(count).text() #講義名
32
33        lists += [[lec]]
34    
35    return lists
36
37url = "https://campus.nikki.ne.jp/?module=lesson&action=index&univ=%B6%E2%C2%F4%B9%A9%B6%C8%C2%E7%B3%D8&page=1"
38res = []
39print(scrapeNikki(targetURL=url, lists=res))

出力

output
1[['プロジェクトデザイン'], [''], [''], [''], [''], [''], [''], [''], ['']]

試したこと

エンコーディングの問題かと思い，

python
1response.encoding = response.apparent_encoding

を追加しましたが，うまくいきませんでした．

また，ログインセッションを経由せず

python
1import requests
2from pyquery import PyQuery as pq
3
4def scrapeNikki(targetURL, lists):
5    data = pq(targetURL)
6
7    for count in range(9):
8        lec = data('.lecture').eq(count).text() #講義名
9
10        lists += [[lec]]
11    return lists
12
13url = "https://campus.nikki.ne.jp/?module=lesson&action=index&univ=%B6%E2%C2%F4%B9%A9%B6%C8%C2%E7%B3%D8&page=1"
14res = []
15print(scrapeNikki(targetURL=url, lists=res))

を実行すると，一部文字化けはありますが，

output
1[['プロジェクトデザイン��'], ['修学基礎'], ['プログラミング I'], ['アルゴリズム'], ['自動制御��'], ['自動制御��'], ['自動制御��'], ['環境化学'], ['基礎生物学']]

と出力されます．
この状態でも問題ありませんので，環境文字以降も抽出できる方法があれば，教えていただきたいです．
よろしくお願いいたします．

補足情報（FW/ツールのバージョンなど）

バージョンはPython 3.6.3です．

行動規範の内容に同意します

回答1件

自己解決

BeautifulSoupでHTMLパーサをhtml5libで指定したところ，期待通りの値を取得できました．

投稿2019/10/11 01:13

hjUxWatIkXtCnpv

総合スコア8

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

前提・実現したいこと

該当のソースコード

出力

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問