python3でurllib3を使ってhtmlを取得しているのですが、サイトによって正しく取得できる場合と取得できない場合があります。
クロームの開発者ツールを使ってhtmlを見てみるとタグ内のテキストも正しく表示されるのですが、urllib3を使って取得したhtmlではタグ内のテキストが開発者ツールと同様のものではないです。
import urllib3 from bs4 import BeautifulSoup url = "" http = urllib3.PoolManager() response = http.request('GET', url) soup = BeautifulSoup(response.data.decode('utf-8'), "html5lib") print(soup)
以上のようなコードを実行したところ、以下のような文章が出たので最後のURLに書いてある処理を行いました。しかし、それでも正しいhtmlが表示できません。
/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/urllib3/connectionpool.py:858: InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
InsecureRequestWarning)
例えば、Qiitaなどでは正しく表示されますが,Locariなどでは正しく表示されません。
どのようにすれば正しいhtmlを得られるでしょうか。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/12/23 04:15