前提・実現したいこと
pythonでクローラーを作成しています。
動的なページが多いのでseleniumを使っています。
ターゲットとなるURLは日本語が含まれていることが多い
発生している問題・エラーメッセージ
日本語を含まないURLに対しては問題なく動くが、日本語を含むURLで行うと、htmlがうまく取得できない。 beautiful soupでfindしても全てがNoneObjectになってしまう
該当のソースコード
python
1from selenium.webdriver.chrome.options import Options 2from selenium import webdriver 3import bs4 4 5word = urllib.parse.quote_plus(word,encoding='utf-8') 6url = '該当URL/p=' + word 7options = Options() 8options.add_argument('--headless') 9options.add_argument('--disable-gpu') 10driver = webdriver.Chrome(chrome_options=options) 11driver.get(url) 12html = driver.page_source 13soup = bs4.BeautifulSoup(html,'lxml')
試したこと
日本語の部分を
urllib.parse.quote_plus(word,encoding='utf-8')
でURLencodeしたがダメだった
wordが日本語だとhtmlが取得できない
wordが英語だとちゃんとhtmlが取得できる
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/03/18 13:25
2018/03/18 15:01