BeautifulSoupで英語のサイトを英語で解析したい

macOS
python
selenium
BeautifulSoup
HTML

実現したいこと

pythonで海外のホームページをbeautifulsoupで解析してみたいと思っています。
英語のまま要素を取り出したいのですが和訳されて返ってきます。

発生している問題・エラーメッセージ

!DOCTYPE html>

<html lang="ja"

該当のソースコード

python
1res = requests.get("該当のサイト")
2res.raise_for_status()
3soup = BeautifulSoup(res.text, "html.parser")
4print(soup)

試したこと

元々のhtmlでは

<html lang="en" となっているので解析する際に'en'→'ja'に変更されていると考えています。

can110

2022/09/26 05:46

元々のhtmlのlang属性はどのような手段で確認されたでしょうか？ print(res.text)の結果の時点ではlang="en"だったということでしょうか？

kazuya

2022/09/26 09:17

返信ありがとうございます。 htmlの検証ツールにて元々のlang属性を確認しました。またprint(res.text)の結果の時点でlang='ja'になっていました。

otn

2022/09/26 11:24

リクエストヘッダを、ブラウザと同じにそろえてみましょう。

kazuya

2022/09/26 12:23

"""python""" headers = {"Accept-Language": "en-US,en;q=0.5"} params = dict(lang='en-US,en;q=0.5') res = requests.get("該当サイト",headers = headers, params= params) 以上のようにリクエストヘッダをブラウザと揃えてみたのですが、改善されませんでした...

otn

2022/09/26 12:32

いや、相手が何を見ているかわからない以上、全部のヘッダです。

kokoa_spcgg

2022/09/26 13:07

効果があるかわかりませんが、headerにUser-Agentを設定してみてください参考↓ https://yuki.world/python-requests-useragent/

1T2R3M4

2022/09/26 21:25

https://qiita.com/kazu_mj/questions/c578efefb6d906507338 トラッキングしていれば参考になるかも。

行動規範の内容に同意します

回答1件

<html lang="en" となっているので解析する際に'en'→'ja'に変更されていると考えています。

BeautifulSoupにはそのような機能はないのでhtml取得時点でjaになっていると思われます。
つまり接続先のWebサイトが、クライアントのIPやHTTPリクエストなどの情報から各言語のhtmlを返していると思われます。

Webサイトがどのような仕組みで判別しているかによりますがAccept-Languageを利用しているなら、リクエストヘッダで"Accept-Language": "en"なりを指定することでenなhtmlを取得できるかもしれません。
（あるいはIPで判別していたらこの手法ではだめだと思いますが）
参考：Python change Accept-Language using requests

投稿2022/09/26 05:54

can110

総合スコア38262

kazuya

2022/09/26 09:13

回答ありがとうございます。 headers = {"Accept-Language": "en-US,en;q=0.5"} res = requests.get("該当サイト",headers = headers) res.raise_for_status() soup = BeautifulSoup(res.text, "html.parser") print(soup) や #言語設定 options = ChromeOptions() options.add_experimental_option('prefs', {'intl.accept_languages': 'en'}) driver = webdriver.Chrome(executable_path=executable_path, desired_capabilities=options.to_capabilities()) を試してみましたが、ダメだったのでAccept-Languageを利用している訳ではないみたいです...

行動規範の内容に同意します