### 前提・実現したいこと最近プログラミングを学び始めた初心者です。拙い文章かと思いますが、よろしくおねがいします。 pythonのrequestsモジュールを用いて、 SilkwormBaseというカイコについて情報をまとめたサイトの系統情報・系統一覧にある, a06という系統のページのURL（https://shigen.nig.ac.jp/silkwormbase/ViewStrainDetail.do?name=a06）からHTMLを読み込み、ページの表に記載されている系統名（a06）と起源（K7）を取得したいです。 ### 発生している問題・エラーメッセージ HTMLを読み込んで系統名を取得することはできたのですが、HTMLに起源の情報がなく、 pythonで系統名と起源を両方取得することができませんでした。 SilkwormBaseには日本語表示と英語表示があり、日本語表示のページにしか起源の情報が記載されていないのですが、英語表示のページからしかHTMLを読み込めませんでした。 ### 該当のソースコード ```python3 import requests #a06系統のページのURLからHTMLを読み込む res = requests.get("https://shigen.nig.ac.jp/silkwormbase/ViewStrainDetail.do?name=a06") #文字コードをUTF-8に指定 res.encoding = res.apparent_encoding #読み込んだHTMLのテキストを保存 with open("silkwormbase.html","w") as file: file.write(res.text) ``` ### 試したこと日本語表示にして「ページのソースを表示」から手動でHTMLを読むと、 639-640行目に起源名の記載があることは確認しましたが、英語表示のHTMLには記載がありませんでした。なので日本語表示の方からHTMLを取得できれば良いことまでは分かりました。しかし、日本語表示と英語表示のHTMLは別なのにURLが同じで、pythonでどのように区別して読み込んだら良いか分かりませんでした。 ### 補足情報（FW/ツールのバージョンなど） python3.8.5を用いています。言語表示はページ右上のJapanese|Engrishから切り替え可能です。

pythonを用いて日本語表示と英語表示があるウェブサイトの日本語のHTMLを読み込みたい

前提・実現したいこと

最近プログラミングを学び始めた初心者です。拙い文章かと思いますが、よろしくおねがいします。

pythonのrequestsモジュールを用いて、
SilkwormBaseというカイコについて情報をまとめたサイトの系統情報・系統一覧にある,
a06という系統のページのURL（https://shigen.nig.ac.jp/silkwormbase/ViewStrainDetail.do?name=a06）からHTMLを読み込み、
ページの表に記載されている系統名（a06）と起源（K7）を取得したいです。

発生している問題・エラーメッセージ

HTMLを読み込んで系統名を取得することはできたのですが、HTMLに起源の情報がなく、
pythonで系統名と起源を両方取得することができませんでした。

SilkwormBaseには日本語表示と英語表示があり、日本語表示のページにしか起源の情報が記載されていないのですが、
英語表示のページからしかHTMLを読み込めませんでした。

該当のソースコード

python3
1import requests
2
3#a06系統のページのURLからHTMLを読み込む
4res = requests.get("https://shigen.nig.ac.jp/silkwormbase/ViewStrainDetail.do?name=a06")
5
6#文字コードをUTF-8に指定
7res.encoding = res.apparent_encoding
8
9#読み込んだHTMLのテキストを保存
10with open("silkwormbase.html","w") as file:
11    file.write(res.text)

試したこと

日本語表示にして「ページのソースを表示」から手動でHTMLを読むと、
639-640行目に起源名の記載があることは確認しましたが、英語表示のHTMLには記載がありませんでした。
なので日本語表示の方からHTMLを取得できれば良いことまでは分かりました。

しかし、日本語表示と英語表示のHTMLは別なのにURLが同じで、pythonでどのように区別して読み込んだら良いか分かりませんでした。

補足情報（FW/ツールのバージョンなど）

python3.8.5を用いています。
言語表示はページ右上のJapanese|Engrishから切り替え可能です。

m.ts10806

2021/03/18 04:32

そのサイトはスクレイピングを許可しているサイトなのでしょうか。

sugar.sweet

2021/03/18 06:44

制作元のNBRPの利用規約を読みましたが、禁止事項には触れていないと考えております。それはそれとして、スクレイピングと著作権に関して考えが足りていませんでした。ご指摘ありがとうございます。

m.ts10806

2021/03/18 07:44 編集

問い合わせたほうが良いですよ。「考えております」は質問者さんの自己解釈であって、事実ではないです。それで取り返しのつかないトラブルになる人は多い。もし1ミリでも「もし許可おりなかったら」という不安があるのでしたら、そういうことです。面倒臭がる場面でもないです。

sugar.sweet

2021/03/18 08:13

ちゃんと確認をとるべきですね。すみません、ありがとうございます。

行動規範の内容に同意します

回答1件

ベストアンサー

おそらくは、リクエストヘッダのAccept_Language: jaを見ているんじゃないでしょうか。

投稿2021/03/18 05:38

otn

総合スコア86581

sugar.sweet

2021/03/18 07:33

回答ありがとうございます。日本語表示・英語表字でHTMLを参照してみたのですが、どちらにもヘッダの`Accept_Language:`という記述はありませんでした。日本語のHTMLで69行目の`Japanese | <a href="/silkwormbase/localeAction.do"class="linkGlay">English</a>`で日本語表示していると思うのですが、これは別のページにアクセスしているということではないんでしょうか。

otn

2021/03/18 08:13

> 日本語表示・英語表字でHTMLを参照してみたのですが、どちらにもヘッダの`Accept_Language:`という記述はありませんでした。 HTMLにあるわけないでしょ。リクエストヘッダーです。

sugar.sweet

2021/03/18 08:55

HTMLを参照すれば全部解決するのかと思ってましたが、少し調べたら全然違いました。開発者ツールを見たら日本語表示の方にリクエストヘッダのAccept_Language: jaがありました。リクエストヘッダについてよくわかっていないのですが、これをスクリプトで指定すれば日本語表示の方のHTMLを読み込めるということでしょうか。もう少し勉強します。

otn

2021/03/18 09:14

ページの複数言語対応にはいろいろな方法があるので、このサイトで Accept_Language: ja を付ければ必ず出来るとは限りませんが、一番ベーシックな方法がこのヘッダなので、まずは第一に試すべき事です。

sugar.sweet

2021/03/18 10:04

requestsのget()について調べたらヘッダの引数がありました。これで解決できそうです。ありがとうございます。

行動規範の内容に同意します