前提・実現したいこと
最近プログラミングを学び始めた初心者です。拙い文章かと思いますが、よろしくおねがいします。
pythonのrequestsモジュールを用いて、
SilkwormBaseというカイコについて情報をまとめたサイトの系統情報・系統一覧にある,
a06という系統のページのURL(https://shigen.nig.ac.jp/silkwormbase/ViewStrainDetail.do?name=a06)からHTMLを読み込み、
ページの表に記載されている系統名(a06)と起源(K7)を取得したいです。
発生している問題・エラーメッセージ
HTMLを読み込んで系統名を取得することはできたのですが、HTMLに起源の情報がなく、
pythonで系統名と起源を両方取得することができませんでした。
SilkwormBaseには日本語表示と英語表示があり、日本語表示のページにしか起源の情報が記載されていないのですが、
英語表示のページからしかHTMLを読み込めませんでした。
該当のソースコード
python3
1import requests 2 3#a06系統のページのURLからHTMLを読み込む 4res = requests.get("https://shigen.nig.ac.jp/silkwormbase/ViewStrainDetail.do?name=a06") 5 6#文字コードをUTF-8に指定 7res.encoding = res.apparent_encoding 8 9#読み込んだHTMLのテキストを保存 10with open("silkwormbase.html","w") as file: 11 file.write(res.text)
試したこと
日本語表示にして「ページのソースを表示」から手動でHTMLを読むと、
639-640行目に起源名の記載があることは確認しましたが、英語表示のHTMLには記載がありませんでした。
なので日本語表示の方からHTMLを取得できれば良いことまでは分かりました。
しかし、日本語表示と英語表示のHTMLは別なのにURLが同じで、pythonでどのように区別して読み込んだら良いか分かりませんでした。
補足情報(FW/ツールのバージョンなど)
python3.8.5を用いています。
言語表示はページ右上のJapanese|Engrishから切り替え可能です。
回答1件
あなたの回答
tips
プレビュー