ページのソースの取得にrequestsモジュールの利用が必要な場面

現在，いくつかのwebページから要素を抽出するために，pythonでlxmlモジュールを利用したクローリングを行なっています．
その過程で，requestsモジュールを利用しないとエラーが起きる場面に遭遇しました．
今回，なぜそうなるのかを質問させていただきます．

当初，以下のように記述していました．

Python3
1import lxml.html
2
3url = "http:hogehoge"
4tree = lxml.html.parse(url)
5root = tree.getroot()

いくつかのページでは上記のコードで問題なく取得できていましたが，あるページでは以下のエラーが出ました．

plain
1OSError: Error reading file 'http:hogehoge': failed to load external entity "http:hogehoge"

調べた結果(https://teratail.com/questions/250399)，webサーバへアクセスする処理が必要とのことで，以下のように書き換えると動作しました．

Python3
1import lxml.html
2import requests
3
4url = "http:hogehoge"
5res = requests.get(url)
6html = res.text
7root = lxml.html.fromstring(html)

動作するのはいいのですが，なぜ挙動が違うのでしょうか．
1つ目のコードで取得できるwebページと取得できないwebページでは何が違うのか，そしてlxmlとrequestsではurlにアクセスする際にどういう挙動の違いがあるのかをご教授いただきたいです．

行動規範の内容に同意します

回答1件

ベストアンサー

調べて見ましたが、url = "http:hogehoge"でアクセス出来ないという事例は見あたりません。

投稿2021/03/04 04:07

総合スコア24670

2021/03/04 06:45

ありがとうございます！確認してみたところ，確かにアクセスできなかったurlはhttpsでした．となると，httpとhttpsで要求の仕方が異なるんでしょうか．不思議ですね…

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問