HTMLをダウロードするべきかどうか。

プログラミング初心者です。
スクレイピング開始前に対象のHTMLを保存しようと思っています。
環境はPython + BeautifulSoup4です。

urlopen()でPython上に一時的に保存をするか、urlretrieve()でhtmlファイルごとパソコンにダウンロードするかで迷っています。
私はurlretrieve()を使ったほうが良いのかなと思っています。
理由は
１　urlopen()でPython上に一時的な保存をするより解析が早くなると思ったから
２　何度も解析を行うと対象のサイトに迷惑なので、2回目以降はパソコン上に保存したhmtlを解析するべきだと思ったから
今回お聞きしたいことは2点あります。
１　urlopenで開いたhtmlと、パソコン上に保存したhtmlでは解析速度は異なるのでしょうか？
２　urlretrieveでダウンロードすると何かの法律にひっかかる可能性はあるでしょうか？
お願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

これは言語に限らずですが原則的にスピードの点で言えばメモリの読み込みの方が絶対に早くなります。

urlopenは「メモリに読み込み」します。
（その後保存することがありますがそれならurlretrieveで良いわけですが）

urlretrieveは「ファイルとしてPCへ保存」します。

ですので解析速度って言う意味ではどのみちメモリへ読み込む必要があるので最初からメモリに読み込んだ方が早くなるのが普通だと思います。
最初からメモリに読む際はサーバから落とすわけですから、そこのダウンロード速度は考慮しない場合です。

ただ質問者さんがおっしゃってるように次回解析を読み込まずに行いたいと言う要望ならまた話は別ですが、結局は頻度の問題では無いでしょうか？
二度目を読み込むことがほぼ無いなら保存しておく意味も無いので毎回読んだ方が良いでしょうしね。

HTMLをダウンロードすること自体は法に触れるようなことはないでしょう。
元々全てのPCやモバイル機器でも結局ダウンロードして解析して表示しているわけですから。

問題になるのはそのHTMLを解析した物をどう使うか次第だと思いますよ。

投稿2018/01/16 18:12

landy77

総合スコア1614

mathing

2018/01/16 22:39

landy77さん。ご回答ありがとうございます。最初からメモリに読み込むほうが早かったのですね。教えてくださった様に解析を行う頻度で使い分けを行いたいと思います。 HTMLに関してですがブラウザで表示する際にもダウンロードを行っていたのですか、知りませんでした。 HTMLについても調べてから実行したいと思います。ありがとうございました。

行動規範の内容に同意します

1,解析速度というのがどこからどこまでの話の話かで回答が変わりますが。

相手サイト == [internet] ==> 自分のパソコン ===> メモリ上の内容を元にBeautifulSoup4で解析

2回目以降の場合、internetを経由しない分だけキャッシュを使った方が早くなります。

2,urlretrieveでダウンロードすると何かの法律にひっかかる可能性はあるでしょうか？
urlretrieveというより、ダウンロード違法化法とダウンロードデータをネットで公開したり商用利用した時に問題が発生するかと。

■キャッシュの全般的な注意点として2点あります。
1,キャッシュ対象のコンテンツは頻繁に更新されないものであること。
2,キャッシュの有効期間を決める。

参考までにライブラリのrequestsパッケージとThreadPoolExecutorを使った簡易なキャッシュファイルの作成コードを添付しておきます。
大体こういう処理が必要と思って頂ければ。。。

Python
1# -*- coding: utf-8 -*-
2import time
3import hashlib
4from concurrent.futures import ThreadPoolExecutor, as_completed
5from pathlib import Path
6import requests
7
8
9class Downloader(object):
10    def __init__(self):
11        self.download_dir = Path(r'./download')
12        if not self.download_dir.exists():
13            self.download_dir.mkdir()
14        self.timeout = 2000
15
16    @staticmethod
17    def hash_value(url):
18        h = hashlib.sha512()
19        h.update(url.encode('utf-8'))
20        return '$6$$' + h.hexdigest()
21
22    def get_content(self, url):
23        file = self.download_dir.joinpath(Downloader.hash_value(url))
24        if file.exists():
25            with file.open('rb') as f:
26                return f.read()
27        # sleep
28        time.sleep(5)
29        res = requests.get(url, timeout=self.timeout)
30        with file.open('wb') as f:
31            f.write(res.content)
32        return res.content
33
34
35def main():
36    dl = Downloader()
37    urls = ['http://www.example.com/',
38            'https://teratail.com/',
39            'https://teratail.com/questions/109282',
40            'https://www.google.co.jp/']
41
42    with ThreadPoolExecutor(max_workers=2) as executor:
43        future_to_url = {executor.submit(dl.get_content, url): url for url in urls}
44        for future in as_completed(future_to_url):
45            url = future_to_url[future]
46            try:
47                data = future.result()
48                print(data)
49            except Exception as ex:
50                print('url:{0} exception:{1}'.format(url, ex))
51
52
53if __name__ == '__main__':
54    main()
55
56