コードレビューしてほしい: ストリーミング処理でGETしたい

Question

正規表現で抜き出した複数の URL へのストリーム処理で GET をしたいのですが、ネットワーク系の経験があまりなく、以下で良いのか判断できていません。

for loop 中の id(resp) が変っています。この場合、resp が新しく作成されたタイミングで自動的に timeout するのでしょうか？

shadow variable を許す言語なので resp が破棄されるのが関数を出るタイミングだったと記憶しています。そのため、以下の Keep-Alive のセクションを読む限り大量に timeout していない resp が残ったままになるのではないかと考えています。
https://requests.readthedocs.io/en/latest/user/advanced/#session-objects

for loop の中で get() の後に resp.close() した方が良いのでしょうか？しかし、そのようにするとストリーミング処理した意味がなくなってしまうのではないかと思うのですが...

最後に他にサーバー側に負荷を掛けずに、もっと効率的に処理する方法などありましたらご指摘ください。

          ses = requests.Session()
          resp = ses.get(self.URLS['short_ratio'], stream=True, timeout=3)
          resp.encoding = resp.apparent_encoding
  
          url_chars = '[0-9a-zA-Z\/\-\_]*'
          urls_xls = []
          urls_xls += re.findall('{0}\.xls?'.format(url_chars), resp.text)
  
          for p in re.findall('{0}\d\d-archives-\d\d\.html?'.format(url_chars):
              resp = ses.get('{0}{1}'.format(self.BASE_URL, p), stream=True, timeout=3)
              print(id(ses), id(resp))
              print(resp.cookies)
              resp.encoding = resp.apparent_encoding
              urls_xls += re.findall('{0}\.xls?'.format(url_chars), resp.text)

           resp.close()
           ses.close()

$ pytest-3 -s pandas_datareader/tests/test_tse.py 
============================= test session starts ==============================
platform linux -- Python 3.9.2, pytest-6.0.2, py-1.10.0, pluggy-0.13.0
rootdir: ************************************, configfile: setup.cfg
collected 1 item                                                               

pandas_datareader/tests/test_tse.py 140171185815120 140171185185648
<RequestsCookieJar[]>
140171185815120 140171185566768
<RequestsCookieJar[]>
140171185815120 140171185366880
<RequestsCookieJar[]>
140171185815120 140171185567056
<RequestsCookieJar[]>
140171185815120 140171185368752
<RequestsCookieJar[]>
140171185815120 140171185568448
<RequestsCookieJar[]>
140171185815120 140171185366880
<RequestsCookieJar[]>
140171185815120 140171185568736
<RequestsCookieJar[]>
140171185815120 140171185368752
<RequestsCookieJar[]>
140171185815120 140171185568688
<RequestsCookieJar[]>
140171185815120 140171185366880
<RequestsCookieJar[]>
140171185815120 140171185568688
<RequestsCookieJar[]>
.

============================== 1 passed in 3.33s ===============================

Accepted Answer

まず、前提として：

クライアント（手元のパソコン）がサーバー（相手のパソコン）にリクエスト（`ses.get(url)`）を送ると、サーバーがクライアントにレスポンス（`resp`）を返します。
この際、クライアントからのリクエストに対してサーバーが一定時間応答しないと、タイムアウト（時間切れ）としてリクエストの送信をやめ、レスポンスを受け取ることを諦めます。

> resp が新しく作成されたタイミングで自動的に timeout するのでしょうか？

この質問は、上記の前提を理解していないために生まれた疑問と推測します。`resp` が受け取れたのであれば、セッションはタイムアウトしてません。

> resp.close() した方が良いのでしょうか？

ドキュメントにもありますが、明確な理由がない限り手動でレスポンスを閉じる必要はありません。閉じるならばセッションです。ですが、for 文の中でセッションを閉じては元も子もないので、提示されているコードの通り、全てのリクエストが終わった後で問題ありません。

> 複数の URL へのストリーム処理で GET をしたい

提示されているコードでは、`stream=True` オプションを利用している意味がありません。実際のコードでは、`resp` を `iter_lines()` で回していたりするのでしょうか？失礼ですが、「ストリーム処理」という単語の意味を勘違いされていませんか？ここでいうストリーム処理（`stream=True`）は、大きなサイズのコンテンツ（画像や動画といったバイナリ、または OS のイメージファイルなど）を細かく分けて断片的に少しづつレスポンスを受け取ることを指します。提示されているコードでは、テキストベースのレスポンスを直接 `resp.text` としているのであまり意味がないように感じました。

> 最後に他にサーバー側に負荷を掛けずに、もっと効率的に処理する方法などありましたらご指摘ください。

各リクエストの送信間隔を 1 秒程度開けることが推奨されています。`time` という標準ライブラリのモジュールを利用して、for 文の最後に `time.sleep(1)` を追加します。

```python
import time

import requests

urls = [
    "https://httpbin.org/get",
    "https://httpbin.org/json",
    "https://httpbin.org/robots.txt",
]

session = requests.Session()

resp = session.get("https://httpbin.org/xml")
print(id(session), id(resp))

for url in urls:

response = session.get(url, timeout=3.0)
    print(id(session), id(response))
    time.sleep(1)

session.close()

```

もう一つ、コンテキストマネージャーを利用すると、セッションを手動で閉じる必要がなく安心してリクエストを送信できます。

```python
import time

import requests

urls = [
    "https://httpbin.org/get",
    "https://httpbin.org/json",
    "https://httpbin.org/robots.txt",
]

with requests.Session() as session:

resp = session.get("https://httpbin.org/xml")
    print(id(session), id(resp))

for url in urls:

response = session.get(url, timeout=3.0)
        print(id(session), id(response))
        time.sleep(1)

```

Answer

```ChatGPT
あなたのコードでは、Session オブジェクトを使用しています。Session オブジェクトは、特に指定されない限り、自動的に HTTP Keep-Alive ヘッダーを送信します。これにより、Web サーバーとの接続を維持し、再接続を行わずに複数の HTTP 要求を送信することができます。つまり、Session オブジェクトを使用することで、再接続を行わずに複数の HTTP 要求を送信できるため、負荷をかけずに効率的に処理することができます。

さらに、Session オブジェクトは、内部でプールされた HTTP コネクションを管理します。そのため、同じ Session オブジェクトを使用して複数の HTTP 要求を送信する場合、同じ HTTP コネクションを使用することができます。これにより、再接続を行わずに複数の HTTP 要求を送信できるため、さらに効率的に処理することができます。

ですので、for ループ内での resp.close() は必要ありません。また、resp オブジェクトは、Session オブジェクトを使用して送信された HTTP 要求に対する応答を表すものですので、それぞれの Session.get() 呼び出しで新しい resp オブジェクトが生成されます。

さらに、ストリームを使用することで、応答ボディをサーバーから受信しながら、それを読み込むことができます。これにより、必要に応じて逐次的に応答ボディを処理しながら、メモリを効率的に使用することができます。

最後に、複数の URL への HTTP 要求を効率的に送
```

関連した質問