質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
HTTP

HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

HTTPヘッダー

Hypertext Transfer Protocol(HTTP)の中のHTTPヘッダフィールドはHTTPの要求やレスポンスの機能しているパラメーターが含まれます。その要求もしくはレスポンスライン(メッセージの最初の一行)でメッセージヘッダを作ります。

Q&A

解決済

2回答

350閲覧

Http キャッシュについて

退会済みユーザー

退会済みユーザー

総合スコア0

HTTP

HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

HTTPヘッダー

Hypertext Transfer Protocol(HTTP)の中のHTTPヘッダフィールドはHTTPの要求やレスポンスの機能しているパラメーターが含まれます。その要求もしくはレスポンスライン(メッセージの最初の一行)でメッセージヘッダを作ります。

0グッド

1クリップ

投稿2020/04/25 12:05

編集2020/04/25 12:08

数時間に一度更新されるサイトのスクレイピングを行っているのですが、サイトにキャッシュが有効になっておらず困っております。
クライアントからキャッシュを要求できるヘッダーなどはありますか?
指定した期日までアクセスしないタイプのキャッシュではなく、Etagを使ったキャッシュを使用したいです、よろしくお願いいたします。
header

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ockeghem

2020/04/25 13:11

なぜキャッシュが有効にならないと困るのでしょうか。スクレイピングする立場からは、キャシュが無効の方が常に最新のデータがとれるように思えますが。サーバーに負荷をかけたくないのでしょうか。であれば、アクセスする頻度を少なくすればよいのではないでしょうか。 サーバー側でそもそもキャッシュ機能を使ってない場合も多く、その場合はキャッシュを要求しようがありません。
退会済みユーザー

退会済みユーザー

2020/04/25 13:21

負荷をかけたくないと考えつつも頻度は落としたくないので、キャッシュを有効にしたいです。 Webエンジニアではないので有益な情報か判断つかないのですが、サーバーはApacheを使用しているようです。
退会済みユーザー

退会済みユーザー

2020/04/26 02:04 編集

$$$$$$
guest

回答2

0

ベストアンサー

キャッシュというのは、言い換えれば「過去のデータ」を保持しているわけで、キャッシュを参照したいけど最新のデータも欲しいというのは両立しません。それが適切に制御できるのはサイト側だけであるわけですが、サイト側で可能ならば既にそうしているはずで、アクセス側でどうこうできることはありません。

投稿2020/04/25 14:32

ockeghem

総合スコア11705

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2020/04/26 02:10 編集

クライアントがEtagを受け取ったとり、次にアクセスする場合Etagを送信します、サーバ側はEtagが最新のものであれば304(Not Modified)、最新でないならば要素を送ってきます。 https://techblog.lclco.com/entry/2019/02/28/170051 「キャッシュを参照したいけれど最新のデータも欲しいというのは両立しません」なぜ両立しないのでしょうか?サーバーから304が返ってきた時点で、サーバーが自称する最新のデータが手に入るわけで問題ないと思います。
退会済みユーザー

退会済みユーザー

2020/04/26 00:51

手に入ると表現するのは適切ではなかったです、最新のデータが手に入っているでした。
ockeghem

2020/04/26 01:33

はい。サーバーが仮に304を返すのであれば、『それが適切に制御できるのはサイト側だけ』のサイト側が適切な処理をしていることになります。しかし、それは現状していない(304が返らない)のですよね。であれば、手元のキャッシュ(=過去のデータ)が最新かどうか分からないということで、クライアント側でできることは通常ありません。 それに、参照されている記事はキャッシュサーバー(CDN)を導入している場合の話で、キャッシュサーバーが導入されていない場合は直接関係ありません。キャッシュサーバーを導入せずに、単にアプリケーション側で304応答を返すように改修することは可能ですが、それはサイト側に「依頼」しないと多分やってもらえないでしょう
退会済みユーザー

退会済みユーザー

2020/04/26 02:10

詳しく説明ありがとうございます。 CDNを導入しているサイトでないと動作しないのですね、勉強になりました。 アクセス頻度を落として負荷を下げることにしました。
ockeghem

2020/04/26 03:44

望み薄ではありますが、If-Modified-Since ヘッダは一応試してみたらどうかと思います。
退会済みユーザー

退会済みユーザー

2020/04/26 04:20

If-Modified-Since: Sun, 26 Apr 2020 13:18:00 GMT で試してみましたが200応答でした。 残念ですが諦めます。
退会済みユーザー

退会済みユーザー

2020/04/26 04:27

GMTでは「Sun, 26 Apr 2020 13:18:00 GMT」が未来にあたるので動作しない可能性もあると思い「Sun, 26 Apr 2020 04:24:00 GMT」にしましたが、動作しませんでした。 皆様回答ありがとうございました。
guest

0

指定した期日までアクセスしないタイプのキャッシュではなく、Etagを使ったキャッシュを使用したいです

サーバ側がサポートしていない限り、こちらからはどうしようもありません。

投稿2020/04/25 14:01

maisumakun

総合スコア146018

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問