質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

HTTP

HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

RSS

RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

Android

Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

iPhone

iPhoneとは、アップル社が開発・販売しているスマートフォンです。 同社のデジタルオーディオプレーヤーiPodの機能、電話機能、インターネットやメールなどのWeb通信機能の3つをドッキングした機器です。

Q&A

解決済

3回答

3425閲覧

RSSのないページから更新情報を取得する方法

Koh_

総合スコア27

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

HTTP

HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

RSS

RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

Android

Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

iPhone

iPhoneとは、アップル社が開発・販売しているスマートフォンです。 同社のデジタルオーディオプレーヤーiPodの機能、電話機能、インターネットやメールなどのWeb通信機能の3つをドッキングした機器です。

0グッド

2クリップ

投稿2018/06/23 04:33

RSSが提供されていないwebページから最新の更新情報を取得する方法はあるでしょうか。

以下のようなアプリがあります。
https://www.furimawatch.net/
このアプリは検索条件を登録して、条件にHITした場合プッシュ通知を送信してくれるサービスです。
検索結果が更新されると数秒で検知しプッシュ通知が送信されることから、HTTPリクエストで対象URLの更新を定期的に確認しているとも思えず、どのように最新情報を取得しているのか不思議でなりません。

現在web上から情報を集め解析しており、主にスクレイピングのプログラムを作成しております。次の課題としてこういったプッシュ通知のプログラムを自作し、情報の取得速度の向上と効率化に取り組もうとしております。
このアプリの仕組みがわかる方、ご教授いただけないでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

スクレイピングによるサービスの提供は、スクレイピング先の許可がない限り悪手です。

記事を書いてますので参考まで
スクレイピング!その前に

投稿2018/06/23 08:09

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Koh_

2018/06/23 10:37

参考にさせていただきます。 ありがとうございます。 サービスとして提供するつもりはありませんが、気を付けたいと思います。
guest

0

・対象サイトにプッシュ型APIがある
・対象サイトを定期的にプル(API or ウェブページを定期的にリクエストする)
のどちらかしか無いです。

投稿2018/06/23 08:05

otn

総合スコア84499

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Koh_

2018/06/23 10:37

ご回答ありがとうございます。 何万件もの検索条件に対して数秒で検知できるため、スクレイピングによる高頻度アクセスをしているとは考えにくいです。非公開APIを使用しているのでしょうかね。
guest

0

ベストアンサー

興味が有ったので考えてみました。正しいかどうか分かりませんが…

https://www.furimawatch.net/

公式ツイッターを見ると”サーバーを増強しました”が結構有ったので
サーバー側で処理しているようです。

どのように最新情報を取得しているのか不思議でなりません。

フリマ系のAPIって見つからないですね。
以下のどれかだと思います。

  • 非公開APIを使っている
  • 定期的にクロール(HTTPアクセス)している

1.サーバーサイド
2.クライアントサイド

情報の取得速度の向上と効率化に取り組もうとしております。

サーバーサイドでクロールすれば、以下の点でクライアントサイドよりメリットがあると思います。
1.複数ユーザーで同じ対象があっても、サーバー側で1回で集約してクロールできる
2.セッション張りっぱなしに出来る(ならリトライ早いかなぁ)

情報の取得速度の向上と効率化に取り組もうとしております。

いまは大まかにどんな処理をして、どこを早くしようとしています?

投稿2018/06/23 08:02

oikashinoa

総合スコア2826

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Koh_

2018/06/23 10:37

約1万件あるURLの情報を抜き出し(これは時間をかけてゆっくりスクレイピングさせれば可能)、さらに更新されるURLの情報を常に(なるべく早く)最新の状態にしたいです。ここで上記サイトのようなプッシュ通知が利用できないかと考えています。対象URLが約1万件あるため高頻度のリクエストを送るのはサービス側への負荷が高くなってしまいできません。 セッション張りっぱなしの状態(この状態があまりわかっておりませんが)にすれば実現可能なのでしょうか。またこの場合サービス側サーバーの負荷が高くなってしまう危険性はないのでしょうか。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問