質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.61%

  • Android

    6399questions

    Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

  • iPhone

    962questions

    iPhoneとは、アップル社が開発・販売しているスマートフォンです。 同社のデジタルオーディオプレーヤーiPodの機能、電話機能、インターネットやメールなどのWeb通信機能の3つをドッキングした機器です。

  • HTTP

    530questions

    HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

  • スクレイピング

    305questions

  • RSS

    140questions

    RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

RSSのないページから更新情報を取得する方法

解決済

回答 3

投稿

  • 評価
  • クリップ 3
  • VIEW 207

Koh_

score 15

RSSが提供されていないwebページから最新の更新情報を取得する方法はあるでしょうか。

以下のようなアプリがあります。
https://www.furimawatch.net/
このアプリは検索条件を登録して、条件にHITした場合プッシュ通知を送信してくれるサービスです。
検索結果が更新されると数秒で検知しプッシュ通知が送信されることから、HTTPリクエストで対象URLの更新を定期的に確認しているとも思えず、どのように最新情報を取得しているのか不思議でなりません。

現在web上から情報を集め解析しており、主にスクレイピングのプログラムを作成しております。次の課題としてこういったプッシュ通知のプログラムを自作し、情報の取得速度の向上と効率化に取り組もうとしております。
このアプリの仕組みがわかる方、ご教授いただけないでしょうか。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

+4

スクレイピングによるサービスの提供は、スクレイピング先の許可がない限り悪手です。

記事を書いてますので参考まで
スクレイピング!その前に

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/23 19:37

    参考にさせていただきます。
    ありがとうございます。
    サービスとして提供するつもりはありませんが、気を付けたいと思います。

    キャンセル

checkベストアンサー

+1

興味が有ったので考えてみました。正しいかどうか分かりませんが…

https://www.furimawatch.net/

公式ツイッターを見ると”サーバーを増強しました”が結構有ったので
サーバー側で処理しているようです。

どのように最新情報を取得しているのか不思議でなりません。

フリマ系のAPIって見つからないですね。
以下のどれかだと思います。

  • 非公開APIを使っている
  • 定期的にクロール(HTTPアクセス)している
    1.サーバーサイド
    2.クライアントサイド

情報の取得速度の向上と効率化に取り組もうとしております。

サーバーサイドでクロールすれば、以下の点でクライアントサイドよりメリットがあると思います。
1.複数ユーザーで同じ対象があっても、サーバー側で1回で集約してクロールできる
2.セッション張りっぱなしに出来る(ならリトライ早いかなぁ)

情報の取得速度の向上と効率化に取り組もうとしております。

いまは大まかにどんな処理をして、どこを早くしようとしています?

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/23 19:37

    約1万件あるURLの情報を抜き出し(これは時間をかけてゆっくりスクレイピングさせれば可能)、さらに更新されるURLの情報を常に(なるべく早く)最新の状態にしたいです。ここで上記サイトのようなプッシュ通知が利用できないかと考えています。対象URLが約1万件あるため高頻度のリクエストを送るのはサービス側への負荷が高くなってしまいできません。

    セッション張りっぱなしの状態(この状態があまりわかっておりませんが)にすれば実現可能なのでしょうか。またこの場合サービス側サーバーの負荷が高くなってしまう危険性はないのでしょうか。

    キャンセル

+1

・対象サイトにプッシュ型APIがある
・対象サイトを定期的にプル(API or ウェブページを定期的にリクエストする)
のどちらかしか無いです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/23 19:37

    ご回答ありがとうございます。
    何万件もの検索条件に対して数秒で検知できるため、スクレイピングによる高頻度アクセスをしているとは考えにくいです。非公開APIを使用しているのでしょうかね。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.61%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 解決済

    Rubyでクローラーの作成

    "Rubyによるクローラー開発技法"という本を見ながら簡易クローラーを作成しているのですが、うまくいきません。 # -*- coding: utf-8 -*- require

  • 解決済

    jQueryでRSSの本文全文を表示する方法

    これまで静的なwebサイトにwordpressの投稿記事をGoogle Feed APIで表示させていたのですが、 jQueryでのRSS表示に切り替えたいと思っています。 他

  • 解決済

    RSSリーダーがRSSフィードの更新を判断する仕組み

    RSSリーダーがRSSフィードの更新を判断する仕組みはどのようになっているのでしょうか。 そこの仕組みがわかるプログラムを教えていただきたいです。

  • 解決済

    静的なページに(ワードプレスが入っていない)RSSを読み込みたい

    静的なページに(ワードプレスが入っていない)RSSを読み込みたいのですが、うまくいきません。 ワードプレスが入っているホームページはうまくいったのですが、静的ページはだめでした。

  • 解決済

    facebookの投稿をwordpressに自動投稿する方法

    「facebookの投稿をホームページに自動投稿」したいと考えております。 ブログの新着記事をrss-PHPで読み込みホームページへ表示させるような要領ではできないのでしょう

  • 受付中

    Google Feed APIの代替として

    クロスドメインブログのRSS取得 Google Feed APIの廃止に伴い、Google Feed APIの代替として 外部サイトのRSS情報をPHPで取得してjQueryで表示

  • 受付中

    RSSで直接記事ではなく、トップページに飛ばしたい

    WordPressで出力するRSSの内容を変更したくて、色々検索してみたのですが解決しませんでした。 目的はシンプルで、RSSからくる人を記事ではなくトップページへ飛ばすだけです。

  • 解決済

    手動でRSSの再送信は可能か。

    ブログをやっています。 そこでRSSについて質問なのですが、たとえば以下のケース。 投稿したブログ記事にちょっと追記したので、 記事タイトルに【追記あり】と付け加えて、RSSを再送

同じタグがついた質問を見る

  • Android

    6399questions

    Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

  • iPhone

    962questions

    iPhoneとは、アップル社が開発・販売しているスマートフォンです。 同社のデジタルオーディオプレーヤーiPodの機能、電話機能、インターネットやメールなどのWeb通信機能の3つをドッキングした機器です。

  • HTTP

    530questions

    HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

  • スクレイピング

    305questions

  • RSS

    140questions

    RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。