質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.97%

【XPath】Scraperを利用したGoogleスプレッドシートへのデータベース出力【Webスクレイピング】

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 434

weekplane

score 10

実現したいこと

Scraperを用いて、Webのデータベースからデータを抽出したいです。
抽出されたデータベースは、Googleスプレッドシートに保存させたいです。

データベースの構造

イメージしやすいように、適当なサンプルデータを使っています。

search.html

著書名 著者名 出版社名
プログラミング基礎 田中太郎 ABC出版社
Webスクレイピング 吉田太郎 ABC出版社
Railsの本 佐藤太郎 ABC出版社
サンプル 田中太郎 ABC出版社

ここで「プログラミング基礎」という本を選択すると、
下のdetail.htmlに遷移し、詳細画面が表示されるものとします。

detail.html
【プログラミング基礎】

出版年 レビュー総数
2001年 43件

Googleスプレッドシートに出力したい結果

タイトル 出版年
プログラミング基礎 2001年

要するに、「違うページにある異なるテーブルのデータを、同じテーブルとして出力することは可能か?」という事を聞きたいです。

ご回答、よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

0

Scraperが何かわかりませんが

  1. search.htmlを行単位でスクレイピング、detail.htmlのリンク取得
  2. detail.htmlをスクレイピング
  3. 2の結果をreturnで返す
  4. 1と2の結果を結合
  5. 必要なところだけCSVで出力

4の結果

著書名 著者名 出版社名 出版年 レビュー総数
プログラミング基礎 田中太郎 ABC出版社 2001年 43件

5の結果

タイトル 出版年
プログラミング基礎 2001年

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/12/15 23:00

    ご回答ありがとうございます。
    1.detail.htmlのリンク取得について、対象データが100件以上ある場合など、
    リンク取得の手動かが難しい場合、リンク取得の自動化はできるのでしょうか?

    キャンセル

  • 2018/12/16 08:01

    スクレイピングで検索するとサンプルがあると思います。
    自分はpythonというプログラムでbeautifulsoupというライブラリを使っています。

    プログラムは難しいようでしたらoctoparseというツールがありますのでそちらでされる方がいいかもしれません。

    http://jp.octoparse.com

    あと具体的なサンプルがあるほうが説明しやすいです

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.97%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる