質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

Q&A

解決済

1回答

6528閲覧

googleの検索結果一覧のURLについてーgoogleスプレッドシートでIMPOTAL関数

hideman0831

総合スコア19

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

0グッド

0クリップ

投稿2018/12/17 18:29

googleのトップページからテキストを入力し、検索結果一覧が出た画面からデータを抽出したいのですが、思うようにいきません。日本語がエンコードされていて見づらいのですが、

=IMPORTXML(https://www.google.com/search?q=FAX+AND+%E7%A6%8F%E5%B3%B6+AND+%E7%A4%BE%E4%BC%9A%E7%A6%8F%E7%A5%89%E6%B3%95%E4%BA%BA+%E6%B3%89%E7%A6%8F%E7%A5%89%E4%BC%9A+%E3%81%9F%E3%82%93%E3%81%BD%E3%81%BD%E4%BF%9D%E8%82%B2%E5%9C%92&oq=FAX+AND+%E7%A6%8F%E5%B3%B6+AND+%E7%A4%BE%E4%BC%9A%E7%A6%8F%E7%A5%89%E6%B3%95%E4%BA%BA+%E6%B3%89%E7%A6%8F%E7%A5%89%E4%BC%9A+%E3%81%9F%E3%82%93%E3%81%BD%E3%81%BD%E4%BF%9D%E8%82%B2%E5%9C%92&aqs=chrome..69i57j69i64.596j0j8&sourceid=chrome&ie=UTF-8,"//*[@id='rso']/div/div/div[1]/div/div/table/tbody/tr[2]")

これでうまくいきません。ご教授いただければ幸いです。

=IMPORTXML(URL,XPath)を参考にやってます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

papinianus

2018/12/17 23:44

上手くいきません、とはどういう状態ですか?また、どこを取ろうとしているのでしょうか?
CHERRY

2018/12/18 00:58

うまくいかなかった結果を具体的に記載してください。  例: 「△△△」部分の「xxxxxx」の値が取得された。欲しかったのは、「〇〇」部分の「YYYYY」の文字列。 「値が空欄だった」 etc...
guest

回答1

0

ベストアンサー

  • 書式のエラー
=IMPORTXML("https://www.google.com/search?q=FAX+AND+%E7%A6%8F%E5%B3%B6+AND+%E7%A4%BE%E4%BC%9A%E7%A6%8F%E7%A5%89%E6%B3%95%E4%BA%BA+%E6%B3%89%E7%A6%8F%E7%A5%89%E4%BC%9A+%E3%81%9F%E3%82%93%E3%81%BD%E3%81%BD%E4%BF%9D%E8%82%B2%E5%9C%92&oq=FAX+AND+%E7%A6%8F%E5%B3%B6+AND+%E7%A4%BE%E4%BC%9A%E7%A6%8F%E7%A5%89%E6%B3%95%E4%BA%BA+%E6%B3%89%E7%A6%8F%E7%A5%89%E4%BC%9A+%E3%81%9F%E3%82%93%E3%81%BD%E3%81%BD%E4%BF%9D%E8%82%B2%E5%9C%92&aqs=chrome..69i57j69i64.596j0j8&sourceid=chrome&ie=UTF-8","//*[@id='rso']/div/div/div[1]/div/div/table/tbody/tr[2]")

のように"でくくる必要があります。

  • XPathが不明

「すべて」の第一結果のリンクの文字列(緑の)が↓なんですが、このciteの4つ上のdivにtableがあるようにはみえません。
"//*[@id="rso"]/div/div/div[1]/div/div/div[1]/a/div/cite"

  • 取得できません

XPathを"//*"にしても「URLを取得できませんでした」のエラーなので、importxmlでは取得できないと思います。
(何も取得できないので、google検索側で拒否しているのかもしれない。ただ、拒否してなくても、最初のレスポンスは結果を含まないので無理だと思います)

ざっくり調べたところ機械的に取れるのはGoogle Custum Search APIみたいですね(XMLではないので、IMPORTXMLが使えないのにかわりはないです)

投稿2018/12/18 05:33

papinianus

総合スコア12705

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hideman0831

2018/12/19 17:19

回答いただきありがとうございます。うっすらとgoogle側で拒否することもあるのかな~なんて思っていたのでとてもうれしいです。 Google Custum Search APIについて少ししらべてみたいと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問