質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

1回答

943閲覧

webページ内の特定リンクの抽出(スクレイピング)について

koocas

総合スコア6

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Apps Script

Google Apps ScriptはGoogleの製品と第三者のサービスでタスクを自動化するためのJavaScriptのクラウドのスクリプト言語です。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

1クリップ

投稿2019/01/31 14:18

編集2019/01/31 23:09

サイトから特定の動画ドメインのURLリンクを取得したく思っております。
(リンク先には、必ず一つだけ動画URLがあります。)

動画URLが仮にA1、A2、A3....とそれぞれのセルにあった場合に、

例) A1サイト内部↓

html

1<html> 2<head> 3<body> 4.... 5<a href="https://www.youtube.com/watch?v=aFhvWOgg-YU" target="_blank" rel="aaaaaaaaaaa"> 6.... 7</body> 8</head> 9</html>

にyoutubeのリンクがあったとします。その場合に動画リンクを抽出し、

https://www.youtube.com/watch?v=aFhvWOgg-YU

B2のセルに↑のリンクを書き込むようなスクリプトを組むことは可能でしょうか。

youtubeに限らずもしそのサイトに(動画サイトviemo.com/、pandora.tv/
のどれかに引っかかるURLがあれば自動的に抜き出してセルにリンクを表示します。

html

1function scraping() { 2 var ss = SpreadsheetApp.getActiveSpreadsheet(); 3 var sheet = ss.getActiveSheet(); 4 var lastRow = sheet.getLastRow(); 5 6 // A列にURLある 7 var urls = sheet.getRange(1, 1, lastRow).getValues(); 8 9 for(var i = 0, l = urls.length; i < l; i++) { 10 var url = urls[i][0]; 11 var fetch = UrlFetchApp.fetch(url); 12 } 13}

上記コードに組み込めばできなくはないでしょうか。
プログラムの実装方法を教えて頂きたく思っております。。よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

bochan2

2019/01/31 14:44

質問頂きありがとうございます。 「教えて頂きたく思っております。」部分を「プログラムの実装方法を教えて頂きたく思っております。」と書き換えた方が質問の主旨が伝わりやすいと思います。
m.ts10806

2019/01/31 20:00

対象のサイトはスクレイピングのような行為を認可されているのでしょうか。規約で禁止をうたっている大手サイトもあるなかで、許可なくスクレイピング行為をすることは後々大問題に発展しうるのでAPIなど提供がないものであれば対応は慎重にすべきと思います
papinianus

2019/02/01 00:18

まず質問の主旨ですが、実装方法ではなく、コードそのものをくださいだと思うので、その書き方でもまだ伝わってないと思います。 で、この質問、プログラムの難度は低いのですが、対象サイトや対象リンクが明確でないためサポート地獄が発生するので、仮に仕事としてやるとしたらいくらもらっても割に合わないつらさがあります。どこまで対象を具体的に絞れますか?具体的に言うと対象サイトを明示できますか? あと、B2セルに複数のリンク入れるの無理なんで仕様見直してください
guest

回答1

0

  • ライブラリを前提にしてます(XML Serviceではパースエラー率が高いので)
  • B1に=q172014(A1)と書きます。

すると、なんということでしょう、B1からC1,D1とURLが展開されるではありませんか

※ 適切なサイト例が思いつかなかったので、はてなブックマークで実装した例です。これで人気エントリのアドレスが取れました。実際youtubeはなかったんで、noteのやつをとる、とかで試しましたが。

javascript

1function q172014(cellValue) { 2 //Parserのライブラリキーは、"M1lugvAXKKtUxn_vdAG9JZleS6DrsjUUV" 3 const html = UrlFetchApp.fetch(cellValue).getContentText(); 4 const body = Parser.data(html).from('<div class="wrapper"').to('<div class="entrylist-ad-pc-banner">').build(); 5 const links = Parser.data(body).from('<a href="').to('"').iterate(); 6 const filtered = links.filter(function(e) { return /^http.*youtube.*/.test(e);}); 7 return [filtered]; 8}

投稿2019/02/01 04:00

papinianus

総合スコア12705

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

koocas

2019/02/01 13:31

ご回答頂きありがとうございます。大変参考になります。 先ほど、ライブラリをインポートし、実際に行ってみたのですがDNSエラーが出てしまいました。 実行のサイトURLを教えてもらってもよろしいでしょうか。
papinianus

2019/02/02 00:46

実行サイトってなんですか?
koocas

2019/02/02 03:29

B1からC1,D1とURLが展開されないです。ライブラリ設定は完了しています。
papinianus

2019/02/04 08:33 編集

A1に書いたのは「http://b.hatena.ne.jp/hotentry/entertainment」です。 しかし、正規表現もかえているので、B1からは展開されないでしょう(この中にyoutubeのリンクが含まれると思わないので)。 「実行のサイトURLを教えてもらってもよろしいでしょうか」という質疑は、質問者様が、適当なページにあわせて途中のパラメータを書き換える技術を持っておられないことを示しています。 私は最初から「具体的に言うと対象サイトを明示できますか?」と聞いています。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問