質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.45%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

14883閲覧

Beautiful soupでyoutubeの動画URLを取得したい

an6

総合スコア20

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2017/12/20 15:18

youtubeで何か検索ワードを入力して、引っかかった動画のURLを取得したいです。

Beautiful soupを学ぶために以下のサイトを参考にしてコードを書いたのですが、文字列を取得することができません。
引用サイト

import requests from bs4 import BeautifulSoup headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'} query = input('Enter the song to be played: ') query = query.replace(' ', '+') # search for the best similar matching video url = 'https://www.youtube.com/results?search_query=' + query source_code = requests.get(url, headers=headers, timeout=15) plain_text = source_code.text soup = BeautifulSoup(plain_text, "html.parser") songs = soup.select('.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail') for song in songs: print(song) link = song['href']

developerツールで動画URLに該当するところを調べると
<a id="thumbnail" class="yt-simple-endpoint inline-block style-scope ytd-thumbnail" aria-hidden="true" tabindex="-1" href="/watch?v=HBuvVIQia8s">
となっているので、

songs = soup.select('.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail')

と書いたのですがうまくいきません。
どのように書けばURLを取得できるか教えていただけないでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Youtubeは利用規約でスクレイピングを禁止しています。

  1. 本サービスの一般的な利用--許可及び制限事項

~中略~
C.お客様は、本サービス自体の動画再生ページ、Embeddable Player、又はその他YouTubeが明示的に認めた手段以外のあらゆる技術及び手段を通じて、 本コンテンツにアクセスしないことに合意します。

代替手段としてYouTube Data API (v3)のsearchを使用してくださいな。

□参考情報
Youtube統計情報の取得list index out of rangeを無視したい

投稿2017/12/20 17:59

編集2017/12/20 18:01
umyu

総合スコア5846

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

an6

2017/12/21 15:27

指摘ありがとうございます。 恐らくBeautiful soupのことがわかっておらず一般的な話として教えていただけないでしょうか。 例えば禁止されているYoutubeではなくてInstagramの画像一覧から詳細画像のURLを引っ張ってくる場合、 [リンク](https://www.instagram.com/explore/tags/baseball/) Inspectを見ると下記の通りなので <div class="_mck9w _gvoze _f2mse"><a href="/p/Bc8F8cYDqft/"><div class="_e3il2"><div class="_4rbun"> soup.findAll("div", {"class":["_mck9w", "_gvoze" ,"_f2mse"]}) と置き換えても何も取得できません。 何が間違っているのか理解できず困っています。
umyu

2017/12/21 15:52

Instagramのページのソース( view-source:https://www.instagram.com/explore/tags/baseball/ )を見ると分かりやすいのですが、window._sharedDataという形のJsonデータになってるのです。 requests.getはJavaScriptを解釈しないので、取得できないという話です。 解決方法としてはScriptタグを取得して、window._sharedDataをJson.loadすれば、Jsonデータが取得できます。
umyu

2017/12/21 15:55

あとInstagramも規約でスクレイピングを禁止しているのですー。。
an6

2017/12/23 00:18

なるほど、だから取得できなかったのですね。。 最終的に取得したいのはJavaScriptがjsonファイルを処理した結果の<a href="/p/Bc8F8cYDqft/">の部分になるのですが、ソースではjsonがそのまま表示されているのでその中のどの部分がリンクに相当するのかぱっと見ただけではわかりませんでした。 JavaScriptを勉強しないといけないということになりますか? 規約の件もありがとうございます、ちゃんと覚えておきます。
umyu

2017/12/23 06:44

JavaScriptを覚えなくてもHeadless Chrome & chromedriver & seleniumで可能だと思いますがー。 □参考情報 □PythonでWebスクレイピングする時の知見をまとめておく http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924 上記ページはスクレイピングの基礎知識のまとめとしてすごく参考になるので、全部見てみてくださいな。 あとはぐぐったりしてがんばってくださいな。
gift-0618

2021/09/29 08:51

過去の質問に失礼します・・・ 確かにBeautifulSoup・requestsではからのリストが返されて同じようにできませんでした。 そこでseleniumでやったところ取得できてしまいました・・・私はそんな悪用などはしないので大丈夫ですが・・・
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.45%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問