Beautiful soupでyoutubeの動画URLを取得したい

youtubeで何か検索ワードを入力して、引っかかった動画のURLを取得したいです。

Beautiful soupを学ぶために以下のサイトを参考にしてコードを書いたのですが、文字列を取得することができません。
引用サイト

import requests
from bs4 import BeautifulSoup

headers = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'}
query = input('Enter the song to be played: ')
query = query.replace(' ', '+')

# search for the best similar matching video
url = 'https://www.youtube.com/results?search_query=' + query
source_code = requests.get(url, headers=headers, timeout=15)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, "html.parser")
songs = soup.select('.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail')
for song in songs:
    print(song)
    link = song['href']

developerツールで動画URLに該当するところを調べると
<a id="thumbnail" class="yt-simple-endpoint inline-block style-scope ytd-thumbnail" aria-hidden="true" tabindex="-1" href="/watch?v=HBuvVIQia8s">
となっているので、

songs = soup.select('.yt-simple-endpoint.inline-block.style-scope.ytd-thumbnail')

と書いたのですがうまくいきません。
どのように書けばURLを取得できるか教えていただけないでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

Youtubeは利用規約でスクレイピングを禁止しています。

本サービスの一般的な利用--許可及び制限事項

～中略～
C.お客様は、本サービス自体の動画再生ページ、Embeddable Player、又はその他YouTubeが明示的に認めた手段以外のあらゆる技術及び手段を通じて、本コンテンツにアクセスしないことに合意します。

代替手段としてYouTube Data API (v3)のsearchを使用してくださいな。

□参考情報
Youtube統計情報の取得list index out of rangeを無視したい

投稿2017/12/20 17:59

編集2017/12/20 18:01

umyu

総合スコア5846

an6

2017/12/21 15:27

指摘ありがとうございます。恐らくBeautiful soupのことがわかっておらず一般的な話として教えていただけないでしょうか。例えば禁止されているYoutubeではなくてInstagramの画像一覧から詳細画像のURLを引っ張ってくる場合、 [リンク](https://www.instagram.com/explore/tags/baseball/) Inspectを見ると下記の通りなので <div class="_mck9w _gvoze _f2mse"><a href="/p/Bc8F8cYDqft/"><div class="_e3il2"><div class="_4rbun"> soup.findAll("div", {"class":["_mck9w", "_gvoze" ,"_f2mse"]}) と置き換えても何も取得できません。何が間違っているのか理解できず困っています。

umyu

2017/12/21 15:52

Instagramのページのソース( view-source:https://www.instagram.com/explore/tags/baseball/ )を見ると分かりやすいのですが、window._sharedDataという形のJsonデータになってるのです。 requests.getはJavaScriptを解釈しないので、取得できないという話です。解決方法としてはScriptタグを取得して、window._sharedDataをJson.loadすれば、Jsonデータが取得できます。

umyu

2017/12/21 15:55

あとInstagramも規約でスクレイピングを禁止しているのですー。。

an6

2017/12/23 00:18

なるほど、だから取得できなかったのですね。。最終的に取得したいのはJavaScriptがjsonファイルを処理した結果の<a href="/p/Bc8F8cYDqft/">の部分になるのですが、ソースではjsonがそのまま表示されているのでその中のどの部分がリンクに相当するのかぱっと見ただけではわかりませんでした。 JavaScriptを勉強しないといけないということになりますか？規約の件もありがとうございます、ちゃんと覚えておきます。

umyu

2017/12/23 06:44

JavaScriptを覚えなくてもHeadless Chrome & chromedriver & seleniumで可能だと思いますがー。 □参考情報 □PythonでWebスクレイピングする時の知見をまとめておく http://vaaaaaanquish.hatenablog.com/entry/2017/06/25/202924 上記ページはスクレイピングの基礎知識のまとめとしてすごく参考になるので、全部見てみてくださいな。あとはぐぐったりしてがんばってくださいな。