質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

YouTube API

YouTube APIはYouTubeのビデオコンテンツと機能性をウェブサイト、アプリケーション、デバイスに統合することを可能にします。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

Q&A

解決済

1回答

2934閲覧

YoutubeのAPIで特定のチャンネルの動画を全て取得したい

kipipipi

総合スコア60

YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

YouTube API

YouTube APIはYouTubeのビデオコンテンツと機能性をウェブサイト、アプリケーション、デバイスに統合することを可能にします。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

0グッド

0クリップ

投稿2020/09/22 03:39

python

1 # チャンネル内の動画をリサーチメソッド 2 search_response = youtube.search().list( 3 part = "snippet", 4 channelId = CHANNEL_ID, 5 type = 'video', 6 # eventType = 'completed', # 'completed':完了したブロードキャストのみ 'live':アクティブなブロードキャストのみ 'upcoming':今後配信予定のブロードキャスト、live中を取得可能 7 maxResults = 50, 8 order = "date", #日付順にソート 9 pageToken = nextpagetoken #再帰的に指定 10 ).execute()

こちらのコードで特定のチャンネルの動画を全て取得したいのですが、650以上動画を持つチャンネルから,
500ちょっとした取得できません。
差が片手ほどならまだしも、150は流石に差がありすぎです。
理由がお分かりの先輩方、教えていただけませんでしょうか?

よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sfdust

2020/09/22 04:59 編集

実際に問題となっているコードは可能な限りすべて示してください。 ・api操作のためのimportや、APIの取得部分が書かれていない。 ・掲題のコードだけでは、動画を50しか取れないはず。500とれたということは、forループか何かで複数回回しているはずだが、それが記載されていない。 そもそもnextPageTokenのところの処理が入っていない。 ・チャンネルIDが不明のため、150の差が出る理由は、チャンネルID固有の問題かもしれない。 以上より情報が全然足りず、原因について調べることができません。 質問をする以上きちんと準備してください。 大方、APIの割り当てを超過しているか、forループ周りのミスかと思いますが。
kipipipi

2020/09/26 07:40 編集

お返事が遅れて申し訳ありません。 pagetokeを取得しまわしているので、一度回せば500数件取得できます。 他のチャンネルを試したところ、全件取得できています。(500件以下のチャンネル) また、問題の起こったチャンネルの動画を手動で確認したところ、最新の10件だけの内でも1件取得洩れがあるようなのでチャンネル固有(動画固有)の問題か、検索パラメータが引っかからないものなのかな?と思っています。 何度かやっているうち日によって取得できない動画も出てきており、動画の数は前後している状態です。 このコメントを書いた日は500件ぴったりでした。 そして調べたところ、このような記事が見つかりました。 https://ja.stackoverflow.com/questions/6481/youtube-data-api-v3-%E3%81%AE%E3%83%90%E3%82%B0 おそらくこれかなと思います。 なのでスクレイピングで一覧を取ってしまうのが早いかなと思っています。(取得洩れがある時点で信用性にかけるので。。。) 最新の動画は別の方法で取得できているので、そちらでDBを更新していこうかと考えています。
sfdust

2020/09/26 09:42

ちなみにどのチャンネルでしょうか?(チャンネルID)
kipipipi

2020/09/26 12:42

sfdust様 案件先がばれる恐れがある可能性がある為IDを出すことを控えさせてください。申し訳ありません。。。
sfdust

2020/09/26 13:58

承知しました。
guest

回答1

0

自己解決

今回の件はAPIの仕様?っぽいので諦めて(日付で回し直す方法もありそうですが)、
今回は動画のリストが欲しいだけだったのでスクレイピングで解決しました。。。
2020/9/26付で使用できるスクレイピングコードはこちらです。
いろいろ汚いですが、ご容赦ください。

python

1# 2# 特定のチャンネルの動画を全て取得する 3# 4from selenium import webdriver 5from selenium.webdriver.chrome.options import Options 6from selenium.webdriver.common.by import By 7from selenium.webdriver.support.select import Select 8from selenium.webdriver.common.keys import Keys 9from selenium.webdriver.common.alert import Alert 10from selenium.webdriver.support.ui import WebDriverWait 11from selenium.webdriver.support import expected_conditions as EC 12from selenium.common.exceptions import TimeoutException 13import time 14 15from bs4 import BeautifulSoup 16import requests 17 18from pprint import pprint 19 20# 21# Seleniumをあらゆる環境で起動させるオプション 22# 23options = Options() 24options.add_argument('--disable-gpu') 25options.add_argument('--disable-extensions') 26options.add_argument('--proxy-server="direct://"') 27options.add_argument('--proxy-bypass-list=*') 28options.add_argument('--start-maximized') 29# options.add_argument('--headless') # ※ヘッドレスモードを使用 30options.add_argument('--kiosk') 31 32 33# 34# Chromeドライバーの起動 35# 36DRIVER_PATH = 'ドライバーパス' 37driver = webdriver.Chrome(executable_path=DRIVER_PATH, chrome_options=options) 38 39# 40# YouTubeにアクセスする 41# 42url = 'https://www.youtube.com/channel/' + 特定のID + '/videos' 43driver.get(url) 44time.sleep(3) 45 46for i in range(50): #回数は調整してください 47 # # # 一番下までスクロールする 48 driver.find_element_by_tag_name('body').send_keys(Keys.PAGE_DOWN) 49 time.sleep(2) 50 51html = driver.page_source.encode('utf-8') 52soup = BeautifulSoup(html, "html.parser") 53elems = soup.select('#thumbnail') 54result_video_list = [] 55 56for elem in elems: 57 result_video_list.append(elem.get("href")) 58 59for test in result_video_list: 60 try: 61 pprint('https://www.youtube.com' + test) 62 except: 63 continue 64 65# ブラウザを終了する(全てのウィンドウを閉じる) 66# Chromeのショートカットキー(Command+Q)と同じ動作 67driver.quit() 68

投稿2020/09/26 12:53

編集2020/09/26 12:59
kipipipi

総合スコア60

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sfdust

2020/09/27 11:41 編集

Youtubeはスクレイピング対策しているため、例えば上記のコードではPAGE_DOWNがうまく作用せずに取得に失敗したり、正しい動画一覧ページ自体がかえってこない場合があることを申し添えておきます
kipipipi

2020/09/27 05:06 編集

スクレイピング対策されているのですね、教えていただきありがとうございます。 現在のところローカルでは動いているので(問題のあったチャンネルでは全件取得できたようです。多いので数が合っているとだけしかまだ分かっておりませんが。。。) 一度回せば以降使用しなさそうですが、APIが安定しないのであれば再度使用もあるかもしれないので確認しなくてはいけないですね。。。 初心者には壁が次々現れて大変苦しいですが、ご助力大変助かりました!誠にありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問