質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

HTTP

HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

YouTube API

YouTube APIはYouTubeのビデオコンテンツと機能性をウェブサイト、アプリケーション、デバイスに統合することを可能にします。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

2775閲覧

python で YouTubeLive のコメントが取得できなくなった

退会済みユーザー

退会済みユーザー

総合スコア0

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

HTTP

HTTP(Hypertext Transfer Protocol)とはweb上でHTML等のコンテンツを交換するために使われるアプリケーション層の通信プロトコルです。

YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

YouTube API

YouTube APIはYouTubeのビデオコンテンツと機能性をウェブサイト、アプリケーション、デバイスに統合することを可能にします。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/07/16 12:58

編集2020/07/16 12:59

以下のページを参考にYouTubeLiveのコメント取得をしていました.

http://watagassy.hatenablog.com/entry/2018/10/08/132939

一週間前まで普通に動作していたのですが,ある日を堺に最初の live_chat_replay が取得できなくなってしまいました.

まる一日無限ループを使って連続でアクセスしていたため,ブラックリストのようなものに入ってアクセスが拒否されているのでしょうか?

わかる方がいらっしゃいましたらアドバイスいただけると幸いです.

ちなみにブラウザからYouTubeは普通に見られます.

以下,実際に使っているコード

python

1while 1==1: 2 for vid in videoIdList: 3 print(vid) 4 target_url = f'https://www.youtube.com/watch?v={vid}' 5 dict_str = "" 6 next_url = "" 7 comment_data = [] 8 session = requests.Session() 9 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'} 10 11 html = requests.get(target_url) 12 soup = BeautifulSoup(html.text, "html.parser") 13 14 for iframe in soup.find_all("iframe"): 15 if("live_chat_replay" in iframe["src"]): 16 next_url= iframe["src"] # ←これが取得できない 17 18 while(1): 19 try: 20 html = session.get(next_url, headers=headers) 21 soup = BeautifulSoup(html.text,"lxml") 22 23 for scrp in soup.find_all("script"): 24 if "window[\"ytInitialData\"]" in scrp.text: 25 dict_str = scrp.text.split(" = ")[1] 26 27 dict_str = dict_str.replace("false","False") 28 dict_str = dict_str.replace("true","True") 29 30 dict_str = dict_str.rstrip(" \n;") 31 dics = eval(dict_str) 32 33 continue_url = dics["continuationContents"]["liveChatContinuation"]["continuations"][0]["liveChatReplayContinuationData"]["continuation"] 34 next_url = "https://www.youtube.com/live_chat_replay?continuation=" + continue_url 35 for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][1:]: 36 comment_data.append(str(samp)+"\n") 37 except: 38 break 39 40 comment_data = pd.DataFrame(comment_data)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

ベストアンサー

まる一日無限ループを使って連続でアクセスしていたため,ブラックリストのようなものに入ってアクセスが拒否されているのでしょうか?

多分そうでしょうね。

間隔やサイト規約を考慮せずに
無限ループで絶え間なくスクレイピングをする行為は、威力業務妨害になりかねない迷惑行為ですのでやめましょう。

としか言いようが無いです。

投稿2020/07/16 15:08

編集2020/07/16 15:46
tanat

総合スコア18709

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2020/07/16 17:00

なるほど.ありがとうございます. これって何を元にブロックしているのでしょうか? 本当にこのコードの実行だけが弾かれて,ブラウザからはなんの違和感もなく表示することができるのですが…
tanat

2020/07/16 17:07

実際のところ何でブロックしているのかを知る方法はありませんが、 UA、IPアドレス、アクセス方法、アクセス間隔の傾向などを見て総合的にブロックするパターンを作っているんだと思われます。 BOTっぽかったら人間判定をするような画面やJSを挟むとか色々方法はあります。
退会済みユーザー

退会済みユーザー

2020/07/16 17:09

勉強になりました.ありがとうございます.
m.ts10806

2020/07/16 21:35

YouTubeLiveに対して事情説明して謝罪するところからでは。 抜け道探ろうとしてませんかね。
guest

0

そもそもYouTubeの利用規約に違反しています。

利用規約 - YouTube

本サービスの利用には制限があり、以下の行為が禁止されています。

  1. 自動化された手段(ロボット、ボットネット、スクレーパなど)を使用して本サービスにアクセスすること。ただし、(a)公開されている検索エンジンを YouTube の robots.txt ファイルに従って使用する場合、または(b)YouTube が事前に書面で許可している場合を除きます。

Googleはほとんどのサービスについてスクレイピングを禁止する代わりにAPIを用意しています。下記のYouTube Live Streaming APIを使用してください。

YouTube Live Streaming API Overview | Google Developers

なお、時間や日あたりのAPI呼び出し回数には制限がありますが、一般的な使用では十分な数のはずです。

投稿2020/07/16 21:57

raccy

総合スコア21733

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0


miss

投稿2020/12/20 08:59

編集2020/12/20 09:00
GooS

総合スコア5

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問