質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

729閲覧

pythonでYoutube Liveアーカイブからコメント取得をしたいが上手くいかない

asano0005

総合スコア0

YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2020/11/30 22:47

前提・実現したいこと

下記サイトを参考にpythonでyoutubeのコメント取得を行うプログラムを作成しています。
PythonでYouTube Liveのアーカイブからチャット(コメント)を取得する(改訂版)
http://watagassy.hatenablog.com/entry/2018/10/08/132939

target_urlにURLを入力、実行してもtxtファイルは作成されるが何も書き込めていないという状況です。

発生している問題・エラーメッセージ

next_urlの値が取得できない

該当のソースコード

from bs4 import BeautifulSoup import json import requests #import requests_html target_url = "https://www.youtube.com/watch?v=?????????" #URLを入力 dict_str = "" next_url = "" comment_data = [] session = requests.Session() #session = requests_html.HTMLSession() headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'} # まず動画ページにrequestsを実行しhtmlソースを手に入れてlive_chat_replayの先頭のurlを入手 html = requests.get(target_url) soup = BeautifulSoup(html.text, "html.parser") #resp = session.get(target_url) #resp.html.render(sleep=3) for iframe in soup.find_all("iframe"): if("live_chat_replay" in iframe["src"]): next_url= iframe["src"] #for iframe in resp.html.find("iframe"): # if("live_chat_replay" in iframe.attrs["src"]): # next_url= "".join(["https://www.youtube.com", iframe.attrs["src"]]) while(1): try: html = session.get(next_url, headers=headers) soup = BeautifulSoup(html.text,"lxml") # 次に飛ぶurlのデータがある部分をfind_allで探してsplitで整形 for scrp in soup.find_all("script"): if "window[\"ytInitialData\"]" in scrp.text: dict_str = scrp.text.split(" = ",1)[1] # javascript表記なので更に整形. falseとtrueの表記を直す dict_str = dict_str.replace("false","False") dict_str = dict_str.replace("true","True") # 辞書形式と認識すると簡単にデータを取得できるが, 末尾に邪魔なのがあるので消しておく(「空白2つ + \n + ;」を消す) dict_str = dict_str.rstrip(" \n;") # 辞書形式に変換 dics = eval(dict_str) # "https://www.youtube.com/live_chat_replay?continuation=" + continue_url が次のlive_chat_replayのurl continue_url = dics["continuationContents"]["liveChatContinuation"]["continuations"][0]["liveChatReplayContinuationData"]["continuation"] next_url = "https://www.youtube.com/live_chat_replay?continuation=" + continue_url # dics["continuationContents"]["liveChatContinuation"]["actions"]がコメントデータのリスト。先頭はノイズデータなので[1:]で保存 for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][0:]: comment_data.append(str(samp)+"\n") # next_urlが入手できなくなったら終わり except: break # comment_data.txt にコメントデータを書き込む with open("comment_data.txt", mode='w', encoding="utf-8") as f: f.writelines(comment_data)

試したこと

下記サイトよりrequests_htmlをインストールしてコードを書き換えてみましたが解決しませんでした。現在はコメントアウトで表示
YouTube Liveのアーカイブからチャットを取得するコードを模写したが上手くいかない @Python
https://teratail.com/questions/276731?link=qa_related_pc

下記サイトも試したが上手く動作しない
PythonでYouTube Liveのアーカイブからチャットを取得したいけれどうまくいかないhttps://teratail.com/questions/263421?link=qa_related_pc

補足情報(FW/ツールのバージョンなど)

python 3.7.6
beautifusoup4 4.8.2
requests 2.22.0
requests-html 0.10.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/12/01 00:39

youtubeはスクレイピング禁止されてませんか?
asano0005

2020/12/01 00:48 編集

ご指摘ありがとうございます。 確認してませんでしたので規約読んできます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問