質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

1558閲覧

PythonでYouTube Liveのアーカイブからチャットを特定の形式で取得したいがどうすればいいか分からない

Kusabi5928

総合スコア0

YouTube

YouTubeとはユーザーがビデオをアップロード・共有・閲覧できるビデオ共有ウェブサイトです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/10/11 15:19

編集2020/10/11 15:20

前提・実現したいこと

PythonでYouTube Liveのアーカイブからチャットを時刻、ユーザー名、コメント内容の形で取得したいです。
こちらのページに書いてあるコードをほぼそのまま用いております。
https://qiita.com/PigeonsFounder/items/306c1a54bf7c50fda202

発生している問題・エラーメッセージ

参考ページのソースコードでは時刻、コメント内容までは取得できたのですが、これにユーザー名も
加えたい場合、元のソースコードをどう弄ればいいのか分かりません。
また、元のソースコードでは絵文字入りのコメントは出力されないようになっているらしく、可能であれば
絵文字入りのコメントも含めた完全なチャットを取得したいので、そのようにソースコードを改造したいの
ですが、やはりどうすべきか分からず困っております。

該当のソースコード

Python

1from bs4 import BeautifulSoup 2import json 3import requests 4import requests_html 5from urllib.parse import urlparse, parse_qs 6import sys 7 8target_url = "https://www.youtube.com/watch?v=xxxxx" # 取得したい動画のURL 9dict_str = "" 10next_url = "" 11comment_data = [] 12session = requests_html.HTMLSession() 13headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'} 14 15# まず動画ページにrequestsを実行しhtmlソースを手に入れてlive_chat_replayの先頭のurlを入手 16resp = session.get(target_url) 17resp.html.render(sleep=3) 18 19for iframe in resp.html.find("iframe"): 20 if("live_chat_replay" in iframe.attrs["src"]): 21 next_url= "".join(["https://www.youtube.com", iframe.attrs["src"]]) 22 23 24while(1): 25 26 try: 27 html = session.get(next_url, headers=headers) 28 soup = BeautifulSoup(html.text,"lxml") 29 30 31 # 次に飛ぶurlのデータがある部分をfind_allで探してsplitで整形 32 for scrp in soup.find_all("script"): 33 if "window[\"ytInitialData\"]" in scrp.next: 34 dict_str = scrp.next.split(" = ", 1)[1] 35 36 # 辞書形式と認識すると簡単にデータを取得できるが, 末尾に邪魔なのがあるので消しておく(「空白2つ + \n + ;」を消す) 37 dict_str = dict_str.rstrip(" \n;") 38 # 辞書形式に変換 39 dics = json.loads(dict_str) 40 41 # "https://www.youtube.com/live_chat_replay?continuation=" + continue_url が次のlive_chat_replayのurl 42 continue_url = dics["continuationContents"]["liveChatContinuation"]["continuations"][0]["liveChatReplayContinuationData"]["continuation"] 43 next_url = "https://www.youtube.com/live_chat_replay?continuation=" + continue_url 44 # dics["continuationContents"]["liveChatContinuation"]["actions"]がコメントデータのリスト。 45 for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][0:]: 46 # comment_data.append(str(samp)+"\n") 47 if 'addChatItemAction' not in samp["replayChatItemAction"]["actions"][0]: 48 continue 49 if 'liveChatTextMessageRenderer' not in samp["replayChatItemAction"]["actions"][0]["addChatItemAction"]["item"]: 50 continue 51 str1 = str(samp["replayChatItemAction"]["actions"][0]["addChatItemAction"]["item"]["liveChatTextMessageRenderer"]["message"]["runs"]) 52 if 'emoji' in str1: 53 continue 54 str1 = str1.replace('[','').replace('{\'text\': \'','').replace('\'}','').replace(', ','').replace(']','') 55 comment_data.append(str(samp["replayChatItemAction"]["actions"][0]["addChatItemAction"]["item"]["liveChatTextMessageRenderer"]["timestampText"]["simpleText"])) 56 comment_data.append(","+str1+"\n") 57 58 # next_urlが入手できなくなったら終わり 59 except: 60 break 61 62# (動画ID).txt にコメントデータを書き込む 63url = urlparse(target_url) 64query = parse_qs(url.query) 65title = query["v"][0] + ".txt" 66 67with open(title, mode='w', encoding="utf-8") as f: 68 f.writelines(comment_data)

試したこと

for samp以下を段階的にコメントアウトと解除を繰り返してどのコードがどう作用するのかを
確かめてみましたが、プログラミングスキルが拙すぎて全く問題の解決に繋がりませんでした。

補足情報(FW/ツールのバージョンなど)

Python 3.8.6
beautifulsoup4 4.9.3
lxml 4.5.2
requests 2.24.0
requests-html 0.10.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kuma_kuma_

2020/10/12 10:55

質問者様 このYouTube APIを使用しないで取得する方法は推奨できません。 (YouTube側に大きな負担をかける可能性がある。) ライブ配信中であれば「YouTube API」を使用して取得は可能ですのでそちらに切り替えられることを オススメします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問