質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.48%

PythonでYouTube Liveのアーカイブからチャットを特定の形式で取得したいがどうすればいいか分からない

受付中

回答 0

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 597

score 0

前提・実現したいこと

PythonでYouTube Liveのアーカイブからチャットを時刻、ユーザー名、コメント内容の形で取得したいです。
こちらのページに書いてあるコードをほぼそのまま用いております。
https://qiita.com/PigeonsFounder/items/306c1a54bf7c50fda202

発生している問題・エラーメッセージ

参考ページのソースコードでは時刻、コメント内容までは取得できたのですが、これにユーザー名も
加えたい場合、元のソースコードをどう弄ればいいのか分かりません。
また、元のソースコードでは絵文字入りのコメントは出力されないようになっているらしく、可能であれば
絵文字入りのコメントも含めた完全なチャットを取得したいので、そのようにソースコードを改造したいの
ですが、やはりどうすべきか分からず困っております。

該当のソースコード

from bs4 import BeautifulSoup
import json
import requests
import requests_html
from urllib.parse import urlparse, parse_qs
import sys

target_url = "https://www.youtube.com/watch?v=xxxxx" # 取得したい動画のURL
dict_str = ""
next_url = ""
comment_data = []
session = requests_html.HTMLSession()
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

# まず動画ページにrequestsを実行しhtmlソースを手に入れてlive_chat_replayの先頭のurlを入手
resp = session.get(target_url)
resp.html.render(sleep=3)

for iframe in resp.html.find("iframe"):
    if("live_chat_replay" in iframe.attrs["src"]):
        next_url= "".join(["https://www.youtube.com", iframe.attrs["src"]])


while(1):

    try:
        html = session.get(next_url, headers=headers)
        soup = BeautifulSoup(html.text,"lxml")


        # 次に飛ぶurlのデータがある部分をfind_allで探してsplitで整形
        for scrp in soup.find_all("script"):
            if "window[\"ytInitialData\"]" in scrp.next:
                dict_str = scrp.next.split(" = ", 1)[1]

        # 辞書形式と認識すると簡単にデータを取得できるが, 末尾に邪魔なのがあるので消しておく(「空白2つ + \n + ;」を消す)
        dict_str = dict_str.rstrip("  \n;")
        # 辞書形式に変換
        dics = json.loads(dict_str)

        # "https://www.youtube.com/live_chat_replay?continuation=" + continue_url が次のlive_chat_replayのurl
        continue_url = dics["continuationContents"]["liveChatContinuation"]["continuations"][0]["liveChatReplayContinuationData"]["continuation"]
        next_url = "https://www.youtube.com/live_chat_replay?continuation=" + continue_url
        # dics["continuationContents"]["liveChatContinuation"]["actions"]がコメントデータのリスト。
        for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][0:]:
            # comment_data.append(str(samp)+"\n")
            if 'addChatItemAction' not in samp["replayChatItemAction"]["actions"][0]:
                continue
            if 'liveChatTextMessageRenderer' not in samp["replayChatItemAction"]["actions"][0]["addChatItemAction"]["item"]:
                continue
            str1 = str(samp["replayChatItemAction"]["actions"][0]["addChatItemAction"]["item"]["liveChatTextMessageRenderer"]["message"]["runs"])
            if 'emoji' in str1:
                continue
            str1 = str1.replace('[','').replace('{\'text\': \'','').replace('\'}','').replace(', ','').replace(']','')
            comment_data.append(str(samp["replayChatItemAction"]["actions"][0]["addChatItemAction"]["item"]["liveChatTextMessageRenderer"]["timestampText"]["simpleText"]))
            comment_data.append(","+str1+"\n")

    # next_urlが入手できなくなったら終わり
    except:
        break

# (動画ID).txt にコメントデータを書き込む
url = urlparse(target_url)
query = parse_qs(url.query)
title = query["v"][0] + ".txt"

with open(title, mode='w', encoding="utf-8") as f:
    f.writelines(comment_data)

試したこと

for samp以下を段階的にコメントアウトと解除を繰り返してどのコードがどう作用するのかを
確かめてみましたが、プログラミングスキルが拙すぎて全く問題の解決に繋がりませんでした。

補足情報(FW/ツールのバージョンなど)

Python 3.8.6
beautifulsoup4 4.9.3
lxml 4.5.2
requests 2.24.0
requests-html 0.10.0

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • kuma_kuma_

    2020/10/12 19:55

    質問者様
    このYouTube APIを使用しないで取得する方法は推奨できません。
    (YouTube側に大きな負担をかける可能性がある。)

    ライブ配信中であれば「YouTube API」を使用して取得は可能ですのでそちらに切り替えられることを
    オススメします。

    キャンセル

  • 退会済みユーザー

    2020/10/12 19:55

    複数のユーザーから「やってほしいことだけを記載した丸投げの質問」という意見がありました
    「質問を編集する」ボタンから編集を行い、調査したこと・試したことを記入していただくと、回答が得られやすくなります。

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.48%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • トップ
  • Pythonに関する質問
  • PythonでYouTube Liveのアーカイブからチャットを特定の形式で取得したいがどうすればいいか分からない