質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.82%

PythonでYouTube Liveのアーカイブからチャットを取得したいけれどうまくいかない

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 6
  • VIEW 1,465

macarooon

score 2

前提・実現したいこと

PythonでYoutube Liveのアーカイブからチャットを取得したいです。

こちらのサイトを参考に、コードをそのまま使用しています。
http://watagassy.hatenablog.com/entry/2018/10/08/132939

発生している問題・エラーメッセージ

cmdでpyファイル実行後、テキストファイル(comment_data.txt)に何も表示されません。
cmd,Visual Studio Code共にエラーメッセージや問題など発生していません。

解決策が分からなくて困っています。

該当のソースコード

from bs4 import BeautifulSoup
import json
import requests

target_url = "https://www.youtube.com/watch?v=xxxxx(取得したい動画のURL)"
dict_str = ""
next_url = ""
comment_data = []
session = requests.Session()
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

# まず動画ページにrequestsを実行しhtmlソースを手に入れてlive_chat_replayの先頭のurlを入手
html = requests.get(target_url)
soup = BeautifulSoup(html.text, "html.parser")

for iframe in soup.find_all("iframe"):
    if("live_chat_replay" in iframe["src"]):
        next_url= iframe["src"]


while(1):

    try:
   html = session.get(next_url, headers=headers)
        soup = BeautifulSoup(html.text,"lxml")


        # 次に飛ぶurlのデータがある部分をfind_allで探してsplitで整形
        for scrp in soup.find_all("script"):
            if "window[\"ytInitialData\"]" in scrp.text:
                dict_str = scrp.text.split(" = " , 1)[1]

        # javascript表記なので更に整形. falseとtrueの表記を直す
        dict_str = dict_str.replace("false","False")
        dict_str = dict_str.replace("true","True")

        # 辞書形式と認識すると簡単にデータを取得できるが, 末尾に邪魔なのがあるので消しておく(「空白2つ + \n + ;」を消す)
        dict_str = dict_str.rstrip("  \n;")
        # 辞書形式に変換
        dics = eval(dict_str)

        # "https://www.youtube.com/live_chat_replay?continuation=" + continue_url が次のlive_chat_replayのurl
        continue_url = dics["continuationContents"]["liveChatContinuation"]["continuations"][0]["liveChatReplayContinuationData"]["continuation"]
        next_url = "https://www.youtube.com/live_chat_replay?continuation=" + continue_url
        # dics["continuationContents"]["liveChatContinuation"]["actions"]がコメントデータのリスト。先頭はノイズデータなので[1:]で保存
        for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][1:]:
            comment_data.append(str(samp)+"\n")

    # next_urlが入手できなくなったら終わり
    except:
        break

# comment_data.txt にコメントデータを書き込む
with open("comment_data.txt", mode='w', encoding="utf-8") as f:
    f.writelines(comment_data)

試したこと

Python 3.8.3です。
BeautifulSoup, requests, lxml インストール済みです。

pip list
Package           Version
----------------- ----------
astroid           2.4.1
beautifulsoup4    4.9.1
bs4               0.0.1
certifi           2020.4.5.1
chardet           3.0.4
colorama          0.4.3
idna              2.9
isort             4.3.21
lazy-object-proxy 1.4.3
lxml              4.5.1
mccabe            0.6.1
pip               20.1.1
pylint            2.5.2
requests          2.23.0
selenium          3.141.0
setuptools        41.2.0
six               1.14.0
soupsieve         2.0.1
toml              0.10.1
urllib3           1.25.9
wrapt             1.12.1

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+2

target_url = "https://www.youtube.com/live_chat_replay?continuation=xxxxxxxx"


となっていますが、
target_urlには動画ページのurl
(https://www.youtube.com/watch?v=xxxxxx〜)
が入るのではないでしょうか?

また、

dict_str = scrp.text.split(" = ")[1]

となっていますが、これだとチャットのmessage自体に" = "が含まれていると3分割以上されて正常にevalが通らない可能性があります。
なので、

dict_str = scrp.text.split(" = ", 1)[1]

とするべきでは?

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/05/21 23:59

    ご回答ありがとうございます。
    ご指摘箇所、修正しましたが、依然テキストファイルにチャット取得できない状態です...。

    キャンセル

  • 2020/05/22 01:03 編集

    修正バージョン回答を追加しました。

    キャンセル

checkベストアンサー

+1

BeautifulSoupの仕様によるのかもしれませんが、

            if "window[\"ytInitialData\"]" in scrp.text:
                dict_str = scrp.text.split(" = " , 1)[1]

の「text」を「next」に変えてみてはどうでしょうか。(下記)

            if "window[\"ytInitialData\"]" in scrp.next:
                dict_str = scrp.next.split(" = " , 1)[1]

あと

        for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][1:]:


ですが、これだと、チャットデータを取得する都度、最初のデータが欠落してしまうと思います。
したがって、欠落無しで取得するには、最後の1を0に変える必要があると思います。(下記)

        for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][0:]:

なお、上記含めた元記事のスクリプトでは上位チャットしか取得できない点ご留意ください。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/05/24 05:16

    [1]を[0]に変更して、取得できました、、、、!
    ご回答本当にありがとうございました!!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.82%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る