質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.59%

pythonでYoutube Liveアーカイブからコメント取得をしたいが上手くいかない

受付中

回答 0

投稿

  • 評価
  • クリップ 1
  • VIEW 616

score 0

前提・実現したいこと

下記サイトを参考にpythonでyoutubeのコメント取得を行うプログラムを作成しています。
PythonでYouTube Liveのアーカイブからチャット(コメント)を取得する(改訂版)
http://watagassy.hatenablog.com/entry/2018/10/08/132939

target_urlにURLを入力、実行してもtxtファイルは作成されるが何も書き込めていないという状況です。

発生している問題・エラーメッセージ

next_urlの値が取得できない

該当のソースコード

from bs4 import BeautifulSoup
import json
import requests
#import requests_html

target_url = "https://www.youtube.com/watch?v=?????????" #URLを入力
dict_str = ""
next_url = ""
comment_data = []
session = requests.Session()
#session = requests_html.HTMLSession()

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

# まず動画ページにrequestsを実行しhtmlソースを手に入れてlive_chat_replayの先頭のurlを入手
html = requests.get(target_url)
soup = BeautifulSoup(html.text, "html.parser")

#resp = session.get(target_url)
#resp.html.render(sleep=3)

for iframe in soup.find_all("iframe"):
    if("live_chat_replay" in iframe["src"]):
        next_url= iframe["src"]

#for iframe in resp.html.find("iframe"):
#    if("live_chat_replay" in iframe.attrs["src"]):
#        next_url= "".join(["https://www.youtube.com", iframe.attrs["src"]])

while(1):

    try:
        html = session.get(next_url, headers=headers)
        soup = BeautifulSoup(html.text,"lxml")


        # 次に飛ぶurlのデータがある部分をfind_allで探してsplitで整形
        for scrp in soup.find_all("script"):
            if "window[\"ytInitialData\"]" in scrp.text:
                dict_str = scrp.text.split(" = ",1)[1]

        # javascript表記なので更に整形. falseとtrueの表記を直す
        dict_str = dict_str.replace("false","False")
        dict_str = dict_str.replace("true","True")

        # 辞書形式と認識すると簡単にデータを取得できるが, 末尾に邪魔なのがあるので消しておく(「空白2つ + \n + ;」を消す)
        dict_str = dict_str.rstrip("  \n;")
        # 辞書形式に変換
        dics = eval(dict_str)

        # "https://www.youtube.com/live_chat_replay?continuation=" + continue_url が次のlive_chat_replayのurl
        continue_url = dics["continuationContents"]["liveChatContinuation"]["continuations"][0]["liveChatReplayContinuationData"]["continuation"]
        next_url = "https://www.youtube.com/live_chat_replay?continuation=" + continue_url
        # dics["continuationContents"]["liveChatContinuation"]["actions"]がコメントデータのリスト。先頭はノイズデータなので[1:]で保存
        for samp in dics["continuationContents"]["liveChatContinuation"]["actions"][0:]:
            comment_data.append(str(samp)+"\n")

    # next_urlが入手できなくなったら終わり
    except:
        break

# comment_data.txt にコメントデータを書き込む
with open("comment_data.txt", mode='w', encoding="utf-8") as f:
    f.writelines(comment_data)

試したこと

下記サイトよりrequests_htmlをインストールしてコードを書き換えてみましたが解決しませんでした。現在はコメントアウトで表示
YouTube Liveのアーカイブからチャットを取得するコードを模写したが上手くいかない @Python
https://teratail.com/questions/276731?link=qa_related_pc

下記サイトも試したが上手く動作しない
PythonでYouTube Liveのアーカイブからチャットを取得したいけれどうまくいかないhttps://teratail.com/questions/263421?link=qa_related_pc

補足情報(FW/ツールのバージョンなど)

python        3.7.6
beautifusoup4 4.8.2  
requests      2.22.0
requests-html 0.10.0

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • meg_

    2020/12/01 09:39

    youtubeはスクレイピング禁止されてませんか?

    キャンセル

  • asano0005

    2020/12/01 09:48 編集

    ご指摘ありがとうございます。
    確認してませんでしたので規約読んできます。

    キャンセル

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.59%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る