どうにかして上記2つのデータを集めている方法を知りたく思います。
引用すると
(A)には21,000件の登録者データが存在しています。そこから独自に蓄積したデータを、今回の男女比データの推測に利用しています。
これを、クリエイターのカテゴリごとに、動画タイトルのキーワード、チャンネルの説明文、ユーザーコメントの内容といったデータを軸に、機械学習によって、データ表示・抽出しています
(引用者注:Aはサービス名)
とのことですから、
・Youtubeをよく見ている一般視聴者を募集(無償か有償かは不明)
・その人の性別や生年月等をあらかじめ申告してもらい収集しておく
・その人たちの全視聴履歴を定期的に取得することができる
何らかのアブリをインストールしてもらう等の手段を用いて、
各人のYouTube視聴履歴を収集
・収集した視聴者の視聴履歴と年齢性別等の属性を絡めてデータ化して機械学習させる
(動画idさえわかれば、動画タイトルに設定されているキーワード、チャンネルの説明文、ユーザーコメントの内容あたりは誰でもAPIを使って取得できます。
キモは視聴者の属性と視聴した動画の紐付けてす)
くらいのことでしょうか。
よくあるマーケティングのブランド調査みたいなものに流行りの機械学習絡めたという感じですね。
どこで正解データを手に入れたのか、そもそもそれが本当に合っているデータなのか)
一部の視聴者がアンケートの段階で嘘を付いてる場合もあるでしょうし、
そもそも機械学習による推測なので厳密な正解データではありませんし、
「本当に合っているデータ」とは一概には言えないのではないでしょうか。
情報収集のやり方によってはYouTubeの利用規約に抵触することもありえます。
抵触しないように、精度を落とすこととのトレードオフで、よりマイルドな方法をつかっていることも考えられます。
(精度についてはアルゴリズムや学習結果のデータが非公開であることもあり、なんともいえません)
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。