目的
conformerというモデルで音声認識をしようとし、論文でも使われているLibriSpeechという
データセットを使いたいです
いままではdatasets.○○で標準搭載されていたデータセットを使っていたんですがLibriSpeechは
標準搭載ではないようでやり方がわかりません
手動で入れて読み込んで自作データセットとして扱えばいいのか?(Datasetクラスを継承をして__len__ __getitem__を書くやつ)
それともpython内のコードでダウンロード 変換 detaloaderに突っ込むというスマートなやり方があるのか
そもそもLibriSpeechはどこに置いてあるのか https://www.openslr.org/12 だと思うのですが確証はありません
仮にhttps://www.openslr.org/12であってたとしても複数ダウンロード項目がありどれをどう使えばいいかわかりません
例えば
(training set of 360 hours "clean" speech )に(training set of 100 hours "clean" speech )は含まれているのか?
development set,とは何か(訓練用でもテスト用でもない)
試しに一つ(training set of 500 hours "other" speech ) ダウンロードしてみたのですが使い方がわからない
などの疑問が複数立ちはだかっておりすすまない状態です
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。