pytorchでLibriSpeechというデータセットを使いたい

Question

**目的**
conformerというモデルで音声認識をしようとし、論文でも使われているLibriSpeechという
データセットを使いたいです

いままではdatasets.○○で標準搭載されていたデータセットを使っていたんですがLibriSpeechは
標準搭載ではないようでやり方がわかりません

手動で入れて読み込んで自作データセットとして扱えばいいのか？（Datasetクラスを継承をして__len__　 __getitem__を書くやつ）
それともpython内のコードでダウンロード　変換　detaloaderに突っ込むというスマートなやり方があるのか　
そもそもLibriSpeechはどこに置いてあるのか　https：//www.openslr.org/12　だと思うのですが確証はありません

仮にhttps：//www.openslr.org/12であってたとしても複数ダウンロード項目がありどれをどう使えばいいかわかりません　
例えば　
(training set of 360 hours "clean" speech )に(training set of 100 hours "clean" speech )は含まれているのか？　
development set,とは何か（訓練用でもテスト用でもない）
試しに一つ(training set of 500 hours "other" speech ) ダウンロードしてみたのですが使い方がわからない
などの疑問が複数立ちはだかっておりすすまない状態です

Accepted Answer

> 仮にhttps：//www.openslr.org/12であってたとしても複数ダウンロード項目がありどれをどう使えばいいかわかりません　例えば　(training set of 360 hours "clean" speech )に(training set of 100 hours "clean" speech )は含まれているのか？

上記質問については下記に書いてあるようです。

[LIBRISPEECH: AN ASR CORPUS BASED ON PUBLIC DOMAIN AUDIO BOOKS
](http://www.danielpovey.com/files/2015_icassp_librispeech.pdf)

> The size of the corpus makes it impractical, or at least inconvenient for some users, to distribute it as a single large archive. Thus the training portion of the corpus is split into three subsets, with approximate size 100, 360 and 500 hours respectively.
> (コーパスのサイズが大きいため、一つの大きなアーカイブとして配布するのは現実的ではない、あるいは少なくとも一部のユーザにとっては不便である。そこで、コーパスの学習部分を3つのサブセットに分割し、それぞれ100時間、360時間、500時間のおおよそのサイズを設定した。)

---
> 標準搭載されていたデータセットを使っていたんですがLibriSpeechは
> 標準搭載ではないようでやり方がわかりません

確認はしていませんが、下記が参考になるかと思います。

[SOURCE CODE FOR TORCHAUDIO.DATASETS.LIBRISPEECH](https://pytorch.org/audio/stable/_modules/torchaudio/datasets/librispeech.html)

関連した質問