質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.45%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

1556閲覧

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 65: invalid start byte

SSDD

総合スコア11

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

2クリップ

投稿2021/12/14 18:13

編集2021/12/15 20:04

前提・実現したいこと

私は、pythonや深層学習については初心者で、今回のエラーメッセージについても理解しきれているわけではありません。

下記のサイトで深層学習を使ってノイズ除去をしたいと思っているのですが、

https://sja-analysis.org/python-deep-learning-noise-reduction/#toc2

jupyter notebookで実行して

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 65: invalid start byte

と出ます。

このエラーに関する解決策にencoding='UTF-8'のようなものがあり、
これを

val_dataset.create_tf_record(prefix='val', subset_size=2000, encoding='UTF-8')

のように入力しましたが、

TypeError: create_tf_record() got an unexpected keyword argument 'encoding'

となりました。

この結果から
①encoding='UTF-8'と入力することが必要ない
②encoding='UTF-8'を別の行に入力する
③encoding='UTF-8'以外の方法がある
等、色々な疑問が浮かびますが、自分一人では解決できそうにありません。
どなたか解答を頂けると幸いです。

発生している問題・エラーメッセージ

Total number of training examples: 6391 # of Training clean files: 5391 # of Validation clean files: 1000 Number of classes: [0 1 2 3 4 5 6 7 8 9] Class c: 0 has: 900 files Class c: 1 has: 396 files Class c: 2 has: 900 files Class c: 3 has: 900 files Class c: 4 has: 900 files Class c: 5 has: 907 files Class c: 6 has: 342 files Class c: 7 has: 904 files Class c: 8 has: 846 files Class c: 9 has: 900 files Noise training: 7695 Noise validation: 200 --------------------------------------------------------------------------- UnicodeDecodeError Traceback (most recent call last) <ipython-input-28-c9c0ce041cf9> in <module> 24 25 val_dataset = Dataset(clean_val_filenames, noise_val_filenames, **config) ---> 26 val_dataset.create_tf_record(prefix='val', subset_size=2000) 27 28 train_dataset = Dataset(clean_train_filenames, noise_train_filenames, **config) ~\dataset.py in create_tf_record(self, prefix, subset_size, parallel) 139 continue 140 --> 141 writer = tf.io.TFRecordWriter(tfrecord_filename) 142 clean_filenames_sublist = self.clean_filenames[i:i + subset_size] 143 ~\anaconda3\lib\site-packages\tensorflow\python\lib\io\tf_record.py in __init__(self, path, options) 296 297 # pylint: disable=protected-access --> 298 super(TFRecordWriter, self).__init__( 299 compat.as_bytes(path), options._as_record_writer_options()) 300 # pylint: enable=protected-access UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8e in position 65: invalid start byte

該当のソースコード

python

1#data_processing. 2from mozilla_common_voice import MozillaCommonVoiceDataset 3from urban_sound_8K import UrbanSound8K 4from dataset import Dataset 5import warnings 6 7 8warnings.filterwarnings(action='ignore') 9 10mozilla_basepath = r'C:\Users\ユーザ名\cnn-audio-denoiser-master\data_processing\en' 11urbansound_basepath = r'C:\Users\ユーザ名\cnn-audio-denoiser-master\data_processing\UrbanSound8K' 12 13mcv = MozillaCommonVoiceDataset(mozilla_basepath, val_dataset_size=1000) 14clean_train_filenames, clean_val_filenames = mcv.get_train_val_filenames() 15 16us8K = UrbanSound8K(urbansound_basepath, val_dataset_size=200) 17noise_train_filenames, noise_val_filenames = us8K.get_train_val_filenames() 18 19windowLength = 256 20config = {'windowLength': windowLength, 21 'overlap': round(0.25 * windowLength), 22 'fs': 16000, 23 'audio_max_duration': 0.8} 24 25val_dataset = Dataset(clean_val_filenames, noise_val_filenames, **config) 26val_dataset.create_tf_record(prefix='val', subset_size=2000) 27 28train_dataset = Dataset(clean_train_filenames, noise_train_filenames, **config) 29train_dataset.create_tf_record(prefix='train', subset_size=4000) 30 31## Create Test Set 32clean_test_filenames = mcv.get_test_filenames() 33 34noise_test_filenames = us8K.get_test_filenames() 35 36test_dataset = Dataset(clean_test_filenames, noise_test_filenames, **config) 37test_dataset.create_tf_record(prefix='test', subset_size=1000, parallel=False) 38

(パス参照部分のユーザ名は隠しているだけで実際は数字やアルファベットになっています)

補足情報(FW/ツールのバージョンなど)

windows10
python3.8.8(jupyternotebook)
Anaconda4.10.3
tensorflow2.3.0

この質問内に足りていない情報等がございましたら、指摘していただきたいです。
その都度、可能な限り追記していきます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.45%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問