前提
機械学習をする前のデータの前処理を行なっています。
ひらがな化や[ ]の削除などの処理を行なっていますが、その中で(例)おかーさん→おかあさん、おとーさん→おとおさんなどの処理を追加した時にエラーが発生しました。
詳細
現在、日本語の方言から標準語への機械学習を行なっています。
その為にデータの前処理を行なっていますが、プログラミングが難しく戸惑っています。コーパスとしては国立国語研究所の「全国方言談話データベース ふるさと言葉集成」を用いています(csvファイル)。プログラムは標準語の列だけを抜き出して処理をしています。
実現したいこと
ここに実現したいことを箇条書きで書いてください。
●長音の処理が実行されるプログラムを作りたい
(例)おかーさん→おかあさん、おとーさん→おとおさん
該当のソースコード
python
1#coding: UTF-8 2import re 3import pandas as pd 4from pathlib import Path 5import jaconv 6from pykakasi import kakasi 7 8 9hougen_train = [] 10hougen_val = [] 11hyouzyun_train = [] 12hyouzyun_val = [] 13 14count = 0 15table = str.maketrans({ 16 '゜': '゛', 17 }) 18 19#パスの指定 20p = Path('datasets/hougen_data') 21#*csvと言う名前のファイルを1つずつ読みとる 22file_name = '01_b_099_utf8.csv' 23csv_files = p.glob(file_name) 24#csvファイルを1つずつ処理 25for file in csv_files: 26 df = pd.read_csv(file) 27 28 #9:1にデータを分割 29 count_hyozyun = 1 30 count_hougen = 1 31 rows = len(df.axes[0]) 32 count += rows 33 sample_num = rows*0.9 34 data_hyozyun = df["標準語テキスト"] 35 36 #標準語テキストの処理 37 for i in data_hyozyun: 38 #ここが質問の分からないところです(該当箇所) 39 for j in i: 40 if j == "ー": 41 if prev in "かがさざただなはばぱまやら": 42 j = "あ" 43 if prev in "きぎしじちぢにひびみり": 44 j = "い" 45 if prev in "くぐすずつづぬふぶむるゆゅ": 46 j = "う" 47 if prev in "けげせぜてでねへべぺめれ": 48 j = "え" 49 if prev in "こごそぞとどのほぼぽもよろょ": 50 j = "お" 51 print(j, end="") 52 prev = j 53 data = prev 54 print(data) 55 56 #ひらがな化、[]、〔〕の削除 57 data = re.sub("[[あ-ゟ]]", "", str(i)) 58 # data = re.sub("{笑}", "", data) 59 data = re.sub("〔.+?〕", "", data) 60 #漢字〜ひらがなに変換 61 # オブジェクトをインスタンス化 62 kakasi_1 = kakasi() 63 # モードの設定:J(漢字) ~ H(ひらがな) 64 kakasi_1.setMode('J', 'H') 65 conv = kakasi_1.getConverter() 66 67 # 変換して出力 68 if count_hyozyun < sample_num: 69 hyouzyun_train.append( conv.do(data)) 70 else: 71 hyouzyun_val.append( conv.do(data)) 72 count_hyozyun += 1 73 74 75#標準語(train)の作成 76with open("datasets/fix_data/hyouzyun_train_2.txt", "w") as hyouzyun: 77 for content in hyouzyun_train: 78 hyouzyun.write(content + "\n") 79 80#標準語(test)の作成 81with open("datasets/fix_data/hyouzyun_val_2.txt", "w") as hyouzyun: 82 for content in hyouzyun_val: 83 hyouzyun.write(content + "\n") 84 85
試したこと
一応、その他のひらがな化や[ ]の削除などの処理はしっかりと出来ていますが、該当箇所を追加したところ上手く処理が出来ません。
補足情報(FW/ツールのバージョンなど)
●python3.8.2
回答1件
あなたの回答
tips
プレビュー