質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

470閲覧

おかーさん→おかあさんのような長音の処理をするプログラムを作りたい

O_Sho3

総合スコア4

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2022/10/02 04:23

前提

機械学習をする前のデータの前処理を行なっています。
ひらがな化や[ ]の削除などの処理を行なっていますが、その中で(例)おかーさん→おかあさん、おとーさん→おとおさんなどの処理を追加した時にエラーが発生しました。

詳細
現在、日本語の方言から標準語への機械学習を行なっています。
その為にデータの前処理を行なっていますが、プログラミングが難しく戸惑っています。コーパスとしては国立国語研究所の「全国方言談話データベース ふるさと言葉集成」を用いています(csvファイル)。プログラムは標準語の列だけを抜き出して処理をしています。

実現したいこと

ここに実現したいことを箇条書きで書いてください。
●長音の処理が実行されるプログラムを作りたい
(例)おかーさん→おかあさん、おとーさん→おとおさん

該当のソースコード

python

1#coding: UTF-8 2import re 3import pandas as pd 4from pathlib import Path 5import jaconv 6from pykakasi import kakasi 7 8 9hougen_train = [] 10hougen_val = [] 11hyouzyun_train = [] 12hyouzyun_val = [] 13 14count = 0 15table = str.maketrans({ 16 '゜': '゛', 17 }) 18 19#パスの指定 20p = Path('datasets/hougen_data') 21#*csvと言う名前のファイルを1つずつ読みとる 22file_name = '01_b_099_utf8.csv' 23csv_files = p.glob(file_name) 24#csvファイルを1つずつ処理 25for file in csv_files: 26 df = pd.read_csv(file) 27 28 #9:1にデータを分割 29 count_hyozyun = 1 30 count_hougen = 1 31 rows = len(df.axes[0]) 32 count += rows 33 sample_num = rows*0.9 34 data_hyozyun = df["標準語テキスト"] 35 36 #標準語テキストの処理 37 for i in data_hyozyun: 38 #ここが質問の分からないところです(該当箇所) 39 for j in i: 40 if j == "ー": 41 if prev in "かがさざただなはばぱまやら": 42 j = "あ" 43 if prev in "きぎしじちぢにひびみり": 44 j = "い" 45 if prev in "くぐすずつづぬふぶむるゆゅ": 46 j = "う" 47 if prev in "けげせぜてでねへべぺめれ": 48 j = "え" 49 if prev in "こごそぞとどのほぼぽもよろょ": 50 j = "お" 51 print(j, end="") 52 prev = j 53 data = prev 54 print(data) 55 56 #ひらがな化、[]、〔〕の削除 57 data = re.sub("[[あ-ゟ]]", "", str(i)) 58 # data = re.sub("{笑}", "", data) 59 data = re.sub("〔.+?〕", "", data) 60 #漢字〜ひらがなに変換 61 # オブジェクトをインスタンス化 62 kakasi_1 = kakasi() 63 # モードの設定:J(漢字) ~ H(ひらがな) 64 kakasi_1.setMode('J', 'H') 65 conv = kakasi_1.getConverter() 66 67 # 変換して出力 68 if count_hyozyun < sample_num: 69 hyouzyun_train.append( conv.do(data)) 70 else: 71 hyouzyun_val.append( conv.do(data)) 72 count_hyozyun += 1 73 74 75#標準語(train)の作成 76with open("datasets/fix_data/hyouzyun_train_2.txt", "w") as hyouzyun: 77 for content in hyouzyun_train: 78 hyouzyun.write(content + "\n") 79 80#標準語(test)の作成 81with open("datasets/fix_data/hyouzyun_val_2.txt", "w") as hyouzyun: 82 for content in hyouzyun_val: 83 hyouzyun.write(content + "\n") 84 85

試したこと

一応、その他のひらがな化や[ ]の削除などの処理はしっかりと出来ていますが、該当箇所を追加したところ上手く処理が出来ません。

補足情報(FW/ツールのバージョンなど)

●python3.8.2

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2022/10/02 04:34

> 該当箇所を追加したところ上手く処理が出来ません。 「上手く処理が出来ません」とは具体的にはどうなるべきものがどうなっているのでしょうか?
O_Sho3

2022/10/02 05:20

ご質問ありがとうございます。 エラーは出ずにただ単に「ー」の処理以外の処理はしっかりと出来ていて何も変化が無いと言う事です。
melian

2022/10/02 05:50

例えば入力が「おかーさん」の場合、 data = prev の処理で data の内容は最終的に「ん」になっているかと思うのですが、それは問題ないでしょうか?
TakaiY

2022/10/02 06:28

質問者さん、回答はここに書くのではなく、質問を編集してください。
meg_

2022/10/02 06:41

一部で良いので「01_b_099_utf8.csv」のデータを示していただけませんか?
guest

回答1

0

ベストアンサー

文字列はイミュータブルなデータなので、配列などと異なりfor文で1文字ずつ取り出してそれを変更しても元の文字列を変えることはできません。
以下のコードでは、ABXDEにはなりません。

python

1s = 'ABCDE' 2for i in s: 3 if i == 'C': 4 i = 'X' 5print(s) 6# -> ABCDE

変えるには新しい文字列を作る必要があるのですが、元の方式に近い方法だと、配列に入れておいて後で文字列に直す方法があります。

python

1s = 'ABCDE' 2new_s = [] 3for i in s: 4 if i == 'C': 5 new_s.append('X') 6 else: 7 new_s.append(i) 8new_s = "".join(new_s) 9print(new_s) 10# -> ABXDE

他にもいくつかやりかたあります。

投稿2022/10/02 06:42

TakaiY

総合スコア12779

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問