おはようございます。csvファイルの中に日本語が混ざっていたらその部分を消す、というプログラムを書きたいです。

ですが、「セルの中に日本語が混じっているかどうか」の判定に手間取っています。
日本語は[^\x01-\x7E]で表すことができるというところまでは調べたのですが、
「もしこのセルに日本語があれば消す」という判定文が書けません。
re.subを使えば正規表現を使って置換ができるというのですが、セルをうまく指定できないのです。

よろしくお願いしますorz
csv ファイルの中身

user_id,comment
1,Hi
2,World
3,Hello
5,こんにちは
4,Python
2,きょう
1,あゆむ
3,Sato
5,Flower
4,class
3,find

import csv
import re # Regular expression
import pandas as pd
csv_ori = pd.read_csv('original.csv', sep=",")
# csv_ori = open('original.csv', 'r')
# csvo = csv_ori['comment'][1]
# print(csvo)

for i, index in csv_ori.iterrows():
    print(i)
    re_csv = re.sub('[^\x01-\x7E]', "", csv_ori['comment'][index])

# コードここまで。あとはコメント。
"""
置換後の文字列 = re.sub(正規表現, 置換する文字列, 置換される文字列 [, 置換回数])
for index in csv_ori.iterrows():
    ori = csv_ori['comment'][index]
    # if csv_ori['comment'][index] == '[^\x01-\x7E]'
    # ori = re.sub('[^\x01-\x7E]', '', ori)
    print(ori)

for i, series in data_frame.iterrows():
    # DataFrameオブジェクトのiterrows()メソッドでは、行番号とSeriesがリストとして返ってくる。
    # 変数を2つ用意すると、それぞれに格納される。
    print(i)
    print(series['columnA'], series['columnB'])
    
for i, index in csv_ori.iterrows():
    print(i)
    print(index['user_id'], index['comment'])
    

"""

できましたー(≧∇≦)b

日本語は[^\x01-\x7E]ではなく[亜-熙ぁ-んァ-ヶ]でした！ opyon様、ありがとうございます。

import csv
import re # Regular expression
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

csv_ori = pd.read_csv('original.csv', sep=",")
ja_l = []
for i, index in csv_ori.iterrows():
    print('i: ' + str(i))
    com = csv_ori.iloc[i]["comment"]
    ja = re.sub('[亜-熙ぁ-んァ-ヶ]', 'None', com)
    print(ja)
    ja_l.append(ja)

print(ja_l)

for index, row in csv_ori.iterrows():
    csv_ori['comment'][index] = ja_l[index]

csv_ori.to_csv('original.csv', index=False)

出力結果
Terminal

i: 0
Hi
...
...(略)
i: 10
find
['Hi', 'World', 'Hello', 'NoneNoneNoneNoneNone', 'Python', 'NoneNoneNone', 'NoneNoneNone', 'Sato', 'Flower', 'class', 'find']

CSVファイル

user_id,comment
1,Hi
2,World
3,Hello
5,NoneNoneNoneNoneNone
4,Python
2,NoneNoneNone
1,NoneNoneNone
3,Sato
5,Flower
4,class
3,find

日本語を消したいのはなぜ?

tatsu99さまの質問より。

現在先生(Christian Mayer)についてもらってPythonを学習
Pythonの基礎を学ぶことと並行して、実践演習課題もある。
実践演習課題としてフリーランス案件を選んでコードを書く、というものがある。
私がNeed a Python program to do some data cleaning to a csv fileを選択、そして日本語を抽出する正規表現でコケている。
ちなみにcsvファイルは自分でそれっぽく作ってこのファイルを対象にしてコードを書く。

実践演習でいつも時間がアイスクリーム並みに溶けていきます^^;

tatsu99

2018/10/14 03:00

そもそも、なぜ、「csvファイルの中に日本語が混ざっていたらその部分を消す」ということをなさりたいのでしょうか。

tatsu99

2018/10/14 03:02

あと、CSVファイルの文字コードはなんでしょうか。utf8なら、問題なく読めるはずでが、それ以外ならencodingの指定をして、read_csvをする必要があります。

Yukiya025

2018/10/14 04:13

tatsu99さま、こんにちは! 質問ありがとうございます(≧▽≦) > csvファイルの中に日本語が混ざっていたらその部分を消す今先生についてPythonを学んでいます。Pythonの基礎を学ぶことと並行して、実践演習として[freelancer.com](https://www.freelancer.com/archives/python/)からプロジェクトを選んでコードを書くという課題が出ているので、[Need a Python program to do some data cleaning to a csv file](https://www.freelancer.com/projects/python/Need-Python-program-some-data/?w=f)を選びました。 csvファイルは自分でそれっぽく作りました。このCSVファイルをデータクリーニングして、データ分析に耐えうるようにするコードを書こうとしています^^/

Yukiya025

2018/10/14 04:14

csvファイルはおっしゃるとおりutf8です^^/

行動規範の内容に同意します

回答2件

なるほど、そのような事情でしたか。納得しました。１点老婆心ながら、コメントさせていただきます。
本件の要件は、日本語の文字を消したいということですので、それであれば問題ないのですが、
Need a Python program to do some data cleaning to a csv file　で要求されていることは、
「英語以外の文字を全て削除したい」ということではないでしょうか。そうであれば、日本語以外の文字も
考慮する必要があります。例えば、ロシア文字（キリル文字）のийは、あなたの修正後のスクリプトを用いても残ってしまいます。例えば、以下の様なCSVファイルです。
user_id,comment
1,Hi
2,World
3,Hello
5,こんにちは
4,Python
2,きょう
1,あゆむ
3,These ий are Russian characters.

この場合、最後の行のийが残ります。
もし、これも含めて、消し去りたいなら、
ja = re.sub('[亜-熙ぁ-んァ-ヶ]', 'None', com)
を
ja = com.encode("ascii","ignore").decode("ascii")
に変えてください。
尚、
ja = com.encode("ascii","replace").decode("ascii")
とすると、日本語、ロシア語の文字は?に変換されます。

投稿2018/10/14 06:17

tatsu99

総合スコア5438

Yukiya025

2018/10/14 07:34

tatsu99様 > 英語以外の文字を全て削除したいはい、そのとおりですf^^; とはいえ、英語以外というくくりで取得する方法がわからなかったので、とりあえず日本語のみを設定してました。ありがとうございます(≧∇≦) 全部やってみました! すごいですね(ﾟдﾟ) はてなへの変換が気に入りました(*^^*)

Yukiya025

2018/10/14 07:42

GitHubに上げましたー! https://github.com/Yukiya025/csvCleaning

行動規範の内容に同意します

ベストアンサー

##追記
なるべく質問コードの変数名を使ったサンプルコードです。
あとはご自分でアレンジしてみてください。

Python3
1import csv
2import re # Regular expression
3import pandas as pd
4path_in = r'C:\workspace\Python\memo\test\'
5file_in = r'test.csv'
6f_in = path_in + file_in
7reg = re.compile('[亜-熙ぁ-んァ-ヶ]+')
8
9csv_ori = pd.read_csv(f_in, sep=",")
10
11dst = []
12for index in csv_ori.iterrows():
13    print(index[1][1])
14    re_csv = re.sub(reg, '', index[1][1])
15    print(re_csv)
16    dst.append([index[1][0],re_csv])
17print(dst)

Hi
Hi
World
World
Hello
Hello
こんにちは

Python
Python
きょう

あゆむ

Sato
Sato
Flower
Flower
class
class
find
find
[[1, 'Hi'], [2, 'World'], [3, 'Hello'], [5, ''], [4, 'Python'], [2, ''], [1, ''], [3, 'Sato'], [5, 'Flower'], [4, 'class'], [3, 'find']]

正規表現　日本語　で検索したら最初にヒットしましたのでご参考まで。

正規表現で日本語を抽出する

[亜-熙ぁ-んァ-ヶ]+

同じデータから日本語を含むデータ以外をリストにするサンプルコード

Python3
1import re
2path_in = r'C:\workspace\Python\memo\test\'
3file_in = r'test.csv'
4reg = re.compile('[亜-熙ぁ-んァ-ヶ]+')
5
6with open(path_in+file_in, "r",encoding="utf-8") as open_file:
7    src = [line.split(',') for line in (open_file.read()).split("\n")]
8print(src)
9
10dst = []
11for line in src:
12    m = re.search(reg,line[1])
13    if not m:
14        dst.append(line)
15print(dst)
16

[['user_id', 'comment'], ['1', 'Hi'], ['2', 'World'], ['3', 'Hello'], ['5', 'こんにちは'], ['4', 'Python'], ['2', 'きょう'], ['1', 'あゆむ'], ['3', 'Sato'], ['5', 'Flower'], ['4', 'class'], ['3', 'find']]
[['user_id', 'comment'], ['1', 'Hi'], ['2', 'World'], ['3', 'Hello'], ['4', 'Python'], ['3', 'Sato'], ['5', 'Flower'], ['4', 'class'], ['3', 'find']]

投稿2018/10/14 01:54

編集2018/10/14 02:45