質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

934閲覧

[python3]TypeError: expected string or bytes-like object

Yukiya025

総合スコア86

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/10/13 22:56

編集2018/10/14 04:35

おはようございます。csvファイルの中に日本語が混ざっていたらその部分を消す、というプログラムを書きたいです。

ですが、「セルの中に日本語が混じっているかどうか」の判定に手間取っています。
日本語は[^\x01-\x7E]で表すことができるというところまでは調べたのですが、
「もしこのセルに日本語があれば消す」という判定文が書けません。
re.subを使えば正規表現を使って置換ができるというのですが、セルをうまく指定できないのです。

よろしくお願いしますorz
csv ファイルの中身

user_id,comment 1,Hi 2,World 3,Hello 5,こんにちは 4,Python 2,きょう 1,あゆむ 3,Sato 5,Flower 4,class 3,find
import csv import re # Regular expression import pandas as pd csv_ori = pd.read_csv('original.csv', sep=",") # csv_ori = open('original.csv', 'r') # csvo = csv_ori['comment'][1] # print(csvo) for i, index in csv_ori.iterrows(): print(i) re_csv = re.sub('[^\x01-\x7E]', "", csv_ori['comment'][index]) # コードここまで。あとはコメント。 """ 置換後の文字列 = re.sub(正規表現, 置換する文字列, 置換される文字列 [, 置換回数]) for index in csv_ori.iterrows(): ori = csv_ori['comment'][index] # if csv_ori['comment'][index] == '[^\x01-\x7E]' # ori = re.sub('[^\x01-\x7E]', '', ori) print(ori) for i, series in data_frame.iterrows(): # DataFrameオブジェクトのiterrows()メソッドでは、行番号とSeriesがリストとして返ってくる。 # 変数を2つ用意すると、それぞれに格納される。 print(i) print(series['columnA'], series['columnB']) for i, index in csv_ori.iterrows(): print(i) print(index['user_id'], index['comment']) """

できましたー(≧∇≦)b

日本語は[^\x01-\x7E]ではなく[亜-熙ぁ-んァ-ヶ]でした! opyon様、ありがとうございます。

import csv import re # Regular expression import pandas as pd import warnings warnings.filterwarnings('ignore') csv_ori = pd.read_csv('original.csv', sep=",") ja_l = [] for i, index in csv_ori.iterrows(): print('i: ' + str(i)) com = csv_ori.iloc[i]["comment"] ja = re.sub('[亜-熙ぁ-んァ-ヶ]', 'None', com) print(ja) ja_l.append(ja) print(ja_l) for index, row in csv_ori.iterrows(): csv_ori['comment'][index] = ja_l[index] csv_ori.to_csv('original.csv', index=False)

出力結果
Terminal

i: 0 Hi ... ...(略) i: 10 find ['Hi', 'World', 'Hello', 'NoneNoneNoneNoneNone', 'Python', 'NoneNoneNone', 'NoneNoneNone', 'Sato', 'Flower', 'class', 'find']

CSVファイル

user_id,comment 1,Hi 2,World 3,Hello 5,NoneNoneNoneNoneNone 4,Python 2,NoneNoneNone 1,NoneNoneNone 3,Sato 5,Flower 4,class 3,find

日本語を消したいのはなぜ?

tatsu99さまの質問より。

  • 現在先生(Christian Mayer)についてもらってPythonを学習
  • Pythonの基礎を学ぶことと並行して、実践演習課題もある。
  • 実践演習課題としてフリーランス案件を選んでコードを書く、というものがある。
  • 私がNeed a Python program to do some data cleaning to a csv fileを選択、そして日本語を抽出する正規表現でコケている。
  • ちなみにcsvファイルは自分でそれっぽく作ってこのファイルを対象にしてコードを書く。

実践演習でいつも時間がアイスクリーム並みに溶けていきます^^;

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tatsu99

2018/10/14 03:00

そもそも、なぜ、「csvファイルの中に日本語が混ざっていたらその部分を消す」ということをなさりたいのでしょうか。
tatsu99

2018/10/14 03:02

あと、CSVファイルの文字コードはなんでしょうか。utf8なら、問題なく読めるはずでが、それ以外ならencodingの指定をして、read_csvをする必要があります。
Yukiya025

2018/10/14 04:13

tatsu99さま、こんにちは! 質問ありがとうございます(≧▽≦) > csvファイルの中に日本語が混ざっていたらその部分を消す 今先生についてPythonを学んでいます。Pythonの基礎を学ぶことと並行して、実践演習として[freelancer.com](https://www.freelancer.com/archives/python/)からプロジェクトを選んでコードを書くという課題が出ているので、[Need a Python program to do some data cleaning to a csv file](https://www.freelancer.com/projects/python/Need-Python-program-some-data/?w=f)を選びました。 csvファイルは自分でそれっぽく作りました。このCSVファイルをデータクリーニングして、データ分析に耐えうるようにするコードを書こうとしています^^/
Yukiya025

2018/10/14 04:14

csvファイルはおっしゃるとおりutf8です^^/
guest

回答2

0

なるほど、そのような事情でしたか。納得しました。1点老婆心ながら、コメントさせていただきます。
本件の要件は、日本語の文字を消したいということですので、それであれば問題ないのですが、
Need a Python program to do some data cleaning to a csv file で要求されていることは、
「英語以外の文字を全て削除したい」ということではないでしょうか。そうであれば、日本語以外の文字も
考慮する必要があります。例えば、ロシア文字(キリル文字)のийは、あなたの修正後のスクリプトを用いても残ってしまいます。例えば、以下の様なCSVファイルです。
user_id,comment
1,Hi
2,World
3,Hello
5,こんにちは
4,Python
2,きょう
1,あゆむ
3,These ий are Russian characters.

この場合、最後の行のийが残ります。
もし、これも含めて、消し去りたいなら、
ja = re.sub('[亜-熙ぁ-んァ-ヶ]', 'None', com)

ja = com.encode("ascii","ignore").decode("ascii")
に変えてください。
尚、
ja = com.encode("ascii","replace").decode("ascii")
とすると、日本語、ロシア語の文字は?に変換されます。

投稿2018/10/14 06:17

tatsu99

総合スコア5438

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yukiya025

2018/10/14 07:34

tatsu99様 > 英語以外の文字を全て削除したい はい、そのとおりですf^^; とはいえ、英語以外というくくりで取得する方法がわからなかったので、とりあえず日本語のみを設定してました。 ありがとうございます(≧∇≦) 全部やってみました! すごいですね(゚д゚) はてなへの変換が気に入りました(*^^*)
guest

0

ベストアンサー

##追記
なるべく質問コードの変数名を使ったサンプルコードです。
あとはご自分でアレンジしてみてください。

Python3

1import csv 2import re # Regular expression 3import pandas as pd 4path_in = r'C:\workspace\Python\memo\test\' 5file_in = r'test.csv' 6f_in = path_in + file_in 7reg = re.compile('[亜-熙ぁ-んァ-ヶ]+') 8 9csv_ori = pd.read_csv(f_in, sep=",") 10 11dst = [] 12for index in csv_ori.iterrows(): 13 print(index[1][1]) 14 re_csv = re.sub(reg, '', index[1][1]) 15 print(re_csv) 16 dst.append([index[1][0],re_csv]) 17print(dst)
Hi Hi World World Hello Hello こんにちは Python Python きょう あゆむ Sato Sato Flower Flower class class find find [[1, 'Hi'], [2, 'World'], [3, 'Hello'], [5, ''], [4, 'Python'], [2, ''], [1, ''], [3, 'Sato'], [5, 'Flower'], [4, 'class'], [3, 'find']]

正規表現 日本語 で検索したら最初にヒットしましたのでご参考まで。

正規表現で日本語を抽出する

[亜-熙ぁ-んァ-ヶ]+

イメージ説明

同じデータから日本語を含むデータ以外をリストにするサンプルコード

Python3

1import re 2path_in = r'C:\workspace\Python\memo\test\' 3file_in = r'test.csv' 4reg = re.compile('[亜-熙ぁ-んァ-ヶ]+') 5 6with open(path_in+file_in, "r",encoding="utf-8") as open_file: 7 src = [line.split(',') for line in (open_file.read()).split("\n")] 8print(src) 9 10dst = [] 11for line in src: 12 m = re.search(reg,line[1]) 13 if not m: 14 dst.append(line) 15print(dst) 16
[['user_id', 'comment'], ['1', 'Hi'], ['2', 'World'], ['3', 'Hello'], ['5', 'こんにちは'], ['4', 'Python'], ['2', 'きょう'], ['1', 'あゆむ'], ['3', 'Sato'], ['5', 'Flower'], ['4', 'class'], ['3', 'find']] [['user_id', 'comment'], ['1', 'Hi'], ['2', 'World'], ['3', 'Hello'], ['4', 'Python'], ['3', 'Sato'], ['5', 'Flower'], ['4', 'class'], ['3', 'find']]

投稿2018/10/14 01:54

編集2018/10/14 02:45
opyon

総合スコア1009

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問