csvファイルの形態素解析（分かち書き）

ディレクトリ内にあるcsvファイルを形態素解析で分かち書きを行いたいです。
その際、形態素解析を行うcsvファイルに追記する形で保存したいのですが、方法を教えていただけないでしょうか。

csvの中身は1列目に文字列がならんでいます。
イメージとしては2列目に1列目の分かち書き（,で区切る）を入力できればと思います。

前提・実現したいこと

分かち書きを行うことはできるのですが、同一csvへの追記、保存の方法を教えていただきたいです。

該当のソースコード

import os
import glob
import csv
from janome.tokenizer import Tokenizer

t = Tokenizer(wakati=True)
path = "./input"
file_list = glob.glob(path + '/' + '*.csv')

for filename in file_list:
  with open(filename,encoding="cp932",errors="ignore") as f:
    reader=csv.reader(f)
    for columns in reader:
     for i in t.tokenize(columns[0]):
      print(i)
     print()
```ここに言語名を入力
ソースコード

試したこと

ここに問題に対して試したことを記載してください。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

yuokada

2019/06/03 16:34

ソースコードのインデントが壊れているのでまずはそこを修正したほうが回答が集まりますよ。

退会済みユーザー

2019/06/04 07:36

ご指摘ありがとうございます。インデントを修正しました。

行動規範の内容に同意します

回答1件

ベストアンサー

こんな感じじゃないですかね。

入力ファイル

csv
1text
2私はここにいる

出力ファイル

csv
1text,result
2私はここにいる,私|は|ここ|に|いる

import csv
import glob

from janome.tokenizer import Tokenizer

t = Tokenizer()

def parser(text):
    result = t.tokenize(text)
    return "|".join(result)


t = Tokenizer(wakati=True)
path = "./input"
file_list = glob.glob(path + '/' + '*.csv')

for filename in file_list:
    with open(filename, "r+", encoding="cp932", errors="ignore") as f:
        reader = csv.DictReader(f, delimiter=',')

        texts = [dict(text=c["text"], result=parser(c["text"]) ) for c in reader]

        f.seek(0)

        fieldnames = ['text', 'result']
        writer = csv.DictWriter(f, fieldnames=fieldnames)

        writer.writeheader()
        for row in texts:
            writer.writerow(row)

イメージとしては2列目に1列目の分かち書き（,で区切る）を入力できればと思います。

分かち書きの結果を,で区切るとcsvとして再利用するのに不都合があると思いましたので|で区切るようにしてます。

また、読み込んだファイルに直接書き戻すのはその後の利用を考えるとあまり良くないと考えます。
別のファイルに出力されることを検討してみてください。

追記: 別ファイルに出力する場合のスクリプトです。

python
1import csv
2import glob
3
4from janome.tokenizer import Tokenizer
5
6t = Tokenizer()
7
8def parser(text):
9    result = t.tokenize(text)
10    return "|".join(result)
11
12
13t = Tokenizer(wakati=True)
14path = "./input"
15file_list = glob.glob(path + '/' + '*.csv')
16
17for filename in file_list:
18    with open(filename, "r+", encoding="utf-8", errors="ignore") as f:
19        reader = csv.DictReader(f, delimiter=',')
20
21        texts = [dict(text=c["text"], result=parser(c["text"]) ) for c in reader]
22
23output = 'output.csv'
24with open(output, 'w') as wf:
25        fieldnames = ['text', 'result']
26        writer = csv.DictWriter(wf, fieldnames=fieldnames)
27
28        writer.writeheader()
29        for row in texts:
30            writer.writerow(row)

投稿2019/06/04 15:00

編集2019/06/05 15:22

yuokada

総合スコア550

退会済みユーザー

2019/06/05 01:23

ご回答ありがとうございます。とりあえず、同ファイルで処理することができましたが、たしかに直接書き戻すのはよくなさそうですね。元のデータはそのままで、別ディレクトリに別ファイルで保存しようと思うのですが、方法を教えていただけないでしょうか。 outputを指定してやってみてはいるものの、なかなかうまくいきません。