janomeでcsvを形態素解析したい

###前提・実現したいこと
まず、janomeの簡略辞書を作り、
その後、csvのnameの部分を形態素解析したいと考えています。
csvと簡略辞書の中身は以下のようになっています。
【csv(food.csv)】
name,price1,price2
トマト袋スタンドポリ,398円,429円
ミニトマト 1個,158円,170円
トマト袋無選別 500g,398円,429円
︙

【簡略辞書(userdic.csv)】
トマト,カスタム名詞,トマト
ルネッサンストマト,カスタム名詞,ルネッサンストマト
ミニトマト,カスタム名詞,ミニトマト
︙

tokenize() メソッドに解析したい文字列以外をいれたいとき、どのようなコードを書けばよいのか
わかりません。
調べても目的と合致するページを見つけることができないので、皆さんに教えていただければ幸いです。

###該当のソースコード

python
1import csv
2from janome.tokenizer import Tokenizer
3t = Tokenizer("userdic.csv", udic_type="simpledic", udic_enc="utf8")
4
5with open('food.csv', 'rt') as f:
6    reader = csv.reader(f)
7for i in t.tokenize(u'reader'):
8    print(i)

上記のコードを実行してもreaderが形態素解析されます。

行動規範の内容に同意します

回答1件

ベストアンサー

解析したいのは food.csv の name 列ということですよね。

その場合、CSVを読み込んで name 列の文字列を解析にかければよろしいのではないかと思われます。

food.csv, userdic.csv ともに文字コードはUTF-8として Python 3.5.1 になります。

コード

python
1# -*- encoding: utf-8 -*-
2import csv
3from janome.tokenizer import Tokenizer
4t = Tokenizer("userdic.csv", udic_type="simpledic", udic_enc="utf8")
5
6with open('food.csv', encoding='utf-8') as f:
7    reader = csv.reader(f)
8    next(reader)
9    for columns in reader:
10        for i in t.tokenize(columns[0]):
11            print(i)
12        print()

CSV を読み込んで1行目のヘッダー(name,price1,price2)は不要と思われるのでnext(reader)で次の行に進めます。

python
1# 文字コードUTF-8のCSVを読み込む部分
2with open('food.csv', encoding='utf-8') as f:
3    reader = csv.reader(f)
4    next(reader)

読み込んだCSVの最初の列が name 列になるので columns[0] を解析にかけます。

python
1# csvから1行ずつ読み込む部分
2    for columns in reader:
3        for i in t.tokenize(columns[0]):

結果

トマト  カスタム名詞,*,*,*,*,*,トマト,トマト,トマト
        記号,空白,*,*,*,*,*,*,*
袋      名詞,一般,*,*,*,*,袋,フクロ,フクロ
        記号,空白,*,*,*,*,*,*,*
スタンド        名詞,一般,*,*,*,*,スタンド,スタンド,スタンド
ポリ    名詞,一般,*,*,*,*,ポリ,ポリ,ポリ

ミニトマト      カスタム名詞,*,*,*,*,*,ミニトマト,ミニトマト,ミニトマト
        記号,空白,*,*,*,*,*,*,*
1       名詞,数,*,*,*,*,*,*,*
個      名詞,接尾,助数詞,*,*,*,個,コ,コ

トマト  カスタム名詞,*,*,*,*,*,トマト,トマト,トマト
袋      名詞,一般,*,*,*,*,袋,フクロ,フクロ
        記号,空白,*,*,*,*,*,*,*
無      接頭詞,名詞接続,*,*,*,*,無,ム,ム
選別    名詞,サ変接続,*,*,*,*,選別,センベツ,センベツ
        記号,空白,*,*,*,*,*,*,*
500     名詞,数,*,*,*,*,*,*,*
g       名詞,固有名詞,組織,*,*,*,*,*,*

投稿2016/10/26 01:52