Pythonの形態素解析でAttributeErrorが発生する

前提・実現したいこと

Pythonでjanomeを使って読み込んだCSVファイルの内容を形態素解析をしたいのですが、
「for token in tokenizer.tokenize(sentence):」のところで、AttributeErrorが発生してしまいます。
CSVファイルは３行１列に日本語のテキストが入っています。
よろしくお願いいたします。

発生している問題・エラーメッセージ

AttributeError: 'list' object has no attribute 'strip'

該当のソースコード

python
1from janome.tokenizer import Tokenizer
2import csv
3
4tokenizer = Tokenizer()
5
6with open('keitaisokaiseki_sentence.csv') as f:
7    sentences = csv.reader(f)
8
9    for sentence in sentences:
10        print("===========================================")
11        print(sentence)
12    
13        for token in tokenizer.tokenize(sentence):
14            print("    " + str(token))

試したこと

tokenizeは引数に文字列を渡す必要があるということでしたので、forでループさせてtokenizeに渡す用にしたのですがエラーが発生してしまいます。

補足情報（FW/ツールのバージョンなど）

PC:macbook

行動規範の内容に同意します

回答1件

ベストアンサー

csv.readerでは、ファイルの各行の内容が「文字列のリスト」として返されます。
あなたのプログラムでは、「文字列のリスト」をそのままtokenizeに渡しているので、そのようなエラーが発生します。

CSVファイルは３行１列に日本語のテキストが入っています。

という記述が正しいのであれば、1行にはひとつのテキストしか入っていないので(それでCSVと言えるの?)、プログラム中のprint(sentence)とtokenizer.tokenize(sentence)を、それぞれprint(sentence[0])とtokenizer.tokenize(sentence[0])とすれば動きます。

もし、行と列を混同していた場合は、1行に3つのテキストが含まれるので、それぞれを取り出してからtokenizeに渡す必要があります。

投稿2021/08/14 15:22

Daregada

総合スコア11990

syasai

2021/08/14 15:57

ご説明ありがとうございます。ご指摘いただいた２点修正すると問題なく動作しました。すみません、（行、列）が（1,1),(2,1),(3,1)のセルに日本語のテキスト入っていると言いたかったです。 csv.readerの場合は、この場合に1つのリストで["１行目のテキスト", "２行目のテキスト", "３行目のテキスト"]が返されると思っていたのですが、そうではなく["１行目のテキスト"]["２行目のテキスト"]["３行目のテキスト"]の3つのリストが返されるためエラーとなったと理解しましたが、その認識で間違い無いでしょうか？よろしくお願いします。

Daregada

2021/08/14 16:11

その認識で合っています。なお、その構造はCSVではないので、csv.readerを使わずに、f.readlinesで全行読み込み、forを回せば1行ずつの文字列を直接取り出せます。 for sentence in f.readlines(): print("===========================================") for token in tokenizer.tokenize(sentence): print(" " + str(token))

syasai

2021/08/15 00:33

ありがとうございます。非常に勉強になりました。f.readlinesも使ってみたいと思います。

行動規範の内容に同意します