python一行ずつファイルを読み込みたい

やりたいこと

pythonでファイルを一行ずつ読み込み処理をしたいです。そこでreadlinesを使おうと思うのですがAttributeError: 'list' object has no attribute 'strip'というエラーが出てしまいます。
read()の時は読み込めます。

ソースコード

python
1import json
2import codecs
3from janome.tokenizer import Tokenizer
4
5t=Tokenizer()
6page = codecs.open('page.jl','r','utf-8')
7text = page.readlines()
8result = open('result.txt','w')
9tokens = t.tokenize(text)
10for token in tokens:
11	print(token)
12	result.write(str(token))
13	result.write('\n')
14page.close()

エラーメッセージ

>python word.py
Traceback (most recent call last):
  File "word.py", line 10, in <module>
    tokens = t.tokenize(text)
  File "C:\Users\ogawa\Anaconda3\envs\abst\lib\site-packages\janome\tokenizer.py", line 204, in tokenize
    return list(self.__tokenize_stream(text, wakati, baseform_unk, ''))
  File "C:\Users\ogawa\Anaconda3\envs\abst\lib\site-packages\janome\tokenizer.py", line 207, in __tokenize_stream
    text = text.strip()
AttributeError: 'list' object has no attribute 'strip'

追記

text = page.readlines()のあとにprint(text)をうつと読み込むファイルpage.jlの中身がそのまま出てきます。page.jlのなかみは日本語のニュースサイトの記事本文です
print(type(text))で型を調べるとリスト型でした
エラーについてはtokenizeにリスト型を入れたからだとわかりました。
リストの中身をひとつづつtokenizeに渡したいです。

行動規範の内容に同意します

回答4件

python
1import json
2import codecs
3from janome.tokenizer import Tokenizer
4
5t=Tokenizer()
6page = codecs.open('page.jl','r','utf-8')
7result = open('result.txt','w')
8text = page.readlines()
9for line in text:
10    tokens = t.tokenize(line)
11    for token in tokens:
12        print(token)
13        result.write(str(token))
14        result.write('\n')
15
16page.close()
17result.close()

多分こうだと思います。

page.readlines()はリストを返していると思うので。

投稿2019/07/29 09:42

編集2019/07/29 20:43

退会済みユーザー

総合スコア0

abokadoishii

2019/07/29 13:04

回答ありがとうございます。それでも同じエラーが出てしまいます

y_waiwai

2019/07/29 13:40

ああ、 tokens = t.tokenize(text) は、 tokens = t.tokenize(line) では

nerianighthawk

2019/07/29 13:42

tokens = t.tokenize(text) の行のtokenizeの引数が結局textのままになってしまっています。このコードであればlineにする必要があるかと思います。

退会済みユーザー

2019/07/29 20:43

ほんとですね。直しておきます

行動規範の内容に同意します

ベストアンサー

readlinesは問題なくうまく行っていると思います。
tokenize(text)がうまく行っていません。
tokenize関数の中でtextに対してstripと言う関数を呼び出そうとしてエラーが出ています。
したがって、readlinesで取ってきたものではtokenizeはできません。
普通にfor文で回すのがいいのではないでしょうか。