テキストファイルから読み込みたい

#解決・実現したいこと
青空文庫の「吾輩は猫である」の形態素解析を行うプログラムを作っているのですが、現在はデータをURLから読み込んでいますが、これをテキストファイルから読み込むようにしたいのですがどうすればいいですか？

#該当のソースコード

python
1import urllib.request
2
3from janome.analyzer import Analyzer
4from janome.charfilter import *
5from janome.tokenizer import Tokenizer
6
7
8class MainTextCharFilter(CharFilter):
9
10    def __init__(self, start, end):
11        self.start = start
12        self.end = end
13
14    def apply(self, text):
15        return text.split(self.start)[1].split(self.end)[0]
16
17# 夏目漱石
18# 吾輩は猫である
19url = 'http://www.aozora.gr.jp/cards/000148/files/789_14547.html'
20
21html = ''
22
23with urllib.request.urlopen(url) as response:
24    html = response.read().decode('shift_jis')
25
26
27char_filters = [UnicodeNormalizeCharFilter(), 
28                MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 
29                RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 
30                RegexReplaceCharFilter('<.*?>', '')] 
31
32tokenizer = Tokenizer()
33
34analyzer = Analyzer(char_filters, tokenizer)
35
36for token in analyzer.analyze(html):
37    print(token)
38

#実行結果の一部

python
1吾輩	名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
2は	助詞,係助詞,*,*,*,*,は,ハ,ワ
3猫	名詞,一般,*,*,*,*,猫,ネコ,ネコ
4で	助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
5ある	助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
6。	記号,句点,*,*,*,*,。,。,。
7名前	名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
8は	助詞,係助詞,*,*,*,*,は,ハ,ワ
9まだ	副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ
10無い	形容詞,自立,*,*,形容詞・アウオ段,基本形,無い,ナイ,ナイ
11。	記号,句点,*,*,*,*,。,。,。

#ソースコードに読み込むファイルについて（ファイル名:wagahai.txt）
上のプログラムの変数urlに代入されているURLの文章を全て選択してメモ帳にコピペしたものを使います。

#試したこと
以下のように書き換えてみましたが、エラーが出ました。

python
1import urllib.request
2
3from janome.analyzer import Analyzer
4from janome.charfilter import *
5from janome.tokenizer import Tokenizer
6
7
8class MainTextCharFilter(CharFilter):
9
10    def __init__(self, start, end):
11        self.start = start
12        self.end = end
13
14    def apply(self, text):
15        return text.split(self.start)[1].split(self.end)[0]
16
17# 夏目漱石
18# 吾輩は猫である
19
20path='wagahai.txt'
21f=open(path)
22
23html = f.read().decode('shift_jis')
24
25char_filters = [UnicodeNormalizeCharFilter(), 
26                MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 
27                RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 
28                RegexReplaceCharFilter('<.*?>', '')] 
29
30tokenizer = Tokenizer()
31
32analyzer = Analyzer(char_filters, tokenizer)
33
34for token in analyzer.analyze(html):
35    print(token)
36
37f.close
38

#エラーメッセージ

python
1Traceback (most recent call last):
2  File "ディレクトリ名", line 23, in <module>
3    html = f.read().decode('shift_jis')
4AttributeError: 'str' object has no attribute 'decode'

行動規範の内容に同意します

回答1件

ベストアンサー

readした時点でテキストとして読み込まれるので、decodeしなくて良いのです。
必要ならばopenする際にキーワード引数で指定します。

次のように組めば後々楽です。

Python
1if ローカルにファイルが有る:
2    html = ローカルから読み取る
3else:
4    html = リクエストして受け取る
5    ローカルに保存

ファイル名もいちいち決めるのは面倒なので、URLから適当に生成してやった方が良いです。

投稿2019/07/08 22:28

LouiS0616

総合スコア35660

退会済みユーザー

2019/07/08 23:32

ご回答ありがとうございます。ちなみに今回テキストファイルから読み込むようにした理由は、前回の質問（https://teratail.com/questions/198720）に、「とりあえず、毎回ダウンロードするのをやめてローカルに保存したテキストファイルから読み込むようにする。」という回答があったからです。ソースコードは前回と若干違いますが、やり方は同じだと思うのでソースコードを短くしました。

LouiS0616

2019/07/08 23:43

初回だけリクエストしてあとはローカルに置いておいた方が良いです。これは『毎回ダウンロードするのをやめてローカルに保存したテキストファイルから読み込むようにする』という方針と何ら矛盾ありません。あるいはテキストをダウンロードするだけのコードを別に立てるのもアリでしょう。Don't Repeat Yourself.

行動規範の内容に同意します