#解決・実現したいこと
青空文庫の「吾輩は猫である」の形態素解析を行うプログラムを作っているのですが、現在はデータをURLから読み込んでいますが、これをテキストファイルから読み込むようにしたいのですがどうすればいいですか?
#該当のソースコード
python
1import urllib.request 2 3from janome.analyzer import Analyzer 4from janome.charfilter import * 5from janome.tokenizer import Tokenizer 6 7 8class MainTextCharFilter(CharFilter): 9 10 def __init__(self, start, end): 11 self.start = start 12 self.end = end 13 14 def apply(self, text): 15 return text.split(self.start)[1].split(self.end)[0] 16 17# 夏目漱石 18# 吾輩は猫である 19url = 'http://www.aozora.gr.jp/cards/000148/files/789_14547.html' 20 21html = '' 22 23with urllib.request.urlopen(url) as response: 24 html = response.read().decode('shift_jis') 25 26 27char_filters = [UnicodeNormalizeCharFilter(), 28 MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 29 RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 30 RegexReplaceCharFilter('<.*?>', '')] 31 32tokenizer = Tokenizer() 33 34analyzer = Analyzer(char_filters, tokenizer) 35 36for token in analyzer.analyze(html): 37 print(token) 38
#実行結果の一部
python
1吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ 2は 助詞,係助詞,*,*,*,*,は,ハ,ワ 3猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ 4で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ 5ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル 6。 記号,句点,*,*,*,*,。,。,。 7名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ 8は 助詞,係助詞,*,*,*,*,は,ハ,ワ 9まだ 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ 10無い 形容詞,自立,*,*,形容詞・アウオ段,基本形,無い,ナイ,ナイ 11。 記号,句点,*,*,*,*,。,。,。
#ソースコードに読み込むファイルについて(ファイル名:wagahai.txt)
上のプログラムの変数urlに代入されているURLの文章を全て選択してメモ帳にコピペしたものを使います。
#試したこと
以下のように書き換えてみましたが、エラーが出ました。
python
1import urllib.request 2 3from janome.analyzer import Analyzer 4from janome.charfilter import * 5from janome.tokenizer import Tokenizer 6 7 8class MainTextCharFilter(CharFilter): 9 10 def __init__(self, start, end): 11 self.start = start 12 self.end = end 13 14 def apply(self, text): 15 return text.split(self.start)[1].split(self.end)[0] 16 17# 夏目漱石 18# 吾輩は猫である 19 20path='wagahai.txt' 21f=open(path) 22 23html = f.read().decode('shift_jis') 24 25char_filters = [UnicodeNormalizeCharFilter(), 26 MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 27 RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 28 RegexReplaceCharFilter('<.*?>', '')] 29 30tokenizer = Tokenizer() 31 32analyzer = Analyzer(char_filters, tokenizer) 33 34for token in analyzer.analyze(html): 35 print(token) 36 37f.close 38
#エラーメッセージ
python
1Traceback (most recent call last): 2 File "ディレクトリ名", line 23, in <module> 3 html = f.read().decode('shift_jis') 4AttributeError: 'str' object has no attribute 'decode'
,
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2019/07/08 23:32
2019/07/08 23:43