質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

697閲覧

テキストファイルから読み込みたい

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/07/08 22:03

編集2019/07/09 01:38

#解決・実現したいこと
青空文庫の「吾輩は猫である」の形態素解析を行うプログラムを作っているのですが、現在はデータをURLから読み込んでいますが、これをテキストファイルから読み込むようにしたいのですがどうすればいいですか?

#該当のソースコード

python

1import urllib.request 2 3from janome.analyzer import Analyzer 4from janome.charfilter import * 5from janome.tokenizer import Tokenizer 6 7 8class MainTextCharFilter(CharFilter): 9 10 def __init__(self, start, end): 11 self.start = start 12 self.end = end 13 14 def apply(self, text): 15 return text.split(self.start)[1].split(self.end)[0] 16 17# 夏目漱石 18# 吾輩は猫である 19url = 'http://www.aozora.gr.jp/cards/000148/files/789_14547.html' 20 21html = '' 22 23with urllib.request.urlopen(url) as response: 24 html = response.read().decode('shift_jis') 25 26 27char_filters = [UnicodeNormalizeCharFilter(), 28 MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 29 RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 30 RegexReplaceCharFilter('<.*?>', '')] 31 32tokenizer = Tokenizer() 33 34analyzer = Analyzer(char_filters, tokenizer) 35 36for token in analyzer.analyze(html): 37 print(token) 38

#実行結果の一部

python

1吾輩 名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ 2は 助詞,係助詞,*,*,*,*,,,3猫 名詞,一般,*,*,*,*,,ネコ,ネコ 4で 助動詞,*,*,*,特殊・ダ,連用形,,,5ある 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル 6。 記号,句点,*,*,*,*,,,7名前 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ 8は 助詞,係助詞,*,*,*,*,,,9まだ 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ 10無い 形容詞,自立,*,*,形容詞・アウオ段,基本形,無い,ナイ,ナイ 11。 記号,句点,*,*,*,*,,,

#ソースコードに読み込むファイルについて(ファイル名:wagahai.txt)
上のプログラムの変数urlに代入されているURLの文章を全て選択してメモ帳にコピペしたものを使います。

#試したこと
以下のように書き換えてみましたが、エラーが出ました。

python

1import urllib.request 2 3from janome.analyzer import Analyzer 4from janome.charfilter import * 5from janome.tokenizer import Tokenizer 6 7 8class MainTextCharFilter(CharFilter): 9 10 def __init__(self, start, end): 11 self.start = start 12 self.end = end 13 14 def apply(self, text): 15 return text.split(self.start)[1].split(self.end)[0] 16 17# 夏目漱石 18# 吾輩は猫である 19 20path='wagahai.txt' 21f=open(path) 22 23html = f.read().decode('shift_jis') 24 25char_filters = [UnicodeNormalizeCharFilter(), 26 MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 27 RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 28 RegexReplaceCharFilter('<.*?>', '')] 29 30tokenizer = Tokenizer() 31 32analyzer = Analyzer(char_filters, tokenizer) 33 34for token in analyzer.analyze(html): 35 print(token) 36 37f.close 38

#エラーメッセージ

python

1Traceback (most recent call last): 2 File "ディレクトリ名", line 23, in <module> 3 html = f.read().decode('shift_jis') 4AttributeError: 'str' object has no attribute 'decode'

,

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

readした時点でテキストとして読み込まれるので、decodeしなくて良いのです。
必要ならばopenする際にキーワード引数で指定します。


次のように組めば後々楽です。

Python

1if ローカルにファイルが有る: 2 html = ローカルから読み取る 3else: 4 html = リクエストして受け取る 5 ローカルに保存

ファイル名もいちいち決めるのは面倒なので、URLから適当に生成してやった方が良いです。

投稿2019/07/08 22:28

LouiS0616

総合スコア35660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー
LouiS0616

2019/07/08 23:43

初回だけリクエストしてあとはローカルに置いておいた方が良いです。 これは『毎回ダウンロードするのをやめてローカルに保存したテキストファイルから読み込むようにする』という方針と何ら矛盾ありません。 あるいはテキストをダウンロードするだけのコードを別に立てるのもアリでしょう。Don't Repeat Yourself.
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問