実行結果をすぐに表示したい

#実現したいこと
青空文庫の「吾輩は猫である」から品詞を得てその数をカウントし、表示するプログラムを作っているのですが、文章が長いために品詞を得る際のfor文が完全に処理しきるまでにかなり時間がかかる問題で困っています。そのため実行してもしばらくは何も表示されません。通常のプログラムのように実行ボタンを押すとすぐにprintの中身を表示するようにしたいのですがどうすればいいですか？
#該当のソースコード

python
1import urllib.request
2
3from janome.analyzer import Analyzer
4from janome.charfilter import *
5from janome.tokenizer import Tokenizer
6
7
8class MainTextCharFilter(CharFilter):
9
10    def __init__(self, start, end):
11        self.start = start
12        self.end = end
13
14    def apply(self, text):
15        return text.split(self.start)[1].split(self.end)[0]
16
17# 夏目漱石
18# 吾輩は猫である
19url = 'http://www.aozora.gr.jp/cards/000148/files/789_14547.html'
20
21html = ''
22
23with urllib.request.urlopen(url) as response:
24    html = response.read().decode('shift_jis')
25
26
27char_filters = [UnicodeNormalizeCharFilter(), 
28                MainTextCharFilter('<div class="main_text">', '<div class="bibliographical_information">'), 
29                RegexReplaceCharFilter('<rp>(.*?)</rp>', ''), 
30                RegexReplaceCharFilter('<.*?>', '')] 
31
32tokenizer = Tokenizer()
33
34analyzer = Analyzer(char_filters, tokenizer)
35
36meishi=0
37doushi=0
38for token in analyzer.analyze(html):
39    if token.part_of_speech.split(',')[0] == "名詞":
40        meishi=meishi+1
41    elif token.part_of_speech.split(',')[0] =="動詞":
42        doushi=doushi+1
43
44    print(".",end="")
45
46print("名詞:"+str(meishi))
47print("動詞:"+str(doushi))
48

#試したこと
printをfor文の中に入れてみました。その時の実行結果を下に示します。

python
1名詞:1
2動詞:0
3名詞:1
4動詞:0
5名詞:1
6動詞:0
7名詞:1
8動詞:0
9名詞:1
10動詞:0
11名詞:2
12動詞:0
13名詞:2
14動詞:0
15名詞:3
16動詞:0
17名詞:3
18動詞:0
19名詞:3
20動詞:0
21名詞:3
22動詞:0
23名詞:4
24動詞:0
25名詞:4
26動詞:0
27名詞:4
28動詞:0
29名詞:4
30動詞:0
31名詞:4
32動詞:0
33名詞:4
34動詞:0
35名詞:4
36動詞:0
37名詞:5
38動詞:0
39名詞:5

kazto

2019/07/05 00:53

1) プログラムと実行結果が合っていないように思います。ご提示のソースでは、名詞、動詞が１回ずつだけ表示されるように読めます。 2) 遅いのは、本当にfor文でしょうか。プロファイルは取りましたか？

quickquip

2019/07/05 00:56

質問の意図がわからないのですが、for文が回りきる前の結果をprintしてもなにか意味があるのかと思ってしまいます。ということは、printしたいのは途中の、つまり済んでいる分のデータということでしょうか? ところがソースを見るかぎり、それができるスキルは持っているように見えるので、質問の意図がわからなくなっています。

quickquip

2019/07/05 00:57 編集

あるいは、時間がかかる（何秒? 何十秒?）処理を1秒ぐらいにしたいという質問でしょうか? その場合具体的な数字がないことで、意図がわかりにくくなっているのかも。

退会済みユーザー

2019/07/05 01:30

時間がかかる処理を1秒ぐらいにしたいという質問です。

Q71

2019/07/05 23:57

時間がかかっているのはどこですか。それは調べてありますか。

退会済みユーザー

2019/07/06 00:45

時間がかかっているのはforループの処理です。元の文章が長いため処理に時間がかかっていると思われます。

行動規範の内容に同意します

回答2件

通常のプログラムとは一体なんでしょうか？
例えば、、、

python
1sum = 0
2for i in range(10):
3    sum =+ i
4    print(sum)

以下のようなプログラムを実行した場合、、、

出力結果
0
1
3
6
(略)
45

このようなプログラムだと一瞬で処理が終わり画面表示が行われますが、質問者のようなプログラムだと処理内容が桁違いなのでしょう。

対策

スレッドを立てて、リンク先の文章を分割して処理させると、処理時間が短縮できると思います。

投稿2019/07/05 01:01

Ryupe

総合スコア426

LouiS0616

2019/07/05 01:39

あまり詳しく無いので私の誤解かもしれませんが、単にマルチスレッド化しても高速化の恩恵は受けられないのではないでしょうか。

Ryupe

2019/07/05 02:10

そうなんですか？自分も実際にマルチスレッドを実装した経験がないですが、マルチスレッドは質問者のようなケースが一番恩恵が得られそうな気がしてました。マルチスレッド化したところで、スレッド単体の速度が低下してしまうようであれば違うところに問題があるということですし。

LouiS0616

2019/07/05 02:31 編集

threadingモジュールのリファレンス (https://docs.python.org/ja/3/library/threading.html) には次のような記述があります。 > CPython implementation detail: CPython は Global Interpreter Lock のため、ある時点で Python コードを実行できるスレッドは1つに限られます (ただし、いくつかのパフォーマンスが強く求められるライブラリはこの制限を克服しています)。アプリケーションにマルチコアマシンの計算能力をより良く利用させたい場合は、 multiprocessing モジュールや concurrent.futures.ProcessPoolExecutor の利用をお勧めします。ただし、I/Oバウンドなタスクを並行して複数走らせたい場合においては、マルチスレッドは正しい選択肢です。 (引用終わり) シングルプロセスでマルチスレッドを走らせることは、切り替えの手間がかかってむしろ低速化する要因になるかと思います。 multiprocessingモジュールを利用すれば高速化が望めますが、理想的なケースでもコア数倍に留まるでしょう。なお、CPythonだけでなくPyPyもGILを取り入れているようです。 http://doc.pypy.org/en/latest/faq.html#does-pypy-have-a-gil-why --- 重ねて申し上げますが、私はマシンレベルの実装やマルチプロセス／マルチスレッドプログラミングには疎いので頓珍漢な指摘をしているかもしれません。実測もしていません。あくまで確認の為のコメントであるとご了承下さい。

退会済みユーザー

2019/07/06 00:46 編集

ご回答ありがとうございます。参考にさせていただきます。

行動規範の内容に同意します