リアルタイムで取得したツイートの1部を格納したテキストファイルに存在する文章数をカウントしようと思ったら、実際の文の数とズレが出てしまいました。
ここで言う文とは、文末に文の終わりを示す記号("。","!","?","!","?")を含むものを想定していますが、それらを付けなくても意味が完結するものも文として見做しても良いと考えています。
解決に向けてお知恵をお貸しいただけますと幸いです。宜しくお願いします。
出力結果
#現状 1 #理想 8
コード
renshu.py
1import codecs 2import numpy as np 3 4#日本語ツイートを読み込む + 文書数を表示 5count = 0 6with codecs.open("test.txt", "r", "utf-8") as f: 7 corpus = f.read().split("\n") 8 9num_lines = sum(1 for line in open("test.txt")) 10print(num_lines)
ファイル
test.txt
1うちの本丸の靴箱は、いろんな靴があるから例外もあるけど、だいたい下の方にオレたち短刀の靴、上に行くにつれて背が高い刀の靴を入れるようにしてる。そうするとそれぞれの背の高さに合って、みんな使いやすいだろ!そんなちっぽけなもんを相手にしてるようじゃ到底敵いっこないって言ってんだよ萎えるよね笑あややんって呼びます!参加失礼します!年金受給者は自己破産できる?破産後も年金は貰い続けられるの?
実際のツイート
うちの本丸の靴箱は、いろんな靴があるから例外もあるけど、だいたい下の方にオレたち短刀の靴、上に行くにつれて背が高い刀の靴を入れるようにしてる。そうするとそれぞれの背の高さに合って、みんな使いやすいだろ! そんなちっぽけなもんを相手にしてるようじゃ到底敵いっこないって言ってんだよ 萎えるよね笑 あややんって呼びます!参加失礼します! 年金受給者は自己破産できる?破産後も年金は貰い続けられるの?
文章毎に分けてみた
うちの本丸の靴箱は、いろんな靴があるから例外もあるけど、だいたい下の方にオレたち短刀の靴、上に行くにつれて背が高い刀の靴を入れるようにしてる。 そうするとそれぞれの背の高さに合って、みんな使いやすいだろ! そんなちっぽけなもんを相手にしてるようじゃ到底敵いっこないって言ってんだよ 萎えるよね笑 あややんって呼びます! 参加失礼します! 年金受給者は自己破産できる? 破産後も年金は貰い続けられるの?
補足情報(FW/ツールのバージョンなど)
iOS 10.14.6, Python 3.7.4, Atom
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。