前提・実現したいこと
青空文庫のテキストデータから会話文の文字数を調べ、全文字数に対する割合を出力したい
発生している問題・エラーメッセージ
エラーメッセージ
該当のソースコード
#口語文の文章量を求める関数
def KougoRate(documents):
all_documents = 0
for document in documents:
clear_document = re.sub('[\r\n\u3000\s]','', document) #特殊文字の削除
all_documents += len(clear_document) #特殊文字を除いた全体の文字数を格納
Ksentence_sum = 0 #「」内の文の長さの合計、つまり口語文の文章量を格納
Ksentence = "" #1つの「」内の要素を格納するリスト
for document in documents:
clear_document = re.sub('[\r\n\u3000\s]','', document) #特殊文字の削除
for sentence in re.split('「」', clear_document): #「」ごとに分割
if(sentence[0]=="「" and sentence[len(sentence)-1]=="」"): #「」の抽出
Ksentence_sum += len(sentence) #「」内の文の長さlen(sentence)を合計
Python ソースコード
試したこと
documentから左端、右端が「」のものを会話文とみなしsentenceとして抽出。
sentence全ての文字数を合計したものをKsentence_sumに格納したい。
補足情報(FW/ツールのバージョンなど)
回答1件
あなたの回答
tips
プレビュー