テキストデータの文字数をカウント

前提・実現したいこと

青空文庫のテキストデータから会話文の文字数を調べ、全文字数に対する割合を出力したい

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

#口語文の文章量を求める関数
def KougoRate(documents):
all_documents = 0
for document in documents:
clear_document = re.sub('[\r\n\u3000\s]','', document) #特殊文字の削除
all_documents += len(clear_document) #特殊文字を除いた全体の文字数を格納

Ksentence_sum = 0 #「」内の文の長さの合計、つまり口語文の文章量を格納
Ksentence = "" #1つの「」内の要素を格納するリスト
for document in documents:
clear_document = re.sub('[\r\n\u3000\s]','', document) #特殊文字の削除
for sentence in re.split('「」', clear_document): #「」ごとに分割
if(sentence[0]=="「" and sentence[len(sentence)-1]=="」"): #「」の抽出
Ksentence_sum += len(sentence) #「」内の文の長さlen(sentence)を合計

Python
ソースコード

試したこと

documentから左端、右端が「」のものを会話文とみなしsentenceとして抽出。
sentence全ての文字数を合計したものをKsentence_sumに格納したい。

補足情報（FW/ツールのバージョンなど）

Supernove

2021/12/27 09:11

ソースコードが見づらいのでコードブロックを使ってください https://qiita.com/Qiita/items/c686397e4a0f4f11683d

退会済みユーザー

2021/12/27 09:40

初めてで貼り付け方がわからなかったので有難いです、次回から使用させていただきます。ありがとうございます。

行動規範の内容に同意します

回答1件

ベストアンサー

for document in documents:
clear_document = re.sub('[\r\n\u3000\s]','', document) #特殊文字の削除
for sentence in re.split('「」', clear_document): #「」ごとに分割
if(sentence[0]=="「" and sentence[len(sentence)-1]=="」"): #「」の抽出
Ksentence_sum += len(sentence) #「」内の文の長さlen(sentence)を合計

を

for document in documents:
    clear_document = re.sub('[\r\n\u3000\s]','', document) #特殊文字の削除
    for sentence in re.findall('「.*」', clear_document): #「」ごとに分割
        Ksentence_sum += len(sentence) #「」内の文の長さlen(sentence)を合計

に修正しましょう。

投稿2021/12/27 09:10