とある小説の文数を取得したいのですが、台詞の文数を正しく取得できずに困っております。自身で下記のようなプログラムを書いてみたのですが、「こんにちは。よろしくお願いします」という台詞の場合、「こんにちは。よろしくお願いします」と分けて出力されることに気づきました… 鍵括弧内の文にはreplace処理をしない、というような分岐はどのように書くことができますでしょうか？もしくは別の書き方がありましたら是非教えていただけますと幸いです。 ```python #----- 別のファイルから文字を読み込む ----- #同ディレクトリのtxtファイルから文字列を取得する path = 'Novel.txt' file = open(path,'r',encoding='utf-8') original = file.read() #----- 文の数をかぞえる ----- #すべての『。』『」』『？』(全角)のうしろに「\n」(改行)を挿入する sentence = original.replace("。","。\n").replace("「","\n「").replace("？","？\n") #改行で区切りリスト化する list = sentence.split() x = 0 for i in range(len(list)): x = x + (len(list[i])) #合計数を全体数で割り、平均値を求める result = x / len(list) print('文数：' + str(len(list))) ```

とある小説の文数を取得したい

とある小説の文数を取得したいのですが、台詞の文数を正しく取得できずに困っております。
自身で下記のようなプログラムを書いてみたのですが、
「こんにちは。よろしくお願いします」
という台詞の場合、
「こんにちは。
よろしくお願いします」
と分けて出力されることに気づきました…

鍵括弧内の文にはreplace処理をしない、というような分岐はどのように書くことができますでしょうか？
もしくは別の書き方がありましたら是非教えていただけますと幸いです。

python
1#----- 別のファイルから文字を読み込む -----
2
3#同ディレクトリのtxtファイルから文字列を取得する
4path = 'Novel.txt'
5file = open(path,'r',encoding='utf-8')
6original = file.read()
7
8#----- 文の数をかぞえる -----
9
10#すべての『。』『」』『？』(全角)のうしろに「\n」(改行)を挿入する
11sentence = original.replace("。","。\n").replace("「","\n「").replace("？","？\n")
12#改行で区切りリスト化する
13list = sentence.split()
14x = 0
15for i in range(len(list)):
16    x = x + (len(list[i]))
17#合計数を全体数で割り、平均値を求める
18result = x / len(list)
19
20print('文数：' + str(len(list)))

ppaul

2021/09/28 09:48

彼は、「こんにちは。よろしくお願いします」と言いながら、こちらにやってきた。は1文でいいですか？また、彼は言った、「こんにちは。よろしくお願いします。」そして、こちらにやってきた。は3文ですか2文ですか？

daifuku-mochi

2021/09/29 06:05 編集

確かに小説によっては鍵括弧と句点の組み合わせも存在しますね…盲点でした。ご指摘いただきありがとうございます。 >彼は、「こんにちは。よろしくお願いします」と言いながら、こちらにやってきた。の場合、彼は、「こんにちは。よろしくお願いします」と言いながら、こちらにやってきた。のように3文に分けたいです。 >彼は言った、「こんにちは。よろしくお願いします。」そして、こちらにやってきた。の場合、彼は言った、「こんにちは。よろしくお願いします。」そして、こちらにやってきた。のように3文に分けたいです。 ※誤りがありましたので29日の15時ごろ一部訂正しました。

行動規範の内容に同意します

回答3件

txt = "彼は、「こんにちは。よろしくお願いします」と言いながら、こちらにやってきた。彼は言った、「こんにちは。よろしくお願いします。」そして、こちらにやってきた。"

txts = re.split(r'(「.*?」)', txt)
i=0
for x in txts:
  i+=1
  print(i, x)

こんな感じに正規表現でsplitすると

1 彼は、
2 「こんにちは。よろしくお願いします」
3 と言いながら、こちらにやってきた。彼は言った、
4 「こんにちは。よろしくお願いします。」
5 そして、こちらにやってきた。

このように、地の文、台詞、地の文、台詞……のように分割できるので、それぞれで適切な処理を施せばいいんじゃないでしょうか。

投稿2021/09/28 11:37

KojiDoi

総合スコア13727

ppaul

2021/09/28 22:29 編集

>>> txt = 'きのう、「彼は、「こんにちは。よろしくお願いします」と言った」と書いてある手紙が来た。' >>> txts = re.split(r'(「.*?」)', txt) >>> i=0 >>> for x in txts: ... i+=1 ... print(i, x) ... 1 きのう、 2 「彼は、「こんにちは。よろしくお願いします」 3 と言った」と書いてある手紙が来た。となってしまいますね。

KojiDoi

2021/09/29 03:19

入れ子には確かにうまく対応できないですね。というか、ただしく開閉の括弧が対応している保証もないといえばないので、そうした事態を懸念するなら何か前処理が要ります。しかし、まともなところが出している文章であれば、こういうカギカッコの使い方はあり得ないのも確かです（中のカッコは『』になる）。現実にどのようなデータを相手にするかですね。

daifuku-mochi

2021/09/29 04:47

>KojiDoi様ご回答いただきありがとうございます。あまり正規表現に詳しくなかったので、raw stringなど勉強になりました。用途の説明が足りておらず申し訳ないのですが、台詞に限らず小説全体の文数を取得したいので、できれば台詞以外の文章は句点区切りの文単位で取得したいです。 1 彼は、 2 「こんにちは。よろしくお願いします」 3 と言いながら、こちらにやってきた。 4 彼は言った、 5 「こんにちは。よろしくお願いします。」 6 そして、こちらにやってきた。

KojiDoi

2021/09/29 05:48

ええ、ですから「セリフ以外の文章」は別途処理を続ける前提のコードですよ。完成品ではありません。

daifuku-mochi

2021/09/29 06:05 編集

意図を汲み取れず申し訳ありませんでした。どうすれば加工して文数を取り出せるかもう少し考えてみます。

行動規範の内容に同意します

ベストアンサー

replace処理をするよりは少し面倒になってしまいますが、

文字列originalを前から1文字ずつ見ていき、カギ括弧の中か外かをフラグで管理しておいた上で、カギ括弧の外にいる場合のみ、文末を示す記号の所で文の数のカウントを増やす

というのはどうでしょうか。

投稿2021/09/28 09:02

SotaUN

総合スコア17

daifuku-mochi

2021/09/29 05:56 編集

フラグを使う方法は思いつきませんでしたので教えていただき大変有難かったです。 SotaUN様の案を参考に書いてみました。 original = "彼はこう言った、「よろしくお願いします」さわやかな笑顔だった。" lineTotal = 0 sentenceTotal = 0 lineFlag = False for x in original: #"「"の場合、フラグをTrueにする if x == "「": lineFlag = True #"」"の場合、フラグをFalseにする elif x == "」": lineFlag = False #台詞のカウントに1足す lineTotal = lineTotal + 1 #フラグがFalseの場合、値が"。"または"？"の場合 if lineFlag == False and x == "。" or x == "？": #文のカウントに1足す sentenceTotal = sentenceTotal + 1 print(lineTotal) print(sentenceTotal) ただ、"「"の前が読点で終わるような文を台詞文と分けて取得する方法を思いつくことができませんでした…

SotaUN

2021/09/29 06:41

for x in original:ではなく for i in range(len(original)):のようにすれば、 #"、”の場合、次の文字が”「”なら if original[i] == “、”: if original[i+1] == “「”: #文のカウントに1足す sentenceTotal = sentenceTotal + 1 のような感じで数えられるのではないでしょうか。

daifuku-mochi

2021/09/29 08:57

ご返答いただきありがとうございます。 lineTotal = 0 sentenceTotal = 0 lineFlag = False for i in range(len(original)): #"「"の場合、フラグをTrueにする if original[i] == "「": lineFlag = True #"」"の場合、フラグをFalseにする elif original[i] == "」": lineFlag = False #台詞のカウントに1足す lineTotal = lineTotal + 1 #フラグがFalseの場合、 if lineFlag == False: #値が"。"または"？"の場合 if original[i] == "。" or original[i] == "？": #文の合計カウントに1を足す sentenceTotal = sentenceTotal + 1 #鍵括弧の前が句点で終了していない場合、 if original[i] == "「": if original[i-1] != "。": #文の合計カウントに1を足す sentenceTotal = sentenceTotal + 1 print(lineTotal) print(sentenceTotal) 以上で取り出すことができました！本当にありがとうございました…！

行動規範の内容に同意します

カッコ内を1文とする、ってことなら、最初にカッコに囲まれる文章を1文に認識されるように置換してしまい、それから処理を行えばいいのではないかと。

投稿2021/09/28 08:57