質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.05%

  • Python 3.x

    3700questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • 正規表現

    667questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

文章を句点で分割する

解決済

回答 2

投稿

  • 評価
  • クリップ 2
  • VIEW 149

NCC1701

score 1213

前提・実現したいこと

例えば「吾輩は猫である。名前はまだ無い。」を句点“。”(他に.?!など)で分割したいと考えてます。ただし、その句点等自体を含んでリスト化したいのです。

発生している問題・エラーメッセージ

このような文章だとうまくいくのですが、

txt = '吾輩は猫である。名前はまだ無い。'
sen = re.findall(r'.+?(?<=[。?])', txt)
print(sen) #-> ['吾輩は猫である。', '名前はまだ無い。']


次のような文末だと

txt = '「君も車屋の猫だけに大分強そうだ。車屋にいると御馳走が食えると見えるね」'
sen = re.findall(r'.+?(?<=[。?])', txt)
print(sen) #-> ['「君も車屋の猫だけに大分強そうだ。']


となり、文末の一文を取りこぼしてしまいます。
自分が期待しているのは
['「君も車屋の猫だけに大分強そうだ。', '車屋にいると御馳走が食えると見えるね」']
です。

試しに、splitだと

    sen = re.split(r'(?<=。)', txt)
File "lib/python3.5/re.py", line 203, in split
    return _compile(pattern, flags).split(string, maxsplit)
ValueError: split() requires a non-empty pattern match.


句点等の記号と次に来る文字との間にマッチするいわゆる“アンカー”でsplitできれば良いのですがうまくいきませんでした。Rubyだとうまくいくそうです。文章を一文ごとに分割する正規表現

試したこと

どんな記号・文字が来る文末にもマッチするように
sen = re.findall(r'.+?(?<=[。?\$])', txt)
も試しましたが、ダメでした。

よろしくお願いします。

補足情報(言語/FW/ツール等のバージョンなど)

Python 3のみです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

こういうのはどうでしょう。 

txt = '「君も車屋の猫だけに大分強そうだ。車屋にいると御馳走が食えると見えるね」'
txt2 = re.sub(r'(?<=。)', "\t", txt)
sen = re.split(r'\t', txt2)

追記  
もっと素朴なアプローチで良いんじゃないかと思い至りました。 

 sen = re.findall(r'[^。]+(?:[。]|$)', txt)

題意からは少し逸れるかも知れませんけど、目的によっては次もアリではないでしょうか。

sen = re.split(r'(。)', txt)

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

regex 2018.01.10というモジュールを見つけました。
ゼロ幅マッチの仕様がPython 3.7で変わるようです。regexモジュールはその先取りのようです。
次のコードでアンカーにマッチするようになりました。

import regex
sen = regex.split(r'(?<=[。?])(?!$)', txt, flags=regex.VERSION1)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 91.05%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    3700questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • 正規表現

    667questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。