re.split('\-{5,}',text)[2]の意味

前提

下記コードで夏目漱石「三四郎」のテキストデータを読込み、編集しています。

参考ページをもとに"re.split('-{5,}',contents)[2]"でヘッダー部分を除去し、
下記コードで「三四郎」の前文と後文の100文字だけ表示させました。
第二引数が対象の文字列"contents"を指定しているところまでは分かったのですが、除去する箇所をどう指定しているのか分からない状態です。

ご教授の程、お願いいたします。

該当コード

import os
#path指定
os.chdir('C://Users//karita//三四郎')
#"sanshiro.txt"を'txtf'として開く
txtf = open("sanshiro.txt")
#'txtf'を文字列として取得
contents = txtf.read()
#'contents'オブジェクトの型を取得
print(type(contents))
# => <class 'str'>
print(contents)

<class 'str'>
三四郎
夏目漱石

-------------------------------------------------------
【テキスト中に現れる記号について】

《》：ルビ
（例）頓狂《とんきょう》

｜：ルビの付く文字列の始まりを特定する記号
（例）福岡県｜京都郡《みやこぐん》

［＃］：入力者注　主に外字の説明や、傍点の位置の指定
（数字は、JIS X 0213の面区点番号またはUnicode、底本のページと行数）
（例）※［＃「魚＋師のつくり」、第4水準2-93-37］

〔〕：アクセント分解された欧文をかこむ
（例）〔ve'rite'《ヴェリテ》 vraie《ヴレイ》.〕

-------------------------------------------------------

［＃７字下げ］一［＃「一」は中見出し］

　うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。このじいさんはたしかに前の前の駅から乗ったいなか者である。発車まぎわに頓狂《とんきょう》な声を出して駆け込んで来て、いきなり肌《はだ》をぬいだと思ったら背中にお灸《きゅう》のあとがいっぱいあったので、三四郎《さんしろう》の記憶に残っている。じいさんが・・・

# ファイル整形
import re
# ヘッダ部分の除去
contents = re.split('\-{5,}',contents)[2]
# 頭の100文字の表示 
print(contents[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(contents[-100:])

［＃７字下げ］一［＃「一」は中見出し］

　うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。このじいさんはたしかに前の前の駅から乗ったいなか者である。発車まぎわに頓狂《と

青空文庫作成ファイル：
このファイルは、インターネットの図書館、青空文庫（http://www.aozora.gr.jp/）で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。

補足事項

windows10
python3.7.4

行動規範の内容に同意します

回答1件

ベストアンサー

質問文とデータが混在していてわかりにくいです。

re.split('\-{5,}',contents)[2]の意味だけ答えると、\は無意味なのでタイプミスあるいは勘違い。
つまり正しくは、re.split('-{5,}',contents)[2]ですが、「contentsの文字列を、-の5つ以上の連続で区切った3番目」です。

plain
1aaaaaaaaaaaaaa
2--------------
3bbbbbbbbbbbbbb
4--------------
5cccccccccccccc
6--------------
7dddddddddddddd

なら、\ncccccccccccccc\nが取り出されます。

投稿2020/08/17 09:06

otn

総合スコア85901

退会済みユーザー

2020/08/17 09:34

ありがとうございます。おかげさまで'\-{5,}'の'-'はマイナスでなく区切りを表していることが分かりました。「区切った3番目」は"［＃７字下げ］一・・・"で始まるから、2番目以前は除去されたと理解できました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

re.split('\-{5,}',text)[2]の意味

前提

該当コード

補足事項

関連した質問