python3で特定の範囲の行を抽出する方法

Question

### 前提・実現したいこと



パイソンのコードでどうしてもやり方がわからず困っています。
今テキストファイル（laungauge.txt）があります。その内容は以下のよう感じです。
本の章名, 章のタイトル、章の著者、章の内容が以下のような感じで並んでいます。
以下テキストファイル（laungauge.txt）の内容です。
________________________________________

FEDERALIST No.1 #本の章名

This is the pen. #章のタイトル この文と次の文は章のタイトルです。章のタイトルは、２行の場合もあるし、３行の場合もあります。行間は一行空いています。

This is an apple.

MADISON # 章の著者名

ahahahahabaergerhaeha ＃本の内容
ahahrharhhea

FEDERALIST No.2 #本の章名

This is the pen. #章のタイトル この文と次の文は章のタイトルです。章のタイトルは、２行の場合もあるし、３行の場合もあります。行間は一行空いています。

This is an apple.

This is an Banana 

JOHN # 章の著者名

ahahahahabaergerhaeha ＃章の内容

ahahrharhhea

FEDERALIST No.３ #本の章名

This is the pen. #章のタイトル この文と次の文は章のタイトルです。章のタイトルは、２行の場合もあるし、３行の場合もあります。行間は一行空いています。

This is an apple.

HAMILITON # 章の著者名

ahahahahabaergerhaeha ＃章の内容
ahahrharhhea


________________________________________

このパターンでFEDERALIST No.84までつづいています。
このようなファイルで、本の章名から章の著者名までの情報を抜き出したいのですが、どのようにすればいいのかわからず大変困っています。FEDERALIST No.84まであるので本の章名から章の著者名までの情報が８４個あることになるのですが、どなかどのようにすればいいか教えていただけませんでしょうか。
本の章名がそれぞれFEDERALIST で始まっていること、また章の著者名が,MADISON, JOHN, HAMILTONの３人しかいないので、その名前に当たると情報抜き取り終了のようにできないかと考えています。
大変ややこしいですがどうぞよろしくお願いいたします。

###理想とするアウトプット

FEDERALIST No.1

This is the pen. 

This is an apple.

MADISON 

FEDERALIST No.2

This is the pen.

This is an apple.

This is an Banana 

JOHN 

FEDERALIST No.３ 

This is the pen. 

This is an apple.

HAMILITON 


### 試したこと
すいません。
いろいろかんがえてみたのですが、どうやってすればいいのか全然わかりません。
手も足もでない状態です。

Accepted Answer

0. 章は「FEDERALIST～」ではじまる
0. 章のタイトル、章の内容には全部大文字の行がない

という条件を満たすデータであれば、以下のような処理でデータを抜き出せます。
```Python
from pprint import pprint

lst = """
FEDERALIST No.1
    pen
    apple
  MADISON
    aa
    bb
FEDERALIST No.2
    banana
    orange
    melon
  JOHN
    cc
  PAUL
    dd
FEDERALIST No.3
    bass
    guiter
  EMILY
    ee
    ff
""".split('
')

ret = []
fed,auth = {},{} # 現在読込中の章、著者

state = ''
for line in lst:

    if len(line) <= 0:
        continue

    if line.startswith('FEDERALIST'):    # 章の区切り

        # 取得済みを追加記録
        if len(auth) > 0:
            fed['authors'].append(auth)
        if len(fed) > 0:
            ret.append(fed)

        fed = {'name':line, 'text':[],'authors':[]}
        auth= {}
        state = 'GET_FED_TEXT'
        continue

    elif line.upper() == line:    # 著者の区切り は 全部大文字

        # 取得済みを追加記録
        if len(auth) > 0:
            fed['authors'].append(auth)

        auth = {'name':line,'text':[]}
        state = 'GET_AUTH_TEXT'
        continue

    if state == 'GET_FED_TEXT':    # 章のタイトル
        fed['text'].append(line)
    elif state == 'GET_AUTH_TEXT': # 章の内容
        auth['text'].append(line)

# 取得済みを追加記録
if len(auth) > 0:
    fed['authors'].append(auth)
if len(fed) > 0:
    ret.append(fed)

pprint( ret)
"""
[{'authors': [{'name': '  MADISON', 'text': ['    aa', '    bb']}],
  'name': 'FEDERALIST No.1',
  'text': ['    pen', '    apple']},
 {'authors': [{'name': '  JOHN', 'text': ['    cc']},
              {'name': '  PAUL', 'text': ['    dd']}],
  'name': 'FEDERALIST No.2',
  'text': ['    banana', '    orange', '    melon']},
 {'authors': [{'name': '  EMILY', 'text': ['    ee', '    ff']}],
  'name': 'FEDERALIST No.3',
  'text': ['    bass', '    guiter']}]
"""
```

あとは適宜必要なデータを抜き出して出力できます。
なお、間の空白行は解析に面倒なのでデータ抽出時に捨てています。
よって、出力時に補う必要はあります。下記例では補っていません。
```Python
for fed in ret:
    print(fed['name'])
    for line in fed['text']:
        print(line)
    print(fed['authors'][0]['name'])
"""
FEDERALIST No.1
    pen
    apple
  MADISON
FEDERALIST No.2
    banana
    orange
    melon
  JOHN
FEDERALIST No.3
    bass
    guiter
  EMILY
"""
```

前提・実現したいこと

試したこと

関連した質問