pythonでtxtデータを読み取りたい

Question

以下のようなtxtデータを読み取りたいです。
複数のデータ群が１つのファイルにまとまっているものです。
見出し毎に数字の各データが集められており２列構成のデータです。
各データ群は空白行による改行で仕切られています。


```txt
見出し１　　  <--データの見出し
------      <--線による仕切り
x  y        <--データのラベル
0  a1
1  a2
2  a3
            <--空白行による改行
見出し２
------
x  y
0  b1
1  b2
2  b3
3  b4
　　　　　　　　<--空白行による改行
３つ目のデータ群
同様
```



それぞれの見出しにおけるデータ群を個別に取り出したいです。
つまり、以下のようなファイルに分割したいです。
```txt
0 a1
1 a2
2 a3
```
```txt
0 b1
1 b2
2 b3
3 b4
```

numpy.loadtxtなど様々試してみましたがデータ群の間に上記のような改行が入っているためうまくいきません。
pythonで処理できればと思います。（便利な場合は他の言語でも可能です）
煮詰まってしまい先が見えなくなってしまったのでどうかお力添えをよろしくお願いします。

Accepted Answer

まずは以下のコードで各ファイルに分割します。
あとは`glob.glob`を使って各ファイル毎に処理を行えます。
```Python
file_no = 1
fout = None
with open('inp.txt') as f:
    for line in f:
        line = line.rstrip()
        if len(line.split()) == 2: # 出力する行
            if not fout:
                fout = open('out{:02d}.txt'.format(file_no),'w')
                file_no += 1
                #continue    # 見出し行を除くならこの行を生かす
            fout.write(line+'
')
        else: # 出力ファイルの切り替わり
            if fout:
                fout.close()
                fout = None
if fout:
    fout.close()

# out01.txt,out02.txt...が生成される
```
あるいは各データ群をリストに格納すれば、ファイル出力することなく、より簡潔に処理できます。
```Python

# 1データ群の処理
def func(lst):
    print(lst[1:]) # 見出し行を除いて出力

lst = []
with open('inp.txt') as f:
    for line in f:
        line = line.rstrip()
        if len(line.split()) == 2: # 出力する行
            lst.append(line)
        else: # 出力行の切り替わり
            if len(lst) > 0:
                func(lst)
            lst = []

if len(lst) > 0:
    func(lst)
```

Answer

テキストファイルのサイズにも依りますが、一気に読み込んで分割するのも一つの手段です。
```Python
import re


with open('data.txt') as fin:
    data = fin.read()
    
for block in re.split(r'\s+
', data):
    caption, _, label, *content = block.split('
')
    
    print(f'{caption:-^20}')
    print(*content, sep='
')

    # with open(f'{caption}.dat', 'w') as fout:
    #     print(*content, sep='
', file=fout)
```

**実行結果** [Wandbox](https://wandbox.org/permlink/BYzmvOzsVLsSKG2k)
```
--------見出し１--------
0  a1
1  a2
2  a3
--------見出し２--------
0  b1
1  b2
2  b3
3  b4
```

Answer

`next(fp)`でいらない行を飛ばせば良いと思います。以下はPandasですけども他のライブラリでも基本的には同じアプローチになると思います。

```python
import pandas as pd
with open("test.txt") as fp:
    next(fp)
    next(fp)
    print(pd.read_csv(fp))
````

**実行結果**
```
    x  y
0  0  b1
1  1  b2
2  2  b3
3  3  b4
```

関連した質問