繰り返すSeriesをDataFrame型にまとめたいです。

サイト上から下記のPDFだったものを.txtとしてダウンロードしました。

.txtファイルを開くとこうなります。

そしてこれをpandas.DataFrameとして読み込もうと思い、下記のように処理しました。

dt=pd.read_table('/content/chiba.txt', encoding='utf-8', names=col_names, header=None, skiprows=1)
dt.head(10)

すると、下記のように一つのカラムにまとめて出力されてしまいました。

そこで、カラムは別でDataFrame型で作り、
カラムを抜いたc01カラムの中身をSeries型の別の変数として置いておき、
それをfor文で何とかDataFrameにまとめられないかと悩んでおります。
何かご助言いただけたら幸いです。

list1=['地区','乗馬クラブ名','登録番号','馬名','性別','毛色','品種']
col_names=pd.DataFrame(data=list1)
col_names
import numpy as np
dt1=dt.iloc[8:,1]
dt1=dt1.reset_index(drop=True)
dt1.index = np.arange(1, len(dt1)+1)
dt1.head(30)

df = pd.DataFrame(
    for i in dt1.values:
      data={col_names[0]: 
            col_names[1]: 
            col_names[2]: 
            col_names[3]: 
            col_names[4]:
            col_names[5]:
            col_names[6]:
            }
)
df

meg_

2022/06/27 13:18

> サイト上から下記のPDFだったものを.txtとしてダウンロードしました。そのテキストファイルの中身はどうなっていますか？先頭数行を質問に追記すると回答がつきやすくなるかと思います。

teasun

2022/06/27 13:25

ありがとうございますm(__)m 画像をアップロードさせていただきました。これは私も確認していなかったので、新しい発見でした。

meg_

2022/06/27 14:00

> これは私も確認していなかったので、新しい発見でした。そうなんですか！？縦1列にデータが並んでいるようなのでテキストを読み込みながらDataFrameに追加するとかですかね。

teasun

2022/06/27 20:50

すみません、「テキストを読みながらDataFrameに追加する」というのはどういう意味でしょうか...？

行動規範の内容に同意します

回答1件

ベストアンサー

まずはファイルを単純に読みこみ、改行毎に分割した文字列のリストを作成します。
あとはこのリストを、行と列の二次元リストに変形してデータフレームを作成すればよいです。
ただし列数はあらかじめわかっているものとします。
以下では全９行のファイルデータから、３列で見出し行が１行データ行が２行のデータフレームを作成しています。

Python
1import pandas as pd
2
3# ファイルから読み込み行毎に分割したリスト
4data = ['id', 'name', 'age', '1', 'Alice', '11', '2', 'Bob', '12']
5
6N_COL = 3
7lines = [data[i:i+N_COL] for i in range(0, len(data), N_COL)]
8print(lines) # [['id', 'name', 'age'], ['1', 'Alice', '11'], ['2', 'Bob', '12']]
9
10df = pd.DataFrame(lines[1:], columns=lines[0])
11print(df)
12#  id   name age
13#0  1  Alice  11
14#1  2    Bob  12