Pandasで読み込んだデータのX文字目からY文字目までを結合する方法について又は任意の文字数でのtableの分割方法

前提・実現したいこと

貰ったテキストファイルをpandasで読み込んで、加工後、Excelで出力を行いたい。

発生している問題・エラーメッセージ

元のテキストデータはTabや「,」で区切られておりません。
このため、行ったのは1,005文字を一文字づつ区切って
data[0]+data[1]...で結合を行っているが、1,005文字あるのでこれを手作業で行うよりは
X文字目からY文字目まで結合するなどのコードが分かればと思い質問させていただきました。
よろしくお願いします。

コードを使う使わない別として、全てのコードを記載しました。
分かりづらくて申し訳ありません。

現在成功している事
読み込んだデータを１文字づつ区切る

引用テキスト(元データ)

HDABCDEF 000111 YYYYMMDDYYYYMMDDYYYYMMDD

作成したいデータ

HD,ABCDEF, ,000111, ,YYYYMMDD,YYYYMMDD,YYYYMMDD

※スペースは文字列としてカウント

結合は
HD,ABCDFE, ,000111, ,YYYYMMDD,YYYYMMDD,YYYYMMDD
1～2, 3～7, 8～18 ,19～24, 25～28, 29～36, 37～44, 45～52 文字目を結合したいです。
2 6 11 6 4 8 8 8 ←それぞれの結合したい文字数

該当のソースコード

import pandas as pd
import numpy as np
import os
import openpyxl
import glob
import re

#ファイルパス
filepath = ('Python/test.txt')

#ファイル読み込み
df = pd.read_table(filepath , header=None)

df1 = df.iloc[0][0]

#1文字づつ分割
data = [df1[i: i+1] for i in range(0, len(df1), 1)]

#1文字目と2文字目、     3～7文字目を結合、                                8～18文字目を結合
df2 = data[0]+data[1], data[2]+data[3]+data[4]+data[5]+data[6]+data[7], data[8]+data[9]+data[10]+data[11]+data[12]+data[13]+data[14]+data[15]+data[16]+data[17]+data[18]

という形での途中まで結合を行いました。
解決法がございましたら、よろしくお願いします。

jeanbiego

2020/09/01 01:33

コードは```と```の間に全文まとめて書いて下さい。あと、元データの分割ルールが自明ではないようです。何文字区切りとか、日付形式YYYYMMDDとか、他の人にわかるように書かれたほうが回答がつくと思います。

y_waiwai

2020/09/01 01:36

質問のタイトルと内容があってないように思いますおそらく文字列を分割するというはなしだと思いますが、どういう法則で分割するのか、を説明していただけますか。

ErstNeun

2020/09/01 03:55

jeanbiego様書き方を教えていただきありがとうございます。分割方法がまずいのだとは思うのですが、これ以外の解決方法が見つからなかったため１文字づつ分割して、文字数にあったように結合する方法を取っております。かなり見にくいプログラムになっており申し訳ありません。

ErstNeun

2020/09/01 04:05

y_waiwai様書き方が悪く、誤解させる内容で申し訳ありません。１文字づつ分割するという形は一応完成しております。この後に、１文字目と２文字目、３文字目～７文字目・・・と結合しようとする際のコードが単純なコードしか分からず困っております。

行動規範の内容に同意します

回答3件

ベストアンサー

文字列を分割するところだけですが、こんな感じで関数を作ると、何文字ずつ区切るかをlistで指定できるようになります。

python
1def split_line(s, chunk_len):
2    results = []
3    for n in chunk_len:
4        chunk, s = s[:n], s[n:]
5        results.append(chunk)
6    return results
7
8line = 'HDABCDEF           000111    YYYYMMDDYYYYMMDDYYYYMMDD'
9chunks = [2, 6, 11, 6, 4, 8, 8, 8]
10
11print(split_line(line, chunks))
12# ['HD', 'ABCDEF', '           ', '000111', '    ', 'YYYYMMDD', 'YYYYMMDD', 'YYYYMMDD']

投稿2020/09/02 14:27

bsdfan

総合スコア4794

ErstNeun

2020/09/04 12:51

ありがとうございます。最初の区切るところで修正できたのですね。遠回りで１字ずつ区切って区切る以外の方法が分からず、遠回りをする事にしていました。結合する事しか考えていなかったので、前工程から改善できたのがとても嬉しかったのでベストアンサーとさせていただきます。

行動規範の内容に同意します

Daregadaさんのスマートなのと違って愚直に組んでみました。
一回、listで処理してからdataframeにしてます。

python3
1test="""HDABCDEF           000111    YYYYMMDDYYYYMMDDYYYYMMDD
2HDABCDEF           000111    YYYYMMDDYYYYMMDDYYYYMMDD"""
3
4import io
5import pandas as pd
6import numpy as np
7import os
8import openpyxl
9import glob
10import re
11
12#ファイルパス
13filepath = io.StringIO(test)
14
15#ファイル読み込み
16lst_lines = list()
17with filepath as f:
18    lines = f.readlines()
19    for line in lines:
20        lst_line = list()
21        line = re.split("\s+", line)  # ['HDABCDEF', '000111', 'YYYYMMDDYYYYMMDDYYYYMMDD']
22        lst_line.append(line[0][:2])  # HD
23        lst_line.append(line[0][2:8])  # ABCDEF
24        lst_line.append(line[1])  # 000111
25        while len(line[2])>7:  # 各YYYYMMDD
26            lst_line.append(line[2][:8])    
27            line[2] = line[2][8:]
28        lst_lines.append(lst_line)
29df = pd.DataFrame(lst_lines)
30print(df)
31#   0       1       2         3         4         5
32#0  HD  ABCDEF  000111  YYYYMMDD  YYYYMMDD  YYYYMMDD
33#1  HD  ABCDEF  000111  YYYYMMDD  YYYYMMDD  YYYYMMDD

投稿2020/09/01 04:49

jeanbiego

総合スコア3966

1文字ずつ区切って結合するという解決法ではありませんが、元の行を正規表現でグループに分割して新たなDataFrameを作ってはどうでしょう。

提示されている部分だけ分割するコードの例。

Python
1import pandas as pd
2
3df_src = pd.read_table("hogehoge.dat", header=None)
4df_dst = df_src[0].str.extract(r'^(..)([^\s]+)\s+(\d+)\s+(\d{8})(\d{8})(\d{8})', expand=True)
5print(df_src)
6print(df_dst)

result
1                                                   0
20  HDABCDEF           000111    20200901202008012...
31  IDGHIJKL           000112    20200902202008022...
42  JDMNOPQR           000113    20200903202008032...
53  KDSTUVWX           000114    20200904202008042...
6    0       1       2         3         4         5
70  HD  ABCDEF  000111  20200901  20200801  20200831
81  ID  GHIJKL  000112  20200902  20200802  20200831
92  JD  MNOPQR  000113  20200903  20200803  20200831
103  KD  STUVWX  000114  20200904  20200804  20200831