質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

3回答

1505閲覧

Pandasで読み込んだデータのX文字目からY文字目までを結合する方法について又は任意の文字数でのtableの分割方法

ErstNeun

総合スコア1

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/09/01 01:29

編集2020/09/04 12:54

前提・実現したいこと

貰ったテキストファイルをpandasで読み込んで、加工後、Excelで出力を行いたい。

発生している問題・エラーメッセージ

元のテキストデータはTabや「,」で区切られておりません。
このため、行ったのは1,005文字を一文字づつ区切って
data[0]+data[1]...で結合を行っているが、1,005文字あるのでこれを手作業で行うよりは
X文字目からY文字目まで結合するなどのコードが分かればと思い質問させていただきました。
よろしくお願いします。

コードを使う使わない別として、全てのコードを記載しました。
分かりづらくて申し訳ありません。

現在成功している事
読み込んだデータを1文字づつ区切る

引用テキスト(元データ)

HDABCDEF 000111 YYYYMMDDYYYYMMDDYYYYMMDD

作成したいデータ

HD,ABCDEF, ,000111, ,YYYYMMDD,YYYYMMDD,YYYYMMDD

※スペースは文字列としてカウント

結合は
HD,ABCDFE, ,000111, ,YYYYMMDD,YYYYMMDD,YYYYMMDD
1~2, 3~7, 8~18 ,19~24, 25~28, 29~36, 37~44, 45~52 文字目を結合したいです。
2 6 11 6 4 8 8 8 ←それぞれの結合したい文字数

該当のソースコード

import pandas as pd import numpy as np import os import openpyxl import glob import re #ファイルパス filepath = ('Python/test.txt') #ファイル読み込み df = pd.read_table(filepath , header=None) df1 = df.iloc[0][0] #1文字づつ分割 data = [df1[i: i+1] for i in range(0, len(df1), 1)] #1文字目と2文字目、 3~7文字目を結合、 8~18文字目を結合 df2 = data[0]+data[1], data[2]+data[3]+data[4]+data[5]+data[6]+data[7], data[8]+data[9]+data[10]+data[11]+data[12]+data[13]+data[14]+data[15]+data[16]+data[17]+data[18]

という形での途中まで結合を行いました。
解決法がございましたら、よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jeanbiego

2020/09/01 01:33

コードは```と```の間に全文まとめて書いて下さい。 あと、元データの分割ルールが自明ではないようです。何文字区切りとか、日付形式YYYYMMDDとか、他の人にわかるように書かれたほうが回答がつくと思います。
y_waiwai

2020/09/01 01:36

質問のタイトルと内容があってないように思います おそらく文字列を分割するというはなしだと思いますが、どういう法則で分割するのか、を説明していただけますか。
ErstNeun

2020/09/01 03:55

jeanbiego様 書き方を教えていただきありがとうございます。 分割方法がまずいのだとは思うのですが、これ以外の解決方法が見つからなかったため 1文字づつ分割して、文字数にあったように結合する方法を取っております。 かなり見にくいプログラムになっており申し訳ありません。
ErstNeun

2020/09/01 04:05

y_waiwai様 書き方が悪く、誤解させる内容で申し訳ありません。 1文字づつ分割するという形は一応完成しております。 この後に、1文字目と2文字目、3文字目~7文字目・・・と結合しようとする際のコードが 単純なコードしか分からず困っております。
guest

回答3

0

ベストアンサー

文字列を分割するところだけですが、こんな感じで関数を作ると、何文字ずつ区切るかをlistで指定できるようになります。

python

1def split_line(s, chunk_len): 2 results = [] 3 for n in chunk_len: 4 chunk, s = s[:n], s[n:] 5 results.append(chunk) 6 return results 7 8line = 'HDABCDEF 000111 YYYYMMDDYYYYMMDDYYYYMMDD' 9chunks = [2, 6, 11, 6, 4, 8, 8, 8] 10 11print(split_line(line, chunks)) 12# ['HD', 'ABCDEF', ' ', '000111', ' ', 'YYYYMMDD', 'YYYYMMDD', 'YYYYMMDD']

投稿2020/09/02 14:27

bsdfan

総合スコア4596

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ErstNeun

2020/09/04 12:51

ありがとうございます。 最初の区切るところで修正できたのですね。 遠回りで1字ずつ区切って区切る以外の方法が分からず、遠回りをする事にしていました。 結合する事しか考えていなかったので、前工程から改善できたのがとても嬉しかったのでベストアンサーとさせていただきます。
guest

0

Daregadaさんのスマートなのと違って愚直に組んでみました。
一回、listで処理してからdataframeにしてます。

python3

1test="""HDABCDEF 000111 YYYYMMDDYYYYMMDDYYYYMMDD 2HDABCDEF 000111 YYYYMMDDYYYYMMDDYYYYMMDD""" 3 4import io 5import pandas as pd 6import numpy as np 7import os 8import openpyxl 9import glob 10import re 11 12#ファイルパス 13filepath = io.StringIO(test) 14 15#ファイル読み込み 16lst_lines = list() 17with filepath as f: 18 lines = f.readlines() 19 for line in lines: 20 lst_line = list() 21 line = re.split("\s+", line) # ['HDABCDEF', '000111', 'YYYYMMDDYYYYMMDDYYYYMMDD'] 22 lst_line.append(line[0][:2]) # HD 23 lst_line.append(line[0][2:8]) # ABCDEF 24 lst_line.append(line[1]) # 000111 25 while len(line[2])>7: # 各YYYYMMDD 26 lst_line.append(line[2][:8]) 27 line[2] = line[2][8:] 28 lst_lines.append(lst_line) 29df = pd.DataFrame(lst_lines) 30print(df) 31# 0 1 2 3 4 5 32#0 HD ABCDEF 000111 YYYYMMDD YYYYMMDD YYYYMMDD 33#1 HD ABCDEF 000111 YYYYMMDD YYYYMMDD YYYYMMDD

投稿2020/09/01 04:49

jeanbiego

総合スコア3966

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

1文字ずつ区切って結合するという解決法ではありませんが、元の行を正規表現でグループに分割して新たなDataFrameを作ってはどうでしょう。

提示されている部分だけ分割するコードの例。

Python

1import pandas as pd 2 3df_src = pd.read_table("hogehoge.dat", header=None) 4df_dst = df_src[0].str.extract(r'^(..)([^\s]+)\s+(\d+)\s+(\d{8})(\d{8})(\d{8})', expand=True) 5print(df_src) 6print(df_dst)

result

1 0 20 HDABCDEF 000111 20200901202008012... 31 IDGHIJKL 000112 20200902202008022... 42 JDMNOPQR 000113 20200903202008032... 53 KDSTUVWX 000114 20200904202008042... 6 0 1 2 3 4 5 70 HD ABCDEF 000111 20200901 20200801 20200831 81 ID GHIJKL 000112 20200902 20200802 20200831 92 JD MNOPQR 000113 20200903 20200803 20200831 103 KD STUVWX 000114 20200904 20200804 20200831

投稿2020/09/01 03:21

Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ErstNeun

2020/09/02 13:25

回答ありがとうございます。 ここまで短いコードで出来るのですね。 追加の質問になってしまい申し訳ないのですが、スペースを残す方法 またはスペースを追加する方法はありますでしょうか?
Daregada

2020/09/02 13:29

\s が空白文字なので、(\s+)のようにカッコで囲めば、空白の連続をグループ化して切り出すことができます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問