TextファイルからpandasのDataFrameを作成する方法について

0,19990214
1,1001	Tom	30	59	20	41	59
2,1002	Judy	40	50	31	53	60
・
・
・
0,19991215
1,1001	Tom	45	69	30	21	69
2,1002	Judy	50	20	71	43	70

というデータが記載されたtextファイルがあります。

このファイルの中身をTom　のデータだけ取り出して、

“Date”	     ”A”	 ”B”	          ”C”           ”D”        ”E”
 19990214    30	 59	           20	           41	      59
 19990215    40	100		   80	  	   79       30
・
・
・
19991215	     45	  69	          30	           21	       69

というDataFrameに変形したいです。

df = pd.read_table("socre.txt", names=["ID","Name","A","B","C","D","E"])
df.query('Name == "Tom"’)
del df['ID']
del df['Name']
df

とコードを書いて実行すると、
“Date”のデータはないDataFrameができます。このDataFrameに行毎の19990214や19991215を“Date”に入れたいのですが、どのようにコードを書いたら良いでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

とりあえずデータは

Python
1df = pd.read_table("socre.txt",
2                   names=["ID","Date","Name","A","B","C","D","E"],
3                   sep='\s+|,'
4                   engine='python')

のようにセパレータに "space"と"comma" の２つを指定すると読めるのではないでしょうか。

このDataFrameに行毎の19990214や19991215を“Date”に入れたいのですが

これは少し面倒ですね・・

とりあえず、サンプルを書いてみました（余分な処理も入れてありますので少し長くなりましたが・・）ので参考にしてみてください

Python
1import pandas as pd
2import io
3
4data="""
50,19990214
61,1001    Tom    30    59    20    41    59
72,1002    Judy    40    50    31    53    60
80,19991215
91,1001    Tom    45    69    30    21    69
102,1002    Judy    50    20    71    43    70
11"""
12
13df = pd.read_table(
14    io.StringIO(data),
15    names=["ID", "Date", "Name", "A", "B", "C", "D", "E"],
16    sep='\s+|,',
17    engine='python')
18
19# IDが"0"である行を区切りにGroupIDを振る
20df['GroupID'] = (df.ID == 0).cumsum()
21# GroupIDをDateに変換するためのテーブルを作成
22conv = df.loc[df.ID==0, ['GroupID','Date']].set_index('GroupID').iloc[:,0]
23# 各GroupIDからDateを生成して Date列に代入
24df['Date'] = df.GroupID.map(conv)
25# Date列をDatetime型に変換
26df['Date'] = pd.to_datetime(df.Date.astype(str))
27# 余分なデータを削除
28df = df.drop(df[df.ID == 0].index)
29df = df.drop(columns=['GroupID'])
30# Indexを振りなおす
31df = df.reset_index(drop=True)
32# これでまともなDataFrameになったはず
33print(df)
34#0   1 1999-02-14   Tom  30.0  59.0  20.0  41.0  59.0
35#1   2 1999-02-14  Judy  40.0  50.0  31.0  53.0  60.0
36#2   1 1999-12-15   Tom  45.0  69.0  30.0  21.0  69.0
37#3   2 1999-12-15  Judy  50.0  20.0  71.0  43.0  70.0
38
39# 後は'Tom'を取り出す
40print(df[df.Name=='Tom'])
41#   ID       Date Name     A     B     C     D     E
42#0   1 1999-02-14  Tom  30.0  59.0  20.0  41.0  59.0
43#2   1 1999-12-15  Tom  45.0  69.0  30.0  21.0  69.0

投稿2018/07/27 07:18

magichan

総合スコア15898

k0908

2018/07/27 08:54

ありがとうございます。 df = pd.read_table( io.StringIO(data), names=["ID", "Date", "Name", "A", "B", "C", "D", "E"], sep='\s+|,', engine='python') を実行すると、

k0908

2018/07/27 08:55

ParserError: Expected 8 fields in line 193, saw 15. Error could possibly be due to quotes being ignored when a multi-char delimiter is used. とエラーが出ます。

k0908

2018/07/27 08:55

その前に、 ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'. """Entry point for launching an IPython kernel. とwarnignも出ます。jupyternotebookではsep='\s+|,'が使えないのでしょうか？

k0908

2018/07/29 14:38

すみません、自己解決できました！ありがとうございます

行動規範の内容に同意します