TSVファイルのフィールドの再分割の繰り返し方法

Question

PythonでTSVファイルを読み込んでいます。
このTSVファイルのフィールドは(ここではCSVとして,区切りで表記します)

1,108.5,3.2, Var1=10.9, Var2=9.8 ......
のように、数値だけのフィールドと、変数名=値の形式のフィールドが混在しています。
この後者のフィールドから変数名を外して、数値のみを取り出したいのですが、スマートな実装方法が分かりません。

df=pd.read_csv('Opt.dat',sep='	',names=('ID','EQ','Trades','PF','EV','DD$','DD%','ExitL','RR','SL','MAGIC','Lots','MA1','MA2','MA3','Int','MAType','MaxPos','Nanpin'))

df['ExitL']=(df['ExitL'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(float))
df['RR']=(df['RR'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(float))
df['SL']=(df['SL'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(float))
df['MAGIC']=(df['MAGIC'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['Lots']=(df['Lots'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(float))
df['MA1']=(df['MA1'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['MA2']=(df['MA2'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['MA3']=(df['MA3'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['Int']=(df['Int'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['MAType']=(df['MAType'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['MaxPos']=(df['MaxPos'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(int))
df['Nanpin']=(df['Nanpin'].str
    .split('=')
    .dropna()
    .apply(lambda x: x[1])
    .astype(float))

のように、該当する変数をひとつづつ処理するような泥臭いやり方をしているのですが、
こういう同じような処理を上手にまとめて流す良い方法はありませんでしょうか？

また、各ブロックの.apply(lambda x: x[1])の部分なのですが、
tmp=df['xxx'].str.split('=')
df['xxx']=tmp.iloc[:,1]
のような形で実装しようとすると2行目の処理のところで、indexがおかしいと言われます。
te_key_length
    raise IndexingError("Too many indexers")
pandas.core.indexing.IndexingError: Too many indexers

df['xxx']=tmp.iloc[1]
ならとおりますが、これでは2列目(縦)では無く、2行目(横)が出力されてしまいます。
[xxx, 1.88]
みたいな感じで一行分だけが出力される感じです。

print(tmp)すると
4246      [xxx, 3 ]
4245    [xxx, 2.9 ]
4244    [xxx, 2.8 ]
4243    [xxx, 2.7 ]
のような感じなので、split('=')自体は正しく動いているように見えます。

正しくはどのように書けば良いのでしょうか？

Accepted Answer

**Opt.dat** ```tsv 1 108.5 3.2 Var1=10.9 Var2=9.8 Var3=8.3 100 200 Var4=6.9 2 Var5=10.9 0 Var6=3.4 1 Var7=2.3 2 Var8=5.7 3 ``` ```python import pandas as pd df = pd.read_table('Opt.dat', sep=r' (?:\w+=)?', header=None, engine='python') print(df) # 0 1 2 3 4 5 6 7 8 # 0 1 108.5 3.2 10.9 9.8 8.3 100 200.0 6.9 # 1 2 10.9 0.0 3.4 1.0 2.3 2 5.7 3.0 pd.set_option('display.max_columns', None) print(df.applymap(type)) # 0 1 2 3 # 0 # 1 # # 4 5 6 7 # 0 # 1 # # 8 # 0 # 1 ```

Answer

intにしたい列とfloatにしたい列があるならその指定は必要ですので、以下のようにする程度でしょう。

```python
>>> print(df)
   i    j       x     k      y
0  0  a=0  b=90.0   c=5  d=0.5
1  2  a=0  b=92.0   c=0  d=1.9
2  1  a=1  b=91.1   c=9  d=3.6
3  1  a=0  b=91.0  c=-3  d=6.8
4  2  a=2  b=92.2   c=8  d=2.1
>>> to_int = ['j', 'k']
>>> to_float = ['x', 'y']
>>>
>>> for c in to_int:
...     df[c] = df[c].str.replace('.+=', '', regex=True).astype(int)
...
>>> for c in to_float:
...     df[c] = df[c].str.replace('.+=', '', regex=True).astype(float)
...
>>> print(df)
   i  j     x  k    y
0  0  0  90.0  5  0.5
1  2  0  92.0  0  1.9
2  1  1  91.1  9  3.6
3  1  0  91.0 -3  6.8
4  2  2  92.2  8  2.1
```

関連した質問