Python Dataframe内のデータで正規表現に部分一致する文字列の置き換え

Question

### 前提

２つのcsvの比較を行いたいです。
このcsvデータは以下の特徴があります。
①ランダムにデータの文頭文末に空白が入っている
②数値の桁数が揃っていない
例）dataframe1
1,   みかん,300,  18.00
2,りんご,  100,32.50

dataframe2
1 ,みかん, 300,  18.0
2,りんご , 100, 32.5

データを比較するにあたりデータ加工を行います。
まずは①部分をそろえるため、csvを文字列で読込んだ後にデータの前後の空白を削除しました。

次に数字（データ型は文字列）の桁数をそろえるために
re.subを使用し正規表現でマッチしたした箇所を置換しようとしましたが、想定通りに動きません。また dataframe.applymap('{:.1f}'.format(***))のように記載できるかとも思いましたが、***に記載する項目が分かりませんでした。
どなたかアドバイス願えますでしょうか。

### 実現したいこと
加工前）
dataframe1
1,   みかん,300,  18.00
2,りんご,  100,32.50

dataframe2
1 ,みかん, 300,  18.0
2,りんご , 100, 32.5

加工後）データの空白削除、桁数揃え
dataframe1
1,みかん,300,18.0
2,りんご,100,32.5

dataframe2
1,みかん,300,18.0
2,りんご,100,32.5

### 該当のソースコード

```Python
df1 = pd.read_csv(filepath1, header=0, dtype=str, na_filter=False)
df2 = pd.read_csv(filepath2, header=0, dtype=str, na_filter=False)
df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
df1 = df1.applymap(str.strip) #空白削除
df2 = df2.applymap(str.strip) #空白削除

df1= df1.applymap(lambda x: re.sub(r'.[0-9]0', r'.[0-9]', x))
df2= df2.applymap(lambda x: re.sub(r'.[0-9]0', r'.[0-9]', x))
```

### 実行結果
dataframe1
1,みかん,300,18.**[0-9]**
2,りんご,100,32.**[0-9]**

dataframe2
1,みかん,300,18.0
2,りんご,100,32.5

Python初心者のため、初歩的な質問でしたら申し訳ございません。
宜しくお願い致します。

Answer

※ 最初の行がヘッダとは思えないので、`read_csv()` の `header=0` を `header=None` に変更しています。
```python
import pandas as pd

filepath1 = 'dataframe1.csv'
filepath2 = 'dataframe2.csv'

df1 = pd.read_csv(filepath1, header=None, dtype=str, na_filter=False)
df2 = pd.read_csv(filepath2, header=None, dtype=str, na_filter=False)

#df1.reset_index(drop=True, inplace=True)
#df2.reset_index(drop=True, inplace=True)
df1 = df1.applymap(str.strip) #空白削除
df2 = df2.applymap(str.strip) #空白削除

df1.iloc[:,-1] = df1.iloc[:,-1].astype(float).map('{:.1f}'.format)
df2.iloc[:,-1] = df2.iloc[:,-1].astype(float).map('{:.1f}'.format)

print(df1)
print(df2)

#    0       1    2     3
# 0  1  みかん  300  18.0
# 1  2  りんご  100  32.5
#
#    0       1    2     3
# 0  1  みかん  300  18.0
# 1  2  りんご  100  32.5
```

Answer

「桁数をそろえる」という部分がうまく把握てきているか分かりませんが、あくまで文字列として正規表現でやるとしたら以下のような感じでどうでしょうか。
```Python
import pandas as pd
import re

df = pd.DataFrame(['100','300','18.00','32.50','18.0','32.5','1.000','1.234'])
df = df.applymap(lambda x: re.sub(r'(\.\d)0+', r'\1', x))
print(df)
"""
       0
0    100
1    300
2   18.0
3   32.5
4   18.0
5   32.5
6    1.0
7  1.234
"""

Answer

re.sub()の書き方の話になりますが、第二引数に第一引数のマッチした部分を使うには　第一引数側で ()で囲み、第二引数側で\1,\2のように順に参照していくことになります。
```Python
re.sub(r'([0-9]+).([0-9])', r'\1.\2', item)
```
現状のコードの第二引数内、 [0-9]は正規表現でなくただの文字列として見られているわけですね

(...ちなみに、この方法だと 12.31と12.39が同じになると思うのですが大丈夫ですか？)

前提

実現したいこと

該当のソースコード

実行結果

関連した質問