不要な文字列を削除してデータ型を変換したいが警告が出る

エクセルファイルから読み込んで連結した文字列のデータフレームがあるとします。

import pandas as pd
import numpy as np

data = [["ID", "Name", "Data"],
         ["000001", "AAA", "130      "],
         ["000002", "BBB", "37.1     "],
         ["000003", "CCC", "16       "],
         ["ID", "Name", "Data"],
         ["000011", "BBB", "       "],
         ["000012", "CCC", "25.4     "]]
col = ["ID", "Name", "Data"]
df = pd.DataFrame(data, columns=col)

１．ID列は、0とIDの文字列が含まれた文字列になっており、int64型に変換したいです。
２．Data列は、数字の後ろにいくつかの空白が含まれた文字列になっており、float型に変換したいです。

ID列については以下のコードとしました。


df = df[~df["ID"].str.contains("ID")]    # ID列にIDのある行を削除
df["ID"] = df["ID"].astype("int64")      # int64に変換

この場合、動作はしますが SettingWithCopyWarning: という警告が出ます。
そこで、 documentを参考に以下のコードに書き換えました。

df = df[~df["ID"].str.contains("ID")]    # ID列にIDのある行を削除
df.loc[:, ("ID")].astype("int64")　　　 　  # int64に変換

この場合は警告は出ませんが、当然、元のdfに反映されないので最終的にはobject型のままです。

同様にData列も

df["Data"] = df["Data"].str.strip()           # 空白文字を削除
df["Data"].replace("", np.nan, inplace=True)  # 空白行にNaNを入れる
df["Data"] = df["Data"].astype(float)         # floatに変換

で動作はするのですが、3行それぞれに警告が出てしまいます。
これも以下のように書き換えるのですが、

df.loc[:, ("Data")].str.strip()
df.loc[:, ("Data")].replace("", np.nan, inplace=True)
df.loc[:, ("Data")].astype(float)

これも各行が元のdfに反映していないため動作しません。

いつもは、inplace=True をどこかに入れたりするのですが書き方がよく解りません。他にはそれぞれ列を別に作ってデータフレームを再構築するとか考えましたが、もっとスマートな方法があれば、ご教授よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

以下のようにコピーを作ってから普通にやれば良いのではないですか。

python
1>>> df = pd.DataFrame(data, columns=col)
2>>> df = df[~df["ID"].str.contains("ID")].copy()
3>>> df["ID"] = df["ID"].astype("int64")
4>>> df["Data"] = df["Data"].str.strip()
5>>> df["Data"].replace("", np.nan, inplace=True)
6>>> df["Data"] = df["Data"].astype(float)
7>>> print(df)
8   ID Name   Data
91   1  AAA  130.0
102   2  BBB   37.1
113   3  CCC   16.0
125  11  BBB    NaN
136  12  CCC   25.4