Pandasで、文字列が混在したデータフレームを数値化する方法を教えて頂けませんか

Pandasのデータテーブルに、文字列が混ざっています。数値(整数：int)にする方法がうまくいきません。アドバイスを頂けますでしょうか。

やりたいこと

以下、現在のdataflame(以下、df)に対して、

date	item	sales
2018-1-1	トマト	983220
2018-1-1	りんご	233320
2018-1-2	みかん	29.1万円
2018-1-3	トマト1	983220
2018-1-4	りんご1	233320
2018-1-5	ぶどう	19.1万円

sales列の中から、万円の文字を削除し、さらに1000倍して桁数をあわせ、全て整数(int型)に統一したいです。

以下、希望のデータフレームのようにしたいです。

date	item	sales
2018-1-1	トマト	983220
2018-1-1	りんご	233320
2018-1-2	みかん	291000
2018-1-3	トマト1	983220
2018-1-4	りんご1	233320
2018-1-5	ぶどう	191000

試したこと

まず、考えたのは、

万円を replace関数で削除する
1000倍する(float()と、*1000)
数値(整数)にする(int())

そして、これをfor文で繰り返す。

ということです。私が考えたのは、以下のようなコードです。

python
1for i in range(1,len(df['sales'])):
2    if "万" not in df.loc[i,'sales']:
3        df.loc[i,'sales'] = int(df.loc[i,'sales'])
4    else:
5        df.loc[i,'sales'] =  int(float(df.loc[i,'sales'].replace('万',''))*1000)

教えて頂きたいこと

1.FOR文、IF文の書き方の誤りについて

上記のコードのうち、最下部の

python
1int(float(df.loc[i,'sales'].replace('万',''))*1000)

をfor文、及びif文を使わずに、1つのセルだけ置換、1000倍、型変換をすると、求める数値が算出できます。しかし、for文やif文を使うとエラーがでてしまいます。for文、if文の誤りをご指摘いただけないでしょうか。

1.FOR文、IF文を使わないスマートな方法を教えていただけませんでしょうか。

いろいろ調べていると、map関数、Lambda式など、もう少しスマートな方法があるようなことを知りました。わたしのやりたいことに照らし合わせると、FOR文やIF文は、相応しくないのでしょうか？アドバイスいただけると幸いです。

環境

Macbook pro
Anaconda
Python 3.6
Jupyter notebook
panas

お忙しいとは思いますが、よろしくお願いいたします。
情報に不足がありましたら、ご指摘くださいませ。

行動規範の内容に同意します

回答1件

ベストアンサー

行データ内のsales列を整数の円に換算する関数toYenを用意し
.map(toYen,axis=1)で行毎に適用するとよいです。

Python
1import pandas as pd
2df = pd.DataFrame({'date':['2018-1-1','2018-1-1'],'item':['tomato','orange'],'sales':['983220','29.1万円']})
3print(df)
4"""
5       date    item   sales
60  2018-1-1  tomato  983220
71  2018-1-1  orange  29.1万円
8"""
9
10# salesを整数の円に換算
11def toYen(row):
12    sales = row['sales']
13    pos = sales.find('万')
14    if pos < 0:
15        sales = int(sales)
16    else:
17        sales = int(float(sales[:pos]) * 10000) # 「万」の手前までの数値を抽出し１万倍する
18
19    row['sales'] = sales
20    return row
21
22df.apply(toYen,axis=1) # 行毎に処理
23print(df)
24"""
25       date    item   sales
260  2018-1-1  tomato  983220
271  2018-1-1  orange  291000
28"""