【python】文字列から、数値と文字に分ける方法を教えてください。

元がcsvのデータで、数値と文字の混ざった列があります。
このままpandasのread_csvで読み込むと、「object」になります。

これを、数値と文字に分けたいのですが、方法がわかりません。

例えば、以下のように数字は整数と少数が混在しておりますが、
文字部分は日本語に限られています。

変換前変換後
1.2 －－＞1.2
2後半ーー＞2 ,後半
3弱ーー＞3 ,弱
3半ーー＞3 ,半
2.5 －－＞2.5

データフレームにしてから以下のように試してみましたが、これでは小数点を考慮できず、
「1.2」ー＞「1」となってしまいました。

python
1df[カラム名].str.extract('([0-9]+)').astype(float)

正規表現もよく理解できておらず恐縮ですが、どうぞよろしくお願いいたします。

行動規範の内容に同意します

回答2件

ベストアンサー

数字、日本語の順で固定ならば、([0-9]+?)([^0-9.]+?)という正規表現を使ってみてください。
Match の第一グループに数字が、第二グループに数字でない部分が入ります。
数字のみで日本語がなかった場合には、第二グループが空文字になります。

投稿2016/06/13 06:42

Zuishin

総合スコア0

Zuishin

2016/06/13 06:46

もちろん、re.match を使ってください。

uraco

2016/06/13 06:54

丁寧なご説明、ありがとうございます。「^」を使うとよいのですね、勉強になりました。＞[^0-9.]が「0～9とピリオドを除く一文字」とのことで、以上に倣い以下のようにしましたところ、「2後半」ーー＞「後」と一文字になってしまいました。「後半」と2文字を取り出すにはどうしたらよいでしょう？ df[カラム名].str.extract('([^0-9.]+?)') 正規表現への理解もpythonの理解も浅く、申し訳ないです・・・。

Zuishin

2016/06/13 06:58

最長一致の原則から、それで最後まで取れるはずなのですが、+を全角にしていたりしていませんよね？半角になっていましたらごめんなさい。保険で+と?の間に半角の＄を入れてみて下さい。

uraco

2016/06/13 07:11

('([^0-9.]+$?)')としてみましたら、エラーが出ちゃいました。「nothing to repeat」しかしながら、1文字でもなんとかなりそうなので、これでやってみます！早々に助けていただき、ありがとうございました！

Zuishin

2016/06/13 07:31

＄と?の位置を逆にしてみたらどうですか？

uraco

2016/06/13 07:58

('([^0-9.]+?$)')　でできました！！ありがとうございました！正規表現を理解できると、データセットが楽になりそうです。これを機に、勉強します！