質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

623閲覧

Python機械学習、データフレームの数字でない要素をNaNに置き換えたい

nouken

総合スコア369

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/04/20 09:11

前提・実現したいこと

機械学習における、データフレームの処理についてです。
データフレームで欠損値(様々な理由により計算されなかった記述子で具体的にはdivide by zero encountered in power (mZagreb1)などのアルファベットです)を含むコラム(列)を削除したいのですが、それらはそのままではNaNと認識されないため、dropnaなどがこのままでは使えません。そこで欠損値がアルファベットであることを利用してdtypeがint, np.int64, float, np.float64以外の要素をNaNに置き換えようとDataframe.replaceを用いたいのですが、エラーが出ました。

発生している問題・エラーメッセージ

AttributeError Traceback (most recent call last)
<ipython-input-71-1d526834871a> in <module>()
1 for i in range(0, 4838):
2 for j in range(1,3661):
----> 3 if not D1.iloc[i, j].dtype=='int' or 'np.int64' or 'float' or 'np.float64':
4 D1.replace(D1.iloc[i, j], np.nan)

AttributeError: 'float' object has no attribute 'dtype'

該当のソースコード

for i in range(0, 4838):
for j in range(1,3661):
if not D1.iloc[i, j].dtype=='int' or 'np.int64' or 'float' or 'np.float64':
D1.replace(D1.iloc[i, j], np.nan)

試したこと

ここに問題に対して試したことを記載してください。

補足情報(FW/ツールのバージョンなど)

なお、D1は4838行×3661列のデータフレームであり、一番左の一列を除くすべてが置き換えの対象です。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

条件文を isinstance() を使って

if isinstance(D1.iloc[i,j], str):

のようにするとよいのではないでしょうか。

あと、個人的には 2重ループを回すのはお勧めしません。
とりあえずDataFrame.applymap() あたりで置き換えてみたら
よいかと思います。

Python

1# applymapでセルの値が文字列の箇所を調べる 2is_str = D1.applymap(lambda d:isinstance(d, str)) 3# 一番左の一列を除外 4is_str[0] = False 5# stringの箇所を Nan にする 6D1 = D1.mask(is_str)

投稿2018/04/20 10:30

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nouken

2018/04/21 00:50

今試したところ、問題のセル(記述子計算がうまくいっていないところ。divide by zero encountered in power (mZagreb1)など。)がstrと認識されずisinstanceがすべてFalseとなってしまっています。ちなみにこの問題のセルにアクセスしますと<mordred.error.Missing at 0x28a5047b6d8>と表示されます。確かにstrではない気もするのですが、どのような条件でひっかかるのかがわかりません。お手数をおかけします。
zyagaimo918

2018/04/24 02:42 編集

一度、型を確認してください print(D1.dtypes)
guest

0

type(D1.iloc[i, j])

とりあえずの対処対症療法。
http://d.hatena.ne.jp/keywordtouch/%C2%D0%BD%E8%CE%C5%CB%A1

投稿2018/04/20 09:48

編集2018/04/24 09:14
mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

KojiDoi

2018/04/24 02:19

対症療法ですね。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問