質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.02%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

Pythonのpandasを使って'?'の文字列が含まれている行を削除したい

chutora
chutora

総合スコア9

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

2回答

0グッド

1クリップ

6845閲覧

投稿2019/08/04 16:25

前提・実現したいこと

pythonのpandasで特定の文字列を含む行を削除するコードが正常に機能しないです。

発生している問題・エラーメッセージ

以下のtxtファイル(かなり量が多いので...で行を省略しています)
...
1056784,3,1,1,1,2,1,2,1,1,2
1057013,8,4,5,1,2,?,7,3,1,4
1059552,1,1,1,1,2,1,3,1,1,2
...
に対して

Python3

1import numpy as np 2import pandas as pd 3data = np.loadtxt('./breast-cancer-wisconsin.txt', delimiter=',',dtype='str') 4df = pd.DataFrame(data)

を使用してdfにデータを格納後、不正な文字列'?'が存在していることに気づきました。
全部6列目にあったのでこれを消すために

Python3

1df[~df[6].str.contains('?')]

として文字列'?'を消去しようとしたのですが、以下のエラー文が出てきました。

*** re.error: nothing to repeat at position 0

str.contains()の中身を'1'や'2'で試すと上手くいくのですが'?'の時にエラーが出ます。
分かる方がいらっしゃいましたら教えて頂けると嬉しいです。
ちなみに、もう少し細かいdfの中身は以下の通りです。(25行目まで出力、23行6列に該当の?が存在します。)
イメージ説明

補足情報(FW/ツールのバージョンなど)

Anaconda
python3.7.3
MacBook (Retina, 12-inch, Early 2016)

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

meg_

2019/08/04 16:47

「文字列'?'を消去」とは「?」を""で置き換えるという意味ですか? それとも「NaN」にするのでしょうか?
chutora

2019/08/05 00:28

失礼しました、?を含む行の消去です。

回答2

2

ベストアンサー

numpy.loadtxt -> pandas.DataFrame でなく、pandas.read_csv で直接読み込んだほうがいいと思います。
その際に ? は欠損値を意味するようなので、na_values="?" として欠損値を表す NaN に変換するように指定します。

欠損値が含まれる行を削除したい場合は、その後に dropna をお使いください。

pandas.read_csv — pandas 0.25.0 documentation

pandas.DataFrame.dropna — pandas 0.25.0 documentation

python

1import pandas as pd 2 3df = pd.read_csv("breast-cancer-wisconsin.txt", na_values="?") 4 5# NaN が含まれる行を削除する。 6df.dropna(inplace=True)

投稿2019/08/04 16:57

編集2019/08/04 16:58
tiitoi

総合スコア21939

chutora, hayataka2049👍を押しています

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

chutora

2019/08/05 00:27

ありがとうございます! read_csvには引数で欠損値を変換する指定が出来るのですね… 実は今日はじめてpandasを使って右も左もわからない状態だったのでとても助かりました!

1

?はcontainの中では正規表現となりますのでエスケープが必要です。

python

1df[~df[6].str.contains('?')]

投稿2019/08/04 17:16

meg_

総合スコア9898

chutora👍を押しています

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

chutora

2019/08/05 00:08

ありがとうございます、動きました!なるほど、正規表現で特殊文字をマッチさせる事に内部的にはなっているのでエスケープが必要になるのですね…

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.02%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。