質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.37%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

30635閲覧

pandas データフレームをstr.contains()で処理し、nan値を無視したい

ak_miyamoto

総合スコア31

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2018/01/11 06:41

環境:python3,Win10,jupyter

初学者です。表題のような処理をしたいと考えております。

具体的には以下のようなデータフレームに対して

df1

列1列2列3
まいう10
えほあ10
いさえ20
おあい89

(実際にはかなり長く、全部見ることができません。)

以下のような処理をしたところ、

Python3

1#上の成果物から列1に「う」がふくまれるものだけ読み込む。 2contain = df1[df1["列1"].str.contains("う")]

以下のようなエラーを得ました。

ValueError Traceback (most recent call last) <ipython-input-114-61dba3eb4c39> in <module>() (中略) ~\Anaconda3\lib\site-packages\pandas\core\frame.py in __getitem__(self, key) 1956 if isinstance(key, (Series, np.ndarray, Index, list)): 1957 # either boolean or fancy integer index -> 1958 return self._getitem_array(key) 1959 elif isinstance(key, DataFrame): 1960 return self._getitem_frame(key) ~\Anaconda3\lib\site-packages\pandas\core\frame.py in _getitem_array(self, key) 1983 def _getitem_array(self, key): 1984 # also raises Exception if object array with NA values -> 1985 if com.is_bool_indexer(key): 1986 # warning here just in case -- previously __setitem__ was 1987 # reindexing but __getitem__ was not; it seems more reasonable to ~\Anaconda3\lib\site-packages\pandas\core\common.py in is_bool_indexer(key) 187 if not lib.is_bool_array(key): 188 if isnull(key).any(): --> 189 raise ValueError('cannot index with vector containing ' 190 'NA / NaN values') 191 return False ValueError: cannot index with vector containing NA / NaN values

以下のサイトで述べられていることが解決策に近いかと思いますが、いまいちここから何をしたらよいのかわかりません。教えて下さると幸いです。

https://stackoverflow.com/questions/28311655/ignoring-nans-with-str-contains

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

提示サイトの回答にも記載されていますがna=FalseNaNを無視できます。

Python

1import pandas as pd 2df = pd.DataFrame( {'c1':[pd.np.nan,'い','う'], 'c2':['か', 'き', 'く']}) 3df = df[df['c1'].str.contains('う', na=False)] 4print(df)

投稿2018/01/11 06:52

can110

総合スコア38339

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ak_miyamoto

2018/01/11 08:18

contains()の()の中に入れるんですね!勘違いしていました。 本日は立て続けに3つもお答えくださり、大変助かりました。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問