質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

632閲覧

Pandasで指定した複数の列において、欠損していないデータを抽出する方法

green2021

総合スコア16

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/10/29 08:37

前提・実現したいこと

Pandasにおいて、指定した複数の列が欠損していないデータを抽出したいです。
csvファイルのデータを読み込み、指定した複数の列が欠損していないデータの抽出を試みたのですがうまくいきませんでした。
ソースコードにて表記しているcsvファイル内の列 'name'と'team'においてNaNとないっていないもの(この場合だと、idが1と3の)を取り出すにはどのようにしたらよいですか?
指定した一つの列が欠損していないデータの抽出は成功しました。

発生している問題・エラーメッセージ

line 4,in <module> data1 = data.loc[data['name','team'].notna()] KeyError: ('name', 'team') と出力されました。

該当のソースコード

Python

1import pandas as pd 2 3data = pd.read_csv('./data/sample2.csv',encoding='shift-jis',header=0) 4data1 = data.loc[data['name','team'].notna()] 5# data2 = data.loc[data['name'].notna()] 6# 指定した一つの列が欠損していないデータの抽出は、上記のdata2を用いてprint(data2)で成功しました。 7print(data1) 8 9#sample2.csv 10id,team,name,birth_year 111,A,sato,2000 122,B,,2001 133,C,tanaka,2002 144,,kimura,2003 15 16#sample2.csvでは、「id = 2は'name'」「id = 4は'team'」の値が欠損しています。 17#ですので、何も欠損していないid = 1,3のデータを抽出したいです。 18 19

試したこと

指定した一つの列が欠損していないデータの抽出にまねて、その要領で表示しました。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

all() メソッドを使います(axis=1 を指定することで行単位に適用します)。

python

1data1 = data[data[['name', 'team']].notna().all(axis=1)] 2print(data1) 3 4# 5 id team name birth_year 60 1 A sato 2000 72 3 C tanaka 2002

投稿2021/10/29 08:59

編集2021/11/01 07:37
melian

総合スコア19874

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

green2021

2021/11/01 07:30

ご返信ありがとうございます。 自分の例がいけなかったですね。 melianさんの回答は欠損しているデータを除外して表示されているかと思います。 しかし、以下のsample3.csvのように、Aの'birth_year'は欠損していますが、今回、注目しているのは「'name','team'」の欠損のみを考慮しています。 また、実際のプログラミングではもっと大量のデータを扱うので、上記の方法でご教授していただけると大変助かります。 せっかく返答を頂いたのに、追っての質問になり大変申し訳ございません #sample3.csv id,team,name,birth_year 1,A,sato, 2,B,,2001 3,C,tanaka,2002 4,,kimura,2003
melian

2021/11/01 07:38

こちらこそ質問文を的確に読んでいませんでした。すみません。「'name','team'」の欠損のみを考慮する様に変更しました。
green2021

2021/11/02 04:04

新たなサンプルコードまでいただきありがとうございます。 私の希望通りのものでした。 ぜひ参考にさせていただきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問