質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

2949閲覧

pandasでのデータ操作方法について.3連続で要素が存在する部分を抽出したい

退会済みユーザー

退会済みユーザー

総合スコア0

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2018/11/27 14:04

編集2018/11/27 14:06

欠損が多いデータフレームから,横に3連続以上要素(データ)が存在している部分だけ残すデータフレームを作成したいのですが,上手く該当部分だけ抽出することが出来ず,困っています.
ご教授いただければ幸いです.

具体的なやりたいことは,
df1があったとき
|A|B|C|D|E|F|G
|:--|:--:|--:|
|NaN|4|2|3|NaN|NaN|6
|NaN|NaN|2|5|4|5|NaN
|NaN|1|2|NaN|4|5|NaN
|1|1|2|NaN|4|5|6

1行目B~D列のように要素が3連続以上存在する場合はその部分だけ抽出して,要素が存在しても3連続未満の場合はNaNにしたいです.
抽出した結果できるデータフレームは下の表のようになっているのが理想です.
|A|B|C|D|E|F|G
|:--|:--:|--:|
|NaN|4|2|3|NaN|NaN|NaN
|NaN|Nan|2|5|4|5|NaN
|NaN|NaN|NaN|NaN|NaN|NaN|NaN
|1|1|2|NaN|4|5|6

現在,書いたコードと結果は下記のとおりです.
3行目E,F列をNaNにしたいのですが,どうしたら思い通りに出力されるのかわかりません.

python3.6

1import pandas as pd 2 3dff1=df1.copy() 4 5for n in range(5): 6 if n == 0: 7 dff1.loc[dff1.iloc[:,n:n+3].isnull().any(axis=1),collist[n:n+3]]="NaN" 8 9 else: 10 dff2 = df1.copy() 11 dff2.loc[dff2.iloc[:,n:n+3].isnull().any(axis=1),collist[n:n+3]]="NaN" 12 dff1.iloc[:,n:n+3]=dff1.replace("NaN",dff2.iloc[:,n:n+3])

結果:
|A|B|C|D|E|F|G
|:--|:--:|--:|
|NaN|4|2|3|NaN|NaN|NaN
|NaN|Nan|2|5|4|5|NaN
|NaN|NaN|NaN|NaN|4|5|NaN
|1|1|2|NaN|4|5|6

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

各行に対して以下のfillNaN関数を適用すればよいかと思います。

Python

1a = [[None,4,2,3,None,None,6], 2 [None,None,2,5,4,5,None], 3 [None,1,2,None,4,5,None], 4 [1,1,2,None,4,5,6]] 5 6df = pd.DataFrame(a,columns=[i for i in 'abcdefg']) 7print(df) 8 9def fillNaN(row): 10 prev = [] # 非NaNな要素位置 11 for i,v in enumerate(row): 12 if np.isnan(v): 13 if len(prev) < 3: # それまでの非NaNな要素が3個未満 14 for i in prev: # NaNに置き換え 15 row[i] = np.NaN 16 prev = [] 17 else:# 非NaNな要素位置を記録しておく 18 prev.append(i) 19 20 if len(prev) < 3: 21 for i in prev: 22 row[i] = np.NaN 23 24 return row 25 26df2 = df.apply(func,axis=1) 27print(df2) 28""" 29 a b c d e f g 300 NaN 4.0 2.0 3.0 NaN NaN NaN 311 NaN NaN 2.0 5.0 4.0 5.0 NaN 322 NaN NaN NaN NaN NaN NaN NaN 333 1.0 1.0 2.0 NaN 4.0 5.0 6.0 34"""

投稿2018/11/27 14:38

can110

総合スコア38262

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/11/27 16:38

教えていただいた方法で解決しました! ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問