質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
DataSet

DataSetは、ADO.NETアーキテクチャのコンポーネントです。データベースから取得したレコードをメモリ領域に格納するクラスを指します。データの保持やテーブル間のリレーション・制約といった保持も可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1985閲覧

[python3,pandas,DataFrame] ある特定の値のみを持つ行を抽出したい

nam19

総合スコア15

DataSet

DataSetは、ADO.NETアーキテクチャのコンポーネントです。データベースから取得したレコードをメモリ領域に格納するクラスを指します。データの保持やテーブル間のリレーション・制約といった保持も可能です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/06/05 17:21

csvファイルの時点で文字化けしている行の削除

競馬のクラス分類システムを作っています.
CSVファイルからDataFrameへ読み込み,データの整形を行おうと考えています.
その際,スクレイピングを行なった時点で文字化けしているデータの行を削除したいと考えています.

画像でのご説明になってしまうのですが,
13行目からが正しいデータで,それ以前のデータが文字化けしてしまっており,削除したい行となっております.

発生している問題・エラーメッセージ

イメージ説明
![イメージ説明]

該当のソースコード

python3

1keiba_data_set = pd.read_pickle('keiba_data_1_zido.pickle') 2 3keiba_data_set = keiba_data_set.replace('\x113', '0') 4keiba_data_set = keiba_data_set.replace('FALSE', '0') 5keiba_data_set = keiba_data_set.replace('12月13日', '0')

試したこと

出ている文字化けの文字を1つずつ,0に置き換えたり,行を削除しようかと考えていたのですが,本質的な解決にはならないと思い,質問させていただきました.

考えている,方向性としましては
①'確定着順'の列の値が1~18でなければ行を削除 もしくは 
②'確定着順'の列のtypeがint型でなければ削除

とするのが現実的かと考えております.

ぜひ,ご教授をお願いいたします.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

手順的には

  1. データが10進数表記かどうかを調べ、対象外のものを削除(Series.str.isdecimal())
  2. 上記のデータを数値型に変換(Series.astype())
  3. 上の数値データが範囲内かどうか調べ、対象外のものを削除(Series.between())

で良いかと思います。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.isdecimal.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.between.html

Python

1import pandas as pd 2import io 3 4data=""" 5確定順位 614 71 8308.7 912月13日 10108.5 11108.8 12101.4 131.1 149 150 165 178 189 197 2010 21""" 22 23df = pd.read_csv(io.StringIO(data)) 24 25df = df.loc[df['確定順位'].str.isdecimal()] 26df['確定順位'] = df['確定順位'].astype(int) 27df = df.loc[df['確定順位'].between(1,18)] 28print(df) 29# 確定順位 30#0 14 31#1 1 32#8 9 33#10 5 34#11 8 35#12 9 36#13 7 37#14 10

投稿2019/06/05 23:45

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nam19

2019/06/06 00:42

とてもわかりやすく,説明いただきありがとうございます. うまく削除することができました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問