[python3,pandas,DataFrame] ある特定の値のみを持つ行を抽出したい

csvファイルの時点で文字化けしている行の削除

競馬のクラス分類システムを作っています.
CSVファイルからDataFrameへ読み込み,データの整形を行おうと考えています.
その際,スクレイピングを行なった時点で文字化けしているデータの行を削除したいと考えています.

画像でのご説明になってしまうのですが,
13行目からが正しいデータで,それ以前のデータが文字化けしてしまっており,削除したい行となっております.

発生している問題・エラーメッセージ

![]

該当のソースコード

python3
1keiba_data_set = pd.read_pickle('keiba_data_1_zido.pickle')
2
3keiba_data_set = keiba_data_set.replace('\x113', '0')
4keiba_data_set = keiba_data_set.replace('FALSE', '0')
5keiba_data_set = keiba_data_set.replace('12月13日', '0')

試したこと

出ている文字化けの文字を1つずつ,0に置き換えたり,行を削除しようかと考えていたのですが,本質的な解決にはならないと思い,質問させていただきました.

考えている,方向性としましては
①'確定着順'の列の値が1~18でなければ行を削除　もしくは　
②'確定着順'の列のtypeがint型でなければ削除

とするのが現実的かと考えております.

ぜひ,ご教授をお願いいたします.

行動規範の内容に同意します

回答1件

ベストアンサー

手順的には

データが10進数表記かどうかを調べ、対象外のものを削除(Series.str.isdecimal())
上記のデータを数値型に変換(Series.astype())
上の数値データが範囲内かどうか調べ、対象外のものを削除(Series.between())

で良いかと思います。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.isdecimal.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.astype.html
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.between.html

Python
1import pandas as pd
2import io
3
4data="""
5確定順位
614
71
8308.7
912月13日
10108.5
11108.8
12101.4
131.1
149
150
165
178
189
197
2010
21"""
22
23df = pd.read_csv(io.StringIO(data))
24
25df = df.loc[df['確定順位'].str.isdecimal()]
26df['確定順位'] = df['確定順位'].astype(int)
27df = df.loc[df['確定順位'].between(1,18)]
28print(df)
29#    確定順位
30#0     14
31#1      1
32#8      9
33#10     5
34#11     8
35#12     9
36#13     7
37#14    10