いま私が勉強している本で、気象庁のホームページから気温と年月日のデータをcsvで抽出して、データの整形をすることについて解説がなされています。
そしてPandasを用いて不要な行・列の削除をしようとしているのですが、どうしても書籍に書かれたやり方をしてもおかしなエラーが出てしまいます。
head()でデータフレームを表示すると以下のデータとなりますが、この0行目と2行目を削除したいのです。
NaN 東京 東京 東京
年月日 平均気温(℃) 平均気温(℃) 平均気温(℃)
NaN NaN 品質情報 均質番号
2010/1/1 4.8 8 1
2010/1/2 6.3 8 1
書籍では以下のコードとなっており、csvを読み込んで行を削除しようとしていますが、以下にあるようにエラーが出てしまいます。
Python
1import numpy as np 2import pandas as pd 3import seaborn as sb 4import matplotlib.pyplot as plt 5%matplotlib inline 6from datetime import datetime 7 8df=pd.read_csv('data.csv',encoding='shift-jis')#data.csvは既にダウンロード済みの気象庁のデータです。 9df=df.drop([0,2]).reset_index(drop=True) 10 11--------------------------------------------------------------------------- 12KeyError Traceback (most recent call last) 13~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance) 14 2896 try: 15-> 2897 return self._engine.get_loc(key) 16 2898 except KeyError: 17 18pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() 19 20pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() 21 22pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() 23 24pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() 25 26KeyError: 0 27 28During handling of the above exception, another exception occurred: 29 30KeyError Traceback (most recent call last) 31<ipython-input-41-5899c3676801> in <module> 32----> 1 df=df.drop([0,2]).reset_index(drop=True) 33 34~\Anaconda3\lib\site-packages\pandas\core\frame.py in drop(self, labels, axis, index, columns, level, inplace, errors) 35 4100 level=level, 36 4101 inplace=inplace, 37-> 4102 errors=errors, 38 4103 ) 39 4104 40 41~\Anaconda3\lib\site-packages\pandas\core\generic.py in drop(self, labels, axis, index, columns, level, inplace, errors) 42 3912 for axis, labels in axes.items(): 43 3913 if labels is not None: 44-> 3914 obj = obj._drop_axis(labels, axis, level=level, errors=errors) 45 3915 46 3916 if inplace: 47 48~\Anaconda3\lib\site-packages\pandas\core\generic.py in _drop_axis(self, labels, axis, level, errors) 49 3944 new_axis = axis.drop(labels, level=level, errors=errors) 50 3945 else: 51-> 3946 new_axis = axis.drop(labels, errors=errors) 52 3947 result = self.reindex(**{axis_name: new_axis}) 53 3948 54 55~\Anaconda3\lib\site-packages\pandas\util\_decorators.py in wrapper(*args, **kwargs) 56 206 else: 57 207 kwargs[new_arg_name] = new_arg_value 58--> 208 return func(*args, **kwargs) 59 209 60 210 return wrapper 61 62~\Anaconda3\lib\site-packages\pandas\core\indexes\multi.py in drop(self, codes, level, errors) 63 2150 for level_codes in codes: 64 2151 try: 65-> 2152 loc = self.get_loc(level_codes) 66 2153 # get_loc returns either an integer, a slice, or a boolean 67 2154 # mask 68 69~\Anaconda3\lib\site-packages\pandas\core\indexes\multi.py in get_loc(self, key, method) 70 2672 71 2673 if not isinstance(key, tuple): 72-> 2674 loc = self._get_level_indexer(key, level=0) 73 2675 return _maybe_to_slice(loc) 74 2676 75 76~\Anaconda3\lib\site-packages\pandas\core\indexes\multi.py in _get_level_indexer(self, key, level, indexer) 77 2937 else: 78 2938 79-> 2939 code = level_index.get_loc(key) 80 2940 81 2941 if level > 0 or self.lexsort_depth == 0: 82 83~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance) 84 2897 return self._engine.get_loc(key) 85 2898 except KeyError: 86-> 2899 return self._engine.get_loc(self._maybe_cast_indexer(key)) 87 2900 indexer = self.get_indexer([key], method=method, tolerance=tolerance) 88 2901 if indexer.ndim > 1 or indexer.size > 1: 89 90pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() 91 92pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() 93 94pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() 95 96pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() 97 98KeyError: 0 99
こちらがうまくいかない理由として、なぜか書籍上に記載のデータフレームではそれぞれ行の一番左(0列目?)に0,1,2,3と
インデックス振られているのに対して、私が気象庁からダウンロードしたものにはインデックスが降られていないのでこの
せいかな?と考えました。
print(df)
をやるとどうも行にも列にもインデックス的なものがないのです。
dropはindexがないものには扱えないのでしょうか。例えば、「インデックスとかは関係なしに、表示上の1行目を削除!」とか・・・・。
一方、列の削除も同じく試そうとしましたが、今度は書籍では0行目?に該当する行に列のインデックスのようなものが「Unnamed:1」「Unnamed:2」
などと記載されているデータフレームについて、以下のように列を削除すると記載があるのですが、どうも私がダウンロードしたファイル
にはそのような列のインデックス?のようなものがなく列の削除が以下のコードではできません。調べても分からず、どうすればよいか
どなたか教えていただけませんでしょうか?これはなにか本当はデータ上には存在するインデックスが見えないだけでしょうか?
Python
1df=df.drop(['Unnamed: 2','Unnamed: 3'],axis=1)
Unnamed1・・・というのがいわば「列のインデックス」である場合、このような列のインデックスがないようなものを
どうやって列削除するのでしょうか?
どなたかお分かりになる方、ご指導いただけませんでしょうか。
回答1件
あなたの回答
tips
プレビュー