質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

2回答

319閲覧

pandas で任意の日付のデータ抽出

marimog

総合スコア1

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/10/31 23:46

python3 pandas を用いて任意の日付についてのデータ抽出を行いたいです。

時系列データをdatetime index に指定したのですが、どうしても以下のようなエラーメッセージを吐いてしまうため抽出できません。
分かる方がいましたらご教示願えると幸いです。
入力{4}:df_tran['buy_date'] = pd.to_datetime(df_tran['buy_date'])
df_tran['buy_date']
出力{4}:0 2019-11-22
1 2019-11-22
2 2019-11-22
3 2019-11-22
4 2019-11-22
...
22551 2019-03-07
22552 2019-03-07
22553 2019-03-07
22554 2019-03-07
22555 2019-03-07
Name: buy_date, Length: 22556, dtype: datetime64[ns]

入力{5}:df_trans = df_tran.set_index("buy_date")
df_trans.head(3)
出力{5} basket_id shop_id user_id item_id
buy_date
2019-11-22 1 7 88 10
2019-11-22 1 7 88 12
2019-11-22 1 7 88 18

入力{6}:df_trans['2020']
出力{6}:以下エラー文

発生している問題・エラーメッセージ

エラーメッセージ AssertionError Traceback (most recent call last) <ipython-input-7-0f0ed4f7e7f9> in <module> ----> 1 df_trans['2020'] ~\anaconda3\lib\site-packages\pandas\core\frame.py in __getitem__(self, key) 2883 # either we have a slice or we have a string that can be converted 2884 # to a slice for partial-string date indexing -> 2885 return self._slice(indexer, axis=0) 2886 2887 # Do we have a (boolean) DataFrame? ~\anaconda3\lib\site-packages\pandas\core\generic.py in _slice(self, slobj, axis) 3555 Slicing with this method is *always* positional. 3556 """ -> 3557 assert isinstance(slobj, slice), type(slobj) 3558 axis = self._get_block_manager_axis(axis) 3559 result = self._constructor(self._mgr.get_slice(slobj, axis=axis)) AssertionError: <class 'numpy.ndarray'> ### 該当のソースコード ```ここに言語名を入力 ソースコード

試したこと

ここに問題に対して試したことを記載してください。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

再現テストをしてみましたが、出てくるエラーが違っています。

python

1>>> print(df_trans) 2 basket_id shop_id user_id item_id 3buy_date 42019-11-22 1 7 88 10 52019-11-22 1 7 88 12 62019-11-22 1 7 88 18 7>>> df_trans['2020'] 8Traceback (most recent call last): 9 File "C:\Users\shinp\anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 3361, in get_loc 10 return self._engine.get_loc(casted_key) 11 File "pandas\_libs\index.pyx", line 76, in pandas._libs.index.IndexEngine.get_loc 12 File "pandas\_libs\index.pyx", line 108, in pandas._libs.index.IndexEngine.get_loc 13 File "pandas\_libs\hashtable_class_helper.pxi", line 5198, in pandas._libs.hashtable.PyObjectHashTable.get_item 14 File "pandas\_libs\hashtable_class_helper.pxi", line 5206, in pandas._libs.hashtable.PyObjectHashTable.get_item 15KeyError: '2020' 16 17The above exception was the direct cause of the following exception: 18 19Traceback (most recent call last): 20 File "<stdin>", line 1, in <module> 21 File "C:\Users\shinp\anaconda3\lib\site-packages\pandas\core\frame.py", line 3455, in __getitem__ 22 indexer = self.columns.get_loc(key) 23 File "C:\Users\shinp\anaconda3\lib\site-packages\pandas\core\indexes\base.py", line 3363, in get_loc 24 raise KeyError(key) from err 25KeyError: '2020'

こちらのエラーの原因は明らかです。
df_trans['2020']は、DetaFrameであるdf_transの'2020'列を取り出すという式です。
df_transには'2020'というcolumn名の列はないのでKeyErrorが出ています。

投稿2021/11/01 00:16

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

marimog

2021/11/01 00:24

回答ありがとうございます。 エラーについての内容は理解できました。 もし、上記のように日付のデータをdatetime indexに指定した場合、任意の日付のデータを取り出すためにはどのような方法があるのでしょうか。 聞いてばかりで申し訳ありませんが、ご教示いただけると助かります。
guest

0

ベストアンサー

下記のページが公式のドキュメントになります。
https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#partial-string-indexing

データフレームのインデックスがDateTimeIndexの場合、df['2020']で2020年のデータを取り出すことができます。
ppaulさんの回答でKeyErrorになっているのは2020年のデータがないからです。

ただ、上記ページのWarningのところにも書かれているように df['2020'] という表記が、2020年の行データを取り出したいのか、'2020'という列データを取り出したいのかあいまいという問題があるため、将来的にこの書き方はできなくなるというwarningが出るようになっています(ver 1.2.0以降)。

なので、以下のように書けばいいです。上記ページにより詳しく書いてあります。

python

1df.loc['2019'] 2df.loc['2019-02'] 3df.loc['2019-11-01']

ただ、こちらでは再現しない異なるエラーが出ているようなので、違う問題があるかもしれません。

追記
こちらのissueに上がっている問題かと思います。
https://github.com/pandas-dev/pandas/issues/35509
pandasを最新バージョンにアップデートするか、df_trans = df_trans.sort_index()で治るのではないかと。

投稿2021/11/02 06:11

編集2021/11/02 06:48
bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

marimog

2021/11/02 15:24

大変助かりました! バージョンを最新に変えて、改善出来ました。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問