質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.37%

pd.to_datetimeで複数のカラムを変換したい

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 4,640

score 63

前提・実現したいこと

ある購買データを使って分析しようとしています。
そこで、購入日などのデータをdatetime型に変換しよとしているのですが、
うまくいきません。

発生している問題・エラーメッセージ

ValueError: to assemble mappings requires at least that [year, month, day] be specified: [day,month,year] is missing

該当のソースコード

pd.to_datetime(data)['date_entry', 'yymm', 'birthday']


因みにdataの中にIDや購入店など、複数のカラムが入っています。

追記

以下も試しましたが

date = data[['date_entry', 'yymm_', 'birthday']]
pd.to_datetime(date, format='%Y%m%d')


エラー
File "<ipython-input-62-28f18f26d02f>", line 2
pd.to_datetime(date, format='%Y%m%d') #カラムをdatetime型に変換
^
SyntaxError: invalid character in identifier

となりました(´;ω;`)

そもそもpd.to_datetimeの使い方が違うのかもしれません。
勉強不足過ぎて申し訳ありませんが、
何卒宜しくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

+1

公式ドキュメントを読みましょう。
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html#pandas.to_datetime
ちゃんと使用例も載っています。

arg : integer, float, string, datetime, list, tuple, 1-d array, Series

と書かれているように、 to_datetime では DataFrame は使えません。

追記:最新版では使えることになっていますが、エラーメッセージにあるように複数のカラムで year, month, day  が指定されているときに使えるようです。詳しくはドキュメントの使用例を確認してください。

前回の質問で astype などを紹介されたと思うのですが、その類のものを探してみてはどうでしょうか?

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/07/19 15:49

    ご回答ありがとうございます。
    date =data[['date_entry', 'yymm', 'birthday']].astype(str)
    pd.to_datetime(date, format='%Y%m%d', errors='ignore')
    も試したのですが、
    ValueError: to assemble mappings requires at least that [year, month, day] be specified: [day,month,year] is missing
    と出てしまいました。
    ご指導ご鞭撻のほどよろしくお願いいたします。

    キャンセル

  • 2019/07/19 17:39

    ドキュメントにある例をじっくり読んで理解することから始めてください。
    手当たり次第にコードを書いて動くか動かないか運試ししても何も理解できないと思いますよ。

    ドキュメントにあるサンプルのデータフレームはこれですよ。
    df = pd.DataFrame({'year': [2015, 2016], 'month': [2, 3], 'day': [4, 5]})
    このような定義になっていない場合はそもそも pd.to_datetime を直接使うことはできません。
    magichanさんのような方法でそれぞれの値に変換を適用するしか無いでしょう。

    ところで、 'date_entry', 'yymm', 'birthday' のカラムの具体的な値がないので当てずっぽうの回答をするしかありませんね。各カラムについて具体的な値を質問に追記してください。

    キャンセル

+1

date = date[['date_entry', 'yymm_', 'birthday']].apply(pd.to_datetime)

で良いのではないでしょうか

一応動作サンプル

import pandas as pd

date = pd.DataFrame([['20100101','20110101','20120101'],
                     ['20100102','20110102','20120102'],
                     ['20100103','20110103','20120103']],
                    columns = ['date_entry','yymm_','birthday'])

date = date[['date_entry', 'yymm_', 'birthday']].apply(pd.to_datetime)
#  date_entry      yymm_   birthday
#0 2010-01-01 2011-01-01 2012-01-01
#1 2010-01-02 2011-01-02 2012-01-02
#2 2010-01-03 2011-01-03 2012-01-03

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/07/19 17:30

    とりあえず以下のように、エラー時に処理を停止しない(NaT を返す)ようにするのはどうでしょうか

    date = date[['date_entry', 'yymm_', 'birthday']].apply(lambda d:pd.to_datetime(d, errors='coerce'))

    キャンセル

  • 2019/07/19 17:40

    ありがとうございます!
    一旦いけたのですが、
    dataをdate[['date_entry', 'yymm_', 'birthday']]のように
    3つのカラムにするのではなく、
    他のカラムも残しつつdataの中の'date_entry', 'yymm_', 'birthday'だけを
    変換する方法はありますか?

    キャンセル

  • 2019/07/19 17:56 編集

    であれば、普通にループ処理を行った方が簡単ですね

    for col in ['date_entry', 'yymm_', 'birthday']:
    __df[col] = pd.to_datetime(df[col], errors='coerce')

    ↑ 2行目頭の __ はスペースです。

    キャンセル

check解決した方法

0

一つ一つに分けて実行してみたら意外とうまくいきました。

pd.to_datetime(df['yymm'], format='%Y%m')
pd.to_datetime(df['date_entry'])

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る