質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

637閲覧

[python]pandas での重複削除について

Dadada_c.

総合スコア59

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/06/27 23:45

編集2018/07/03 05:23

#pandasで読み込んだcsv処理(重複削除&文字列置き換え)について

いつもありがとうございます。優しいご指導を頂けているおかげで勉強する意欲がでてきます!
今回も何卒宜しくお願い致します。

pandasで読み込んだcsvで重複を削除し、そのあとに指定列の中の指定文字列を置き換えたいです。

# coding: UTF-8 #!/usr/bin/env python import pandas as pd df = pd.read_csv('1.csv',encoding='shift_jis') delete = df.drop_duplicates(['カラム1','カラム2']) df['カラム3'].str.replace('/','') df['カラム4'].str.replace('1921','19').str.replace('1800','18') delete.to_csv('sample.csv',encoding='shift_jis',mode='w')

df.drop_duplacates で二つのカラムを比較して重複を削除し、
指定のカラムの中の「/」を削除と指定文字列の置き換えを行いたく、
処理を書いてみたのですが下記のエラーがでます。
dfに対して .str が不可なのは理解できたのですが、どのように書いていいか見当がつかず、
ご質問させていただきました。

なにか参考にすればいいインデックスなどがございましたら合わせてご教示頂けると幸いです。
お手数をおかけしますが宜しくお願い致します。

#追記(エラーについて)
大変失礼致しました。エラー内容は下記になります。
よろしくお願い致します。

AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas

#修正コード

python

1 2df = pd.read_csv('1.csv',encoding='shift_jis') 3delete = df.drop_duplicates(['注文番号','注文者郵便番号1']) 4df['お届け時間帯'].replace(1921,19).replace(1416,14) #int64 5df['お届け日指定'].str.replace('-' , '') #object (-を削除) 6 7delete.to_csv('sample.csv',encoding='shift_jis',mode='w') 8

重複した値を削除して、残ったデータ中の指定カラムで指定文字列を置き換えて、
最後はそのリストをcsvに出力したいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kentashx

2018/06/28 00:10

下記のエラーとは,どのエラーを指すのでしょうか?
efcode

2018/07/01 22:17

1.csvも提示してください。
guest

回答1

0

ベストアンサー

とりあえず、

Python

1print(df.dtypes)

を実行して、各列がどのような型を取っているのかを把握してください。

で、pandasのString accessor df.str ですが、これは対象となる列がObject型の時に、要素となる文字列にアクセスする為のものであるので、数値型の列などで使用しようとすると質問で記述されておりますエラーが発生します。

対策に関しては、実際のデータが提示されていないので私の想像になりますが、

Python

1df['カラム4'].str.replace('1921','19').str.replace('1800','18')

の箇所で、'カラム4'は 実際は数値型なのではないでしょうか?

その場合 行いたいことは文字列の置き換えではなくて数値の置き換えですので

Python

1df['カラム4'].replace(1921,19).replace(1800,18)

で良いかと思います。

投稿2018/07/02 00:10

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Dadada_c.

2018/07/03 05:25

ご回答ありがとうございます!上記にプログラムを修正した通りに行ってみたのですが、文字が置き換わらりません。。添付ファイルを添付しますのでご教示頂けますと幸いです。 何卒宜しくお願い致します。 https://15.gigafile.nu/0710-c88435bf770e4ec249048e74069466645
magichan

2018/07/03 05:41

データありがとうございます。 文字が置き換わらない原因ですが、文字置換をした結果で上書きしていないからですね。 以下のように記述してみてください。 df['お届け時間帯'] = df['お届け時間帯'].replace(1921,19).replace(1416,14) df['お届け日指定'] = df['お届け日指定'].str.replace('-' , '') あと、"お届け日時指定" ですが、現状では文字列で取り込んでおりますが、用途によっては datetime型で取り込んでも良いかもしれません df = pd.read_csv('1.csv',encoding='shift_jis', parse_dates=['お届け日指定'])
Dadada_c.

2018/07/10 08:16

回答が遅くなりまして申し訳ございません!出張が重なり・・・無事できました!! いつもご丁寧に助けてくださりまして本当にありがとうございます!今後ともよろしくお願いいたします
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問