Python Pandas DataFrameにおける文字列の操作方法

前提・実現したいこと

1.DataFrameにおいて文字列の操作方法を知りたい。
2.DataFrameとSeriesの違いを理解したい。

発生している問題・エラーメッセージ

下記ソースコードにおいて、print(lists1)は正常に動作し、['111', '222', '333']と返ってきますが、print(lists2)は、「AttributeError: 'int' object has no attribute 'replace'」とエラーが表示されます。

該当のソースコード

import pandas

lists1 = pandas.Series(['/111/', '/222/', '/333/'])
lists1 = [i.replace('/', '') for i in lists1]
print(lists1)

lists2 = pandas.DataFrame(['/111/', '/222/', '/333/'])
lists2 = [i.replace('/', '') for i in lists2]
print(lists2)

試したこと

Seriesは一次元、DataFrameは二次元のデータ構造だという説明を見かけました。

lists1 = pandas.Series(['/111/', '/222/', '/333/'])

lists2 = pandas.DataFrame(['/111/', '/222/', '/333/'])

この二つをprintしてを見比べてみると、lists1には列名はつきませんが、lists2は、列名「0」がつくことまでは確認できました。ただ、全1列のデータとして見たときに、この二つがどう違うのかがよく理解できておりません。またなぜ、エラーが「'int' object」なのかもピンときておりません。

ストレートに知りたいことは、DataFrame(['/111/', '/222/', '/333/']で、スラッシュを削除する方法です。加えて、SeriesとDataFrameの理解につながるようなアドバイスをいただければ幸いです。

行動規範の内容に同意します

回答1件

ベストアンサー

DataFrameに対してforを使ったり、listに変換したりして直接iterableとして扱った場合、列名が出てくる仕様になっています。デフォルトでは整数の列名が振られますので、質問文のようなエラーになります。

python
1>>> import pandas as pd
2>>> df = pd.DataFrame(["hoge", "fuga"])
3>>> list(df)
4[0]

質問文のような変換を行う場合は、0の列だけ取り出してSeriesとして扱います。内包表記でもいいですし、strアクセサを使えばdf[0].str.replace("/", "")のように一括で処理することもできます。

投稿2019/07/04 16:00

hayataka2049

総合スコア30933

mja

2019/07/05 14:42

迅速でわかりやすいご回答ありがとうございます。よく理解できました。 >DataFrameに対してforを使ったり、listに変換したりして直接iterableとして扱った場合、列名が出てくる仕様になっています。そういうことだったんですね、、、。listに変換してなぜ中身が消えてしまうんだろうとも思っていたんですが、消えたわけではなく列名が出ていただけだったのか、、、。ありがとうございました！

行動規範の内容に同意します