一旦保存したNested Pandas.DataFrameを使ってNumpy.arrayに変換したい

以下の様なPandas.DataFrameを持っていたとします。

lang
1import pandas as pd
2example = [
3    {"ID":0, "text":["May", "the", "force", "be", "with", "you"]},
4    {"ID":1, "text":["Do", "or", "Do", "not", "there", "is", "no", "try"]},
5    {"ID":2, "text":["Star", "wars", "episode", "7"]}
6]
7dataframe = pd.DataFrame(example)
8>>Out: 
9   ID                                   text
100   0       [May, the, force, be, with, you]
111   1  [Do, or, Do, not, there, is, no, try]
122   2               [Star, wars, episode, 7]

このデータフレームから各カラムを抽出してnumpy.arrayに型変換するのは、以下の手順で行なうことが可能です。

lang
1import numpy as np
2np.array(dataframe["ID"])
3>>Out: array([0, 1, 2])
4np.array(dataframe["text"][0])
5>>Out: ['May', 'the', 'force', 'be', 'with', 'you']

しかし、このデータフレームを一旦保存してから取得しようとすると上手く行きません。

lang
1dataframe.to_csv("dataframe.tsv", sep="\t", index=None)
2dataframe_load = pd.readc_csv("data_frame.tsv", sep="\t")
3np.array(dataframe_load["text"][0])
4>>Out: "['May', 'the', 'force', 'be', 'with', 'you']"

一旦保存することで、DataFrameのうち、Nestされた部分は配列ではなく、文字列として扱われてしまうようです。これには何か解決策はあるでしょうか？
宜しくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

csv では Python のインスタンスをそのまま保存できません。pickle 形式で保存するのがよいと思います。

python
1dataframe.to_pickle("out.pkl")
2dataframe_load = pd.read_pickle("out.pkl")
3np.array(dataframe_load["text"][0])
4# array(['May', 'the', 'force', 'be', 'with', 'you'], 
5#       dtype='|S5')
6

投稿2015/12/24 14:29

Sinhrks

総合スコア45

TaskeHAMANO

2015/12/24 15:22

ご回答ありがとうございます。保存インスタンス自体を変更するんですね。 pickle形式自体は知っていましたが、pandasでも使えることを知りませんでした。計算量的にSinhrksさんのほうが軽そうなので、こちらをベストアンサーとさせていただきます。お二方ともありがとうございました。

行動規範の内容に同意します

python
1np.array(eval(dataframe_load["text"][0]))

で、どうでしょうか？

http://docs.python.jp/2/library/functions.html#eval

投稿2015/12/24 11:44

編集2015/12/24 12:03

hiro-k

総合スコア902

TaskeHAMANO

2015/12/24 15:19

ご回答ありがとうございます。たしかにこの方法で、取得ができますね！配列全体を取得する場合には [np.array(eval(each)) for each in dataframe_load["text"]] で良いようです。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

一旦保存したNested Pandas.DataFrameを使ってNumpy.arrayに変換したい

関連した質問