テキストデータから簡便にDataFrameを生成する方法

前提・実現したいこと

web上でエクセルのスプレッドシート的に示されたデータをコピペして、ちょっとしたプログラムを試してみたいことがあります。そこで、python, pandasにおいてプレインテキストデータから簡便にDataFrameを作成する方法を探しています。

データは例えばこんなやつですね:

A	B	C
10	20	30
20	40	80

R言語にはread.table関数というのがあり、次のようにして簡単にデータフレームを得ることができます。

> df1 <- read.table(text="
+ A B C
+ 10 20 30
+ 20 40 80
+ ", header=T)
> df1
   A  B  C
1 10 20 30
2 20 40 80
>

pythonのPandasにおいて同じようなスタイルで利用できる関数はないのでしょうか？

私が知るところでは、pandas.DataFrameは引数として辞書型を受け取ってDataFrameを生成してくれますが、上記のようにテキストを直接受け付けてはくれません。もちろん、"a":[10, 20], "b":[20, 40] ...などと辞書型オブジェクトを作ってもいいのですが、データの縦横を入れ替えるという作業が必要になりますし、それなりに面倒です。

試したこと

もちろんsplitを利用することによって相応の関数を作成することはできます。

python
1import pandas as pd
2
3def text2df(t):
4  tt = [x for x in t.split("\n")]
5  cols = tt[0].split()
6  df1 = pd.DataFrame(index=[x for x in range(0,len(tt)-1)], columns=cols)
7  for r in range(1, len(tt)):
8    ttt = tt[r].split()
9    for c in range (0, len(ttt)):
10      df1.iloc[r-1, c] = ttt[c] 
11  return(df1)

天下のpythonなので、これぐらいのものはもっと遥かにシンプルでスマートな方法がとっくに用意されているんじゃないかと思っています。しかし、私が調べてみた限り見つかりません。

補足情報（FW/ツールのバージョンなど）

Python 2.x または Python 3.x

行動規範の内容に同意します

回答2件

ベストアンサー

私も hayataka2049さんと同様に io.StringIO をよく使いますが、ダブルクォートを３つ連ねて複数行の文字列として記述する方が多い気がします。

Python
1import io
2import pandas as pd
3
4df = pd.read_table(io.StringIO("""
5A	B	C
610	20	30
720	40	80
8"""))

あとがTAB区切りよりも複数個のスペースで区切った方が個人的に好みです。

PythonのコードにTABをあまり紛れ込ませたくないので。

Python
1df = pd.read_csv(io.StringIO("""
2A   B   C
310  20  30
420  40  80
5"""), delim_whitespace=True
6)

その他には、単に２次元リストを使った方が簡単に記述できる場合もありますね

Python
1import pandas as pd
2df = pd.DataFrame(
3    [[10,20,30],
4     [20,40,80]],
5    columns=['A','B','C'])

投稿2018/06/04 23:39

magichan

総合スコア15898

KojiDoi

2018/06/05 04:25

まさに期待通りの結果が得られました。ありがとうございます。

行動規範の内容に同意します

こんな感じで、どうでしょうか？

python
1>>> import io
2>>> import pandas as pd
3>>> txt = "\
4... A	B	C\n\
510	 20	 30\n\
620	 40	 80"
7... ... >>> 
8>>> pd.read_table(io.StringIO(txt))
9    A   B   C
100  10  20  30
111  20  40  80

16.2. io — ストリームを扱うコアツール — Python 3.6.5 ドキュメント
 pandas.read_table — pandas 0.20.3 documentation

投稿2018/06/04 17:07

hayataka2049

総合スコア30933

KojiDoi

2018/06/04 18:57

ありがとうございます。独学の悲しさでストリームなるものを認知していなかったし、認知していたとしても本課題と結びつけられたかはかなり疑問です。ただ、できたデータフレームの挙動が微妙に期待と違うような気がするので、もう少し考えさせてください。

KSwordOfHaste

2018/06/04 23:52 編集

read_tableはデフォルトのセパレータがタブ文字でhayataka2049さんはそれ前提に文字列定数をtabで区切っていると思います。ipythonなどのrepl上だとtab文字が入力しにくいので以下のように半角スペースを区切りに入力すると分かり易いのではないでしょうか？多分KojiDoiさんの目的にマッチする気がします。 df = pd.read_table(io.StringIO(""" a b c 1 2 3 4 5 6 """), sep=' ')

hayataka2049

2018/06/04 23:59

KSwordOfHasteさんのおかげで気づきましたが、teratailの仕様でpython言語を指定すると表示がtab→スペース4つに置換される・・・ごめんなさい＞できたデータフレームの挙動が微妙に期待と違うような気がするのでそれはともかく、magichanさん、KSwordOfHasteさんの方法の方が良いです。"""で複数行とか失念していました。

hayataka2049

2018/06/05 00:00

>>> txt = """a b c ... 10 20 30 ... 40 50 60""" >>> pd.read_table(io.StringIO(txt), sep=" ") a b c 0 10 20 30 1 40 50 60 >>> txt = """ ... a b c ... 10 20 30 ... 40 50 60 ... """ >>> pd.read_table(io.StringIO(txt), sep=" ") a b c 0 10 20 30 1 40 50 60 結果は同じか（pandasのデフォルト設定が賢いってだけですが）

KojiDoi

2018/06/05 04:27

なるほどtabとスペースの問題でしたか。納得しました。

行動規範の内容に同意します

あなたの回答