tekitou.txt
1あいうえお 2かきくけこ 3さしすせそ 4たちつてと 5なにぬねの 6はひふへほ 7まみむめも 8やゆよ 9らりるれろ 10わをん 11あかさたな 12はまやらわ 13いきしちに 14ひみり 15うくすつぬ 16ふむゆる
こんな感じのファイルがあったとして、これを、
1行を1つの単語として扱い、そして、5行ごとを1つの文書として扱いSCDVしたいのですが、その前準備として、このファイルを
0 あいうえお 0 かきくけこ 0 さしすせそ 0 たちつてと 0 なにぬねの 1 はひふへほ 1 まみむめも 1 やゆよ 1 らりるれろ 1 わをん 2 あかさたな 2 はまやらわ 2 いきしちに 2 ひみり 2 うくすつぬ 3 ふむゆる
のようなデータフレームにする必要がありそうなのですが、
pandasデータフレームにこのように文書番号の列を追加するコードがわかりません。
Python2.7
1# coding: UTF-8 2 3#必要なライブラリをインポート 4import pandas as pd 5 6# 7 8df = pd.read_csv('tekitou.txt',sep=('\n'),header=None)#ファイル読み込み 9 10df['text_num'] = 0#とりあえずハリボテの列を追加 11
この後どのようなコードを書けば考えている通りの列を追加できるでしょうか。
お手数ですがご教示よろしくお願いします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/09/18 14:54