tokenize結果を辞書化もしくは、元々のセンテンスごとにまとめたい。

###やりたいこと:

データフレームのとある列から、自然言語処理をするためNLTKのtokenizeで前処理をします。
現状、出力結果がすべて１つにまとまってしまっています。(以下結果の数字はセンテンスごとのID)

result
1from nltk import tokenize
2result = []
3result.append(tokenize.wordpunct_tokenize(str(df["AAA"])))
4print(result)
5
6['0', 'great', 'service', '1', 'completely', 'free', '...', '2', 'good', 'also', '....', '3', 'i', 'trust', '...', '3144', 'nocomment', 'Name', ':', 'Q5c', ',', 'Length', ':', '3145', ',', 'dtype', ':', 'object']

以下のようにうまく元々のセンテンスごとに出力したいと思っています。
出力したい形式例1: [['0', 'great', 'service']['1', 'completely', 'free', '...',]]
出力したい形式例2: [[0:'great', 'service'][1,:'completely', 'free', '...',]]

###トライしたこと
新しい列に挿入しようとしましたが、エラーが出ています。
行数が新しい列とマッチしていない、ということと理解しましたが、どう帳尻を合わせるかググっても分かりませんでした・・・。
for文やdef関数も作ってみたのですがうまく回らなかったため、ご教示いただきたいと思っています。

TRY
1from nltk import tokenize
2df["NEW_AAA"] = tokenize.wordpunct_tokenize(str(df["AAA"])) 
3
4print(df["AAA"])

error
1ValueError: Length of values (79) does not match length of index (3145)

※JupyterNotebookJupyterNotebookにてトライしています。

行動規範の内容に同意します

回答1件

ベストアンサー

以下でできるかもしれません。

python
1from nltk import tokenize
2df["NEW_AAA"] = df["AAA"].apply(lambda x: tokenize.wordpunct_tokenize(x))
3
4print(df)

投稿2021/04/05 23:14

ppaul

総合スコア24670

July_t

2021/04/05 23:27

おはようございます！早速ありがとうございます。アドバイスいただいたもので試したところ、「” "」はないものの、やりたかった形にはめることができました。単語が「”　”」で区切られていないとどういう弊害があるか...確認してみようと思います。 0 [great, service] 1 [completely, free, ...

行動規範の内容に同意します