Python pandas len　文字数追加

【欲しい結果】
・文字数を確認する。
・新しい列を増やしてそこに文字数も入れる

【エラー部分】
lenの使い方がわからない。
import pandas as pd
df= pd.read_excel('test.xls',)
grp=df.groupby('Ids').sum()
grp['len'] = grp.len['Text']→ここが違う？
grp.head()


【grp.headの結果】
Idsの部分は同じIdsでも日付毎に全部IDがエクセルに入ってるので、下記の用にIDが足し算されてる
|列1|列2|列3|列４
|:--|:--:|--:
|IDs|Spend|text|
|123|200|あいう
456|100|エオ
789|100|かき

【欲しい結果】
|列1|列2|列3|列４
|:--|:--:|--:
|IDs|Spend|text|Len
|123|200|あいう|3
456|100|エオ|2
789|100|かき|2


【エクセルの形】
|列1|列2|列3|列４|
|:--|:--:|--:
|Time|Spend|IDs|Text
|11-Feb-2020 00:00|200|123|あいう|
12-Feb-2020 00:00|100|456|エオ|
13-Feb-2020 00:00|100|789|かき|

行動規範の内容に同意します

回答1件

Python
1import pandas as pd
2import numpy as np
3from io import StringIO
4
5s = """Time,Spend,IDs,Text
611-Feb-2020 00:00,200,123,あいう
712-Feb-2020 00:00,100,456,エオ
813-Feb-2020 00:00,100,789,かき"""
9df = pd.read_csv(StringIO(s))
10
11# IDsがかぶった場合はとりあえず文字を連結する
12grp = df.groupby('IDs').agg({'Spend':np.sum, 'Text':lambda col: ''.join(col)})
13grp['Len'] = grp['Text'].str.len()
14print(grp)
15"""
16     Spend Text  Len
17IDs
18123    200  あいう    3
19456    100   エオ    2
20789    100   かき    2
21"""

投稿2020/02/19 13:29

編集2020/02/20 03:57

8524ba23

総合スコア38352

pon244

2020/02/20 02:49

毎回ありがとうございます！下記でGroupByあとのデータにLenを使って入れることは可能でしょうか。 df = pd.DataFrame({'text':[＃ここにどうやってDataFrameのテキストを代入？]}) Lenの使い方はわかったのですが、自分の現状のときに組み合わせ方がわからないです＝＝＝＝＝＝＝＝＝＝＝＝＝＝ import pandas as pd df= pd.read_excel('test.xls',) grp=df.groupby('Ids').sum() grp.head() ＝＝＝＝＝＝＝＝＝＝＝＝＝＝

8524ba23

2020/02/20 03:58

IDsがかぶった場合、Textをどう集計すべきかを考える必要がありますがとりあえず回答を修正しました。

pon244

2020/02/20 05:09

下記に関してはエクセルでImportするので、 s ='test.xlsx' df = pd.read_csv(StringIO(s)) OR df = pd.read_excel(StringIO('test.xlsx)) で実行するとunsupported operand type(s) for <<: 'str' and 'int'になってしまいます泣き＝＝＝＝＝＝＝＝＝＝＝ s = """Time,Spend,IDs,Text 11-Feb-2020 00:00,200,123,あいう 12-Feb-2020 00:00,100,456,エオ 13-Feb-2020 00:00,100,789,かき""" df = pd.read_csv(StringIO(s))

8524ba23

2020/02/20 05:12

pd.read_csv(StringIO(s))はあくまでテスト用のコードです。

pon244

2020/02/20 05:24

なんどもすいません！下記に変更して、TextでGroupbyをしました。そしてLenの結果はでましたが、エクセルの形式上、同じTextでも日にちが違うなどがあり、重複しております。ですので、結果としてもあいう　３ではなく、あいう６（あいうが二つある場合）となってしまいます。 grp = df.groupby('Text').agg({'Spend':np.sum, 'Text':lambda col: ''.join(col)}) grp['Len'] = grp['Text'].str.len() grp.head()

8524ba23

2020/02/20 05:29

集計しているのですから「重複した場合はどうするか」を決める必要があります。文字列を連結する、先頭の文字列を採用する。

行動規範の内容に同意します