回答編集履歴

2行以上も対応できるように変更

2021/06/30 10:04

投稿

toshikawa

スコア388

answer CHANGED Viewed

@@ -1,30 +1,36 @@
 ```python
 import pandas as pd
 zoku = ["患者", "患者", "医師"]
-comment = ["おはようございます。今日もいい天気ですね", "はい", "かしこまりました。"]
+comment = ["おはようございます。今日もいい天気ですね。よろしくお願いします。", "はい", "かしこまりました。"]
 flag = [1, 0, 0]
 df = pd.DataFrame({'属性':zoku, 'コメント':comment, 'フラグ':flag})
-# 。がある場合複製
+# コメントを「。」でリスト分割。リストの長さを変数に代入
 df['コメント']=df['コメント'].str.replace('。','。 ').str.split()
-df_a=df[df['コメント'].apply(lambda x: len(x) > 1)]
+df['m']=df['コメント'].apply(lambda x: len(x))
-df_a
-df = pd.concat([df,df_a]).sort_index().reset_index(drop=True)
-# 複製した行にフラグを作成して、コメント抽出
+# コメントのリストの長さで複製
-df['id'] = (df==df.shift(1)).all(axis=1)
-df['コメント']=df.apply(lambda x: x['コメント'][x['id']],axis=1)
+df = pd.DataFrame(np.repeat(df.reset_index().values,df.m,axis=0),columns=['インデックス','属性','コメント','フラグ','カウント'])
-df.drop('id',axis=1,inplace=True)
+# リストからの取り出しインデックスを作成
+df['カウント']=df.groupby('インデックス').expanding().count()['コメント'] .values.astype('int') - 1
+# コメント抽出
+df['コメント']=df.apply(lambda x: x['コメント'][x['カウント']],axis=1)
+# 不要な列を削除
+df.drop(['インデックス','カウント'],inplace=True,axis=1)
 """
 df
 	属性	コメント	フラグ
 0	患者	おはようございます。	1
-1	患者	今日もいい天気ですね	1
+1	患者	今日もいい天気ですね。	1
+2	患者	よろしくお願いします。	1
-2	患者	はい	0
+3	患者	はい	0
-3	医師	かしこまりました。	0
+4	医師	かしこまりました。	0
 """
 ```
-いかがでしょうか？
+いかがでしょうか？　　２行以上も対応してみました。