df['html']というカラムに格納されたhtmlコードに対してそれぞれ、行数と単語数をカウントしたいです。
df['html'].map(lambda x:x)
のxにそれぞれ以下の処理を当てはめたいのですが、map関数を使って4行以上のコード処理をみやすく書く方法はありますでしょうか?
soup = BeautifulSoup(hoge[1]) text = soup.text text = text.replace('\n','').replace('\xa0','') words = text.split(' ') sentenses = text.split('.')
このwords, sentensesをdf['html_words']とdf['html_sentenses']にそれぞれ代入したい。
df.itertuples()を使うと動作が遅いようでした。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。