DataFrameにおいて, ハッシュタグのみを抽出し, 不要な部分は除去したい

データフレームにおいて, ハッシュタグのみを抽出したいです。

Pandasで以下のようなデータフレームがあります。

csv
1
2tag
30: #A,a,#AA
41: b,#B,BB
52: CC, c, cc
63: #d,DD

＊tag はカラムです。数字（０〜３）はわかりやすいように行数を表しております、

実現したいこととしては, 以下に記します。

csv
1hashtag
20: #A,#AA
31: #B
42: 
53: #d

上記のような出力を行いたいです。ただし, 3行目については行を削除せず, 空のままで表示させたいです。
ハッシュタグ部分を抽出し, それ以外は削除させたいです。

よろしくお願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

短く書けば、

python
1df['hashtag'] = df['tag'].apply(lambda s: ','.join([word for word in s.split(',') if word[0] == '#']))

実行結果は、

python
1>>> import pandas as pd
2>>>
3>>> df = pd.DataFrame({'tag': ['#A,a,#AA', 'b,#B,BB', 'CC, c, cc', '#d,DD']})
4>>>
5>>> print(df)
6         tag
70   #A,a,#AA
81    b,#B,BB
92  CC, c, cc
103      #d,DD
11>>> df['hashtag'] = df['tag'].apply(lambda s: ','.join([word for word in s.split(',') if word[0] == '#']))
12>>> print(df)
13         tag hashtag
140   #A,a,#AA  #A,#AA
151    b,#B,BB      #B
162  CC, c, cc
173      #d,DD      #d
18>>> print(df[['hashtag']])
19  hashtag
200  #A,#AA
211      #B
222
233      #d

です。

長く書けば、

python
1def get_hash(tags):
2    taglist = tags.split(',')
3    hashtaglist = []
4    for tag in taglist:
5        if tag[0] == '#':
6            hashtaglist.append(tag)
7    hashtags = ','.join(hashtaglist)
8    return hashtags
9
10df['hashtag'] = df['tag'].apply(get_hash)