インスタグラムなどの文字列からハッシュタグを抽出する必要があります。
その際、スペースが入っていたりいなかったりする投稿の文字列にも対して適切にハッシュタグを取り出したいと考えております。
具体的には下のようなコードから、
Python
1import re 2 3str = "ここは不要な文字列です。 #AA1234 #11ああ #abcう#efg #日本語#抽出 全角スペースもあります。" 4tags = re.findall(r"#\S*", str) 5 6print(tags)
下のようにタグ一つひとつを抽出したいのですが
['#AA1234','#11ああ','#abcう','#efg','#日本語','#抽出']
実際には
['#AA1234', '#11ああ', '#abcう#efg', '#日本語#抽出']
といった上のような適切に区切られない出力結果が得られてしまいます。
どのように改善すれば良いでしょうか。お答えいただけると助かります。
インスタグラムはスクレイピング禁止だと思いますが、「インスタグラムなどの文字列」はどのように取得されたのでしょうか?
回答2件
あなたの回答
tips
プレビュー