以下のコードでスクレイピングをしています。
現状下の画像のようにHTMLのaタグも取得されてしまっているのですが、aタグは削除して絵文字のみ取得したいと考えております。
何かうまくタグのみ削除できる方法があればご教授頂きたいです。
よろしくお願いします。
from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re import os # 絵文字をunicodeに変換する関数 def encode_emoji(emoji_list): return [hex(ord(emoji)) + ";" for emoji in emoji_list] site_url = "https://www.emojiall.com/zh-hant/categories/A" get_url = requests.get(site_url) soup = BeautifulSoup(get_url.text, "lxml") # soup = soup.get_text for script in soup(["span"]): script.extract() emojis = soup.select('.emoji_font') for emoji in emojis: # emoji = emoji.replace('a','') print(emoji)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/09/26 15:58
2020/09/26 16:08
2020/09/26 16:25