Python3系で絵文字のみをスクレイピングしています。
その中で同じHTMLタグなのに取得できている物と取得できていない物があります(顔文字の一部)。
その原因を探しています。
又、一部の国旗以外が2桁のアルファベットで取得されてしまっています。
タグの指定が甘い??のが原因なのかとても疑問です。
何か絵文字に関するスクレイピングでアドバイスなどがあればご教授頂きたいです。よろしくお願いします。
顔文字に関して画像のように目がハートの顔文字はページの途中にあるもので、上から読み込んでいるとすると先に配置してある顔文字が取得されないでいるようです。
サイトでは後半に配置されている海老の絵文字が最初に取得されているようなのですが、コードの書き方が悪いのでしょうか??
from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re import os emoji_list = [] site_url = "https://www.emojiall.com/zh-hant/all-emojis" get_url = requests.get(site_url) soup = BeautifulSoup(get_url.text, "lxml") for script in soup(["span"]): script.extract() emojis = soup.select('.emoji_font') for emoji in emojis: emoji = emoji.getText() if not repr(emoji).startswith(r"'\U"): emoji_list.append(emoji) else: continue for emoji in emoji_list: #code_point = (ord(str(emoji))) print(emoji)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。