Pythonを使ってのスクレイピングで一部取得できない絵文字があります。

Python3系で絵文字のみをスクレイピングしています。
その中で同じHTMLタグなのに取得できている物と取得できていない物があります（顔文字の一部）。
その原因を探しています。
又、一部の国旗以外が２桁のアルファベットで取得されてしまっています。
タグの指定が甘い？？のが原因なのかとても疑問です。
何か絵文字に関するスクレイピングでアドバイスなどがあればご教授頂きたいです。よろしくお願いします。
顔文字に関して画像のように目がハートの顔文字はページの途中にあるもので、上から読み込んでいるとすると先に配置してある顔文字が取得されないでいるようです。

サイトでは後半に配置されている海老の絵文字が最初に取得されているようなのですが、コードの書き方が悪いのでしょうか？？

from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os

emoji_list = []

site_url = "https://www.emojiall.com/zh-hant/all-emojis"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")

for script in soup(["span"]):
    script.extract()

emojis = soup.select('.emoji_font')

for emoji in emojis:
    emoji = emoji.getText()
    if not repr(emoji).startswith(r"'\U"):
        emoji_list.append(emoji)
    else:
        continue

for emoji in emoji_list:
    #code_point = (ord(str(emoji)))
    print(emoji)

行動規範の内容に同意します

回答1件

自己解決

根本的な原因は分かりませんが、URLを変更することで全体の絵文字を取得することができました。

from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os

emoji_list = []
word_list = []
point_list = []

site_url = "https://www.emojiall.com/zh-hant/all-emojis"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")

for script in soup(["span"]):
    script.extract()

emojis = soup.select('.emoji_font')
words = soup.select('.emoji_name')

for emoji in emojis:
    emoji = emoji.getText().replace('\u200d','')
    if not repr(emoji).startswith(r"'\U") and len(emoji) < 2:
        emoji_list.append(emoji)
    else:
        continue
# print(emoji_list)

for emoji in emoji_list:
    code_point = hex(ord(emoji))
    point_list.append(code_point)
# print(point_list)

for word in words:
    word = word.getText()
    word_list.append(word)
print(word_list)

投稿2020/09/28 08:17

amaturePy

総合スコア131