Python3で特定の文字から始まる文字列を排除して絵文字のみスクレイピングしたいです。
現状は下記の画像の通り、一部\Uで始まるunicodeの文字列が入っており、こちらを避けて絵文字のみ取得したいと言うものです。
そのためにifの条件に以下のコードを加えて試しているのですが、実行結果は変わらないです。
not emoji0.startswith(r'\U')
何か他に良い方法や自分のコードに関してアドバイスなどがあればご教授頂きたいです。
よろしくお願いします。
main.py from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re import os list0 = [] site_url = "https://www.emojiall.com/zh-hant/categories/A" get_url = requests.get(site_url) soup = BeautifulSoup(get_url.text, "lxml") for script in soup(["span"]): script.extract() emojis = soup.select('.emoji_font') words = soup.select('.emoji_name_truncate') for emoji0 in emojis: emoji1 = emoji0.getText() if not emoji1.startswith(r'\'): list0.append(emoji1) else: continue print(list0)
(回答欄にコード提示)
回答1件
あなたの回答
tips
プレビュー