Python3でstartswithをif文の条件分岐に使用したいです。

Python3で特定の文字から始まる文字列を排除して絵文字のみスクレイピングしたいです。
現状は下記の画像の通り、一部\Uで始まるunicodeの文字列が入っており、こちらを避けて絵文字のみ取得したいと言うものです。
そのためにifの条件に以下のコードを加えて試しているのですが、実行結果は変わらないです。

not emoji0.startswith(r'\U')

何か他に良い方法や自分のコードに関してアドバイスなどがあればご教授頂きたいです。
よろしくお願いします。

main.py

from urllib.request import urlopen
import requests
from bs4 import BeautifulSoup
import re
import os

list0 = []

site_url = "https://www.emojiall.com/zh-hant/categories/A"
get_url = requests.get(site_url)
soup = BeautifulSoup(get_url.text, "lxml")

for script in soup(["span"]):
    script.extract()
    
emojis = soup.select('.emoji_font')
words = soup.select('.emoji_name_truncate')

for emoji0 in emojis:
    emoji1 = emoji0.getText()
    if not emoji1.startswith(r'\'):
        list0.append(emoji1)
    else:
        continue
print(list0)

上記コード実行結果

shiracamus

2020/09/27 08:11 編集

（回答欄にコード提示）

行動規範の内容に同意します

回答1件

ベストアンサー

データとしては文字列になっていて、表示する際に '\U...' と表示されるようです。
repr関数を使うことで '\U...' にすることができるようなので、以下のようにしてはいかがでしょうか。

python
1from urllib.request import urlopen
2import requests
3from bs4 import BeautifulSoup
4import re
5import os
6
7list0 = []
8
9site_url = "https://www.emojiall.com/zh-hant/categories/A"
10get_url = requests.get(site_url)
11soup = BeautifulSoup(get_url.text, "lxml")
12
13for script in soup(["span"]):
14    script.extract()
15
16emojis = soup.select('.emoji_font')
17words = soup.select('.emoji_name_truncate')
18
19for emoji0 in emojis:
20    emoji1 = emoji0.getText()
21    if not repr(emoji1).startswith(r"'\U"):
22        list0.append(emoji1)
23    else:
24        continue
25print(list0)

投稿2020/09/27 08:08

shiracamus

総合スコア5406

amaturePy

2020/09/27 08:12

ご教授ありがとうございます！こちら試させて頂いのですが、出力は変わらないようです。以下勉強になります。 ↓ データとしては文字列になっていて、表示する際に '\U...' と表示されるようです

amaturePy

2020/09/27 08:20

unicodeで取得されている物と他の要件通りに取得されている絵文字を含んでいるHTMLソースを見ても同様のタグで問題なさそうに見えます。

shiracamus

2020/09/27 09:21 編集

私のPython3.6環境では実行結果がこうなりましたよ。文字列の中間にある \u... は処理してないのでそのまま残っています。 ['????', '????????', '????????', '????????', '????????', '????????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '☺', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '☹', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '☠', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '❣', '????', '❤', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????\u200d????', '????', '????', '????', '????', '????', '????', '????', '????', '????', '????\u200d????', '✊????', '????', '????', '????']

amaturePy

2020/09/27 09:24

失礼しました。再度エディターを立ち上げて試した所、理想の結果を取得できました！ありがとうございました！

行動規範の内容に同意します