質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

1739閲覧

Pythonを使ってのスクレイピングで一部取得できない絵文字があります。

amaturePy

総合スコア131

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2020/09/28 02:48

編集2020/09/28 03:14

Python3系で絵文字のみをスクレイピングしています。
その中で同じHTMLタグなのに取得できている物と取得できていない物があります(顔文字の一部)。
その原因を探しています。
又、一部の国旗以外が2桁のアルファベットで取得されてしまっています。
タグの指定が甘い??のが原因なのかとても疑問です。
何か絵文字に関するスクレイピングでアドバイスなどがあればご教授頂きたいです。よろしくお願いします。
顔文字に関して画像のように目がハートの顔文字はページの途中にあるもので、上から読み込んでいるとすると先に配置してある顔文字が取得されないでいるようです。
イメージ説明
サイトでは後半に配置されている海老の絵文字が最初に取得されているようなのですが、コードの書き方が悪いのでしょうか??
イメージ説明

from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re import os emoji_list = [] site_url = "https://www.emojiall.com/zh-hant/all-emojis" get_url = requests.get(site_url) soup = BeautifulSoup(get_url.text, "lxml") for script in soup(["span"]): script.extract() emojis = soup.select('.emoji_font') for emoji in emojis: emoji = emoji.getText() if not repr(emoji).startswith(r"'\U"): emoji_list.append(emoji) else: continue for emoji in emoji_list: #code_point = (ord(str(emoji))) print(emoji)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

根本的な原因は分かりませんが、URLを変更することで全体の絵文字を取得することができました。

from urllib.request import urlopen import requests from bs4 import BeautifulSoup import re import os emoji_list = [] word_list = [] point_list = [] site_url = "https://www.emojiall.com/zh-hant/all-emojis" get_url = requests.get(site_url) soup = BeautifulSoup(get_url.text, "lxml") for script in soup(["span"]): script.extract() emojis = soup.select('.emoji_font') words = soup.select('.emoji_name') for emoji in emojis: emoji = emoji.getText().replace('\u200d','') if not repr(emoji).startswith(r"'\U") and len(emoji) < 2: emoji_list.append(emoji) else: continue # print(emoji_list) for emoji in emoji_list: code_point = hex(ord(emoji)) point_list.append(code_point) # print(point_list) for word in words: word = word.getText() word_list.append(word) print(word_list)

投稿2020/09/28 08:17

amaturePy

総合スコア131

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問