BeautifulSoupでtwemojiがスクレイピングできない

Question

### 実現したいこと BeautifulSoupでクローリングしている際に，以下のような，大抵は内部にtextが入っているようなdivタグ内にたまにtwemojiの絵文字が現れます． https://emojimohoshii.com ```html

``` (emoji_altには実際に表示されていそうな絵文字が入っています．) crawler.py ```python from bs4 import BeautifulSoup as bs import requests import time, os def main(): url = "https://emojimohoshii.com" res = requests.get(url) time.sleep(1) soup = bs(res.text, "html.parser") text = soup.select(".text")[0] print(text) if __name__ == "__main__": main() ``` テキストは正常に取得できるので，たまに現れる絵文字もどうせならimgタグをそのまま取得したいのですが，スクレイピングの際にはimgタグがテキストに変換されているような挙動をしていて，imgタグが消滅しています．どなたかこの消滅するimgタグを取得する方法についてご教授いただけますと幸いです． ### 発生している現象 .text内がテキストの場合 ```

大抵はテキスト

``` .text内がimgタグの絵文字の場合 ```

・・・

``` ### バージョン情報など OS: Windows beautifulsoup4==4.9.3 requests==2.25.1

Accepted Answer

Twemojiは、JavaScriptを使って「文字として書かれた絵文字」(Unicodeコードポイントを符号化したもの)を対応する画像に置き換えるライブラリです。これにより、ブラウザーが使用するフォントに絵文字のグリフ(字形)が含まれていなくても、画像で絵文字を表示することができます。

いっぽう、requestsが取得するのはTwemojiが書き換える前の静的なページです。そのため、img要素ではなく、「文字として書かれた絵文字」(Unicodeコードポイントを符号化したもの)そのものが得られます。

つまり、

> テキストは正常に取得できるので，たまに現れる絵文字もどうせならimgタグをそのまま取得したいのですが，スクレイピングの際にはimgタグがテキストに変換されているような挙動をしていて，imgタグが消滅しています．

という理解は間違っており、「文字として書かれた絵文字」(Unicodeコードポイントを符号化したもの)がオリジナルのデータで、それを正常に取得しています。「・」のように表示されるのは、その絵文字のグリフが表示に使ったフォントに収録されていないためです。

実現したいこと

発生している現象

バージョン情報など

関連した質問