実現したいこと
BeautifulSoupでクローリングしている際に,
以下のような,大抵は内部にtextが入っているようなdivタグ内にたまにtwemojiの絵文字が現れます.
html
1<div class="text"> 2 <!-- 大抵はテキスト --> 3 <img alt="emoji_alt" src="https://twemoji.maxcdn.com/~/emoji.png"/> 4</div>
(emoji_altには実際に表示されていそうな絵文字が入っています.)
crawler.py
python
1from bs4 import BeautifulSoup as bs 2import requests 3import time, os 4 5def main(): 6 url = "https://emojimohoshii.com" 7 res = requests.get(url) 8 time.sleep(1) 9 soup = bs(res.text, "html.parser") 10 11 text = soup.select(".text")[0] 12 13 print(text) 14 15if __name__ == "__main__": 16 main()
テキストは正常に取得できるので,たまに現れる絵文字もどうせならimgタグをそのまま取得したいのですが,スクレイピングの際にはimgタグがテキストに変換されているような挙動をしていて,imgタグが消滅しています.
どなたかこの消滅するimgタグを取得する方法についてご教授いただけますと幸いです.
発生している現象
.text内がテキストの場合
<div class="text"> 大抵はテキスト </div>
.text内がimgタグの絵文字の場合
<div class="text"> ・・ ・ </div>
バージョン情報など
OS: Windows
beautifulsoup4==4.9.3
requests==2.25.1
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2021/01/16 05:32 編集