ユニコードの一部文字と絵文字が「□」と表示されてしまいます。
この問題を解決したいのでお知恵を拝借願います。
GoogleColaboratoryを活用し、seleniumでスクレイピングを行っています。
指定のURLにアクセスし、画面キャプチャを行うとUnicodeの一部が□で表示されてしまいます。
特に絵文字類は全滅です。通常のUnicodeでも一部は□で表示されます。
そのため、環境設定のどこかがおかしいとは思っているのですが解決策が分かりません。
よろしくお願いします。
実行環境
GoogleColaboratory
バージョン Python 3.7.13
Python
1# 日本語フォントインストール 2!apt-get -y install fonts-ipafont-gothic 3!apt-get -y install fonts-ipafont-mincho 4 5# 実行前の準備 6!pip install selenium 7!apt-get update # to update ubuntu to correctly run apt install 8!apt install chromium-chromedriver 9!cp /usr/lib/chromium-browser/chromedriver /usr/bin 10 11 12#webDriverを使うための準備 13import sys 14sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver') 15from selenium import webdriver 16chrome_options = webdriver.ChromeOptions() 17chrome_options.add_argument('--headless') 18chrome_options.add_argument('--no-sandbox') 19chrome_options.add_argument('--disable-dev-shm-usage') 20chrome_options.add_argument('--lang=ja-JP') 21 22driver = webdriver.Chrome('chromedriver',chrome_options=chrome_options) 23 24#ウィンドウサイズの設定 25driver.set_window_size(1920,1080) 26 27driver.get('http://guppy.eng.kagawa-u.ac.jp/~kagawa/OpenCampus/unicode.html') 28driver.save_screenshot('screenshot-full.png')
左記URLへのアクセス結果(http://guppy.eng.kagawa-u.ac.jp/~kagawa/OpenCampus/unicode.html)
あなたの回答
tips
プレビュー