Google ColaboratoryでChrome Devtools Protocolを使って、ウェブページのBase64形式のpdfデータを取得し、文字化け無くPDF化し保存したい

Question

### 実現したいこと - [ ] Google ColaboratoryでChrome Devtools Protocolを使って、ウェブページのBase64形式のpdfデータを取得し、文字化け無くPDF化し保存したい ### 前提下記ウェブサイト参考にし、ページをPDF保存するプログラムを作成しています。 https://qiita.com/mochi_yu2/items/a845e52b8aa677f132bf この方法では、Chrome DevTools Protocolを活用して、Seleniumで表示したページをPDFに保存しています。 ### 発生している問題 - 保存後のPDFが文字化けしている JupyterLabでは文字化け無くPDF保存できたのですが、Google Colaboratoryで実行したところPDFが文字化けしてしまいます。 ~~Chrome Devtools Protocolコマンドを実行した際に取得できるBase64形式のPDFデータのデコードが上手くできていないのか、PDFは文字化けしてしまいます。~~ **追記** **JupyterLabとGoogle Colaboratoryで、取得できるデコード前のBase64形式のPDFデータが少し異なりました。** **デコード前のそれぞれのデータを以下のサイトでPDF化したところ、JupyterLabでは文字化けは無く、Google Colaboratoryの方では文字化けしていました。** https://base64.guru/converter/decode/pdf Google Colaboratoryの方では、Base64形式のPDFデータが正しく取得できていないのでしょうか？解決方法等あれば、ご教授お願いいたします。以下がJupyterLabとGoogle Colaboratoryで実行したプログラムです。 ### Jupyter Labのソースコード ```python import pandas as pd from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.chrome.service import Service as ChromeService from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.options import Options import time import os import base64 def save_to_pdf(driver, file_path): parameters = { "printBackground": True, # 背景画像を印刷 "paperWidth": 8.27, # A4用紙の横 210mmをインチで指定 "paperHeight": 11.69, # A4用紙の縦 297mmをインチで指定 # "displayHeaderFooter": True, # 印刷時のヘッダー、フッターを表示 } # Chrome Devtools Protocolコマンドを実行し、取得できるBase64形式のPDFデータをデコードしてファイルに保存 pdf_base64 = driver.execute_cdp_cmd("Page.printToPDF", parameters) #print(pdf_base64) pdf = base64.b64decode(pdf_base64["data"]) with open(file_path, 'bw') as f: f.write(pdf) # URLリスト取得 urls = [] with open('urls.txt', mode='rt', encoding='utf-8') as f: urls = f.readlines() # Chrome options options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--no-sandbox') options.add_argument('--disable-gpu') driver = webdriver.Chrome("./chromedriver.exe", options=options) for i, url in enumerate(urls,1): driver.get(url) save_to_pdf(driver, str(i) + '.pdf') driver.close() driver.quit() ``` ### Google Colabratoryのソースコード Google Colabratoryでは、webdriverが起動できなかったので、最初に以下のサイトのこのコードを実行しました。 https://teratail.com/questions/9wfzcz4dxd22m1 ```shell %%shell # Ubuntu no longer distributes chromium-browser outside of snap # # Proposed solution: https://askubuntu.com/questions/1204571/how-to-install-chromium-without-snap # Add debian buster cat > /etc/apt/sources.list.d/debian.list <<'EOF' deb [arch=amd64 signed-by=/usr/share/keyrings/debian-buster.gpg] http://deb.debian.org/debian buster main deb [arch=amd64 signed-by=/usr/share/keyrings/debian-buster-updates.gpg] http://deb.debian.org/debian buster-updates main deb [arch=amd64 signed-by=/usr/share/keyrings/debian-security-buster.gpg] http://deb.debian.org/debian-security buster/updates main EOF # Add keys apt-key adv --keyserver keyserver.ubuntu.com --recv-keys DCC9EFBF77E11517 apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 648ACFD622F3D138 apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 112695A0E562B32A apt-key export 77E11517 | gpg --dearmour -o /usr/share/keyrings/debian-buster.gpg apt-key export 22F3D138 | gpg --dearmour -o /usr/share/keyrings/debian-buster-updates.gpg apt-key export E562B32A | gpg --dearmour -o /usr/share/keyrings/debian-security-buster.gpg # Prefer debian repo for chromium* packages only # Note the double-blank lines between entries cat > /etc/apt/preferences.d/chromium.pref << 'EOF' Package: * Pin: release a=eoan Pin-Priority: 500 Package: * Pin: origin "deb.debian.org" Pin-Priority: 300 Package: chromium* Pin: origin "deb.debian.org" Pin-Priority: 700 EOF # Install chromium and chromium-driver apt-get update apt-get install chromium chromium-driver # Install selenium pip install selenium ``` ```python import pandas as pd from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.chrome.service import Service as ChromeService from webdriver_manager.chrome import ChromeDriverManager from selenium.webdriver.chrome.options import Options import time import os import base64 def save_to_pdf(driver, file_path): parameters = { "printBackground": True, # 背景画像を印刷 "paperWidth": 8.27, # A4用紙の横 210mmをインチで指定 "paperHeight": 11.69, # A4用紙の縦 297mmをインチで指定 # "displayHeaderFooter": True, # 印刷時のヘッダー、フッターを表示 } # Chrome Devtools Protocolコマンドを実行し、取得できるBase64形式のPDFデータをデコードしてファイルに保存 pdf_base64 = driver.execute_cdp_cmd("Page.printToPDF", parameters) # print(pdf_base64) pdf = base64.b64decode(pdf_base64["data"]) with open(file_path, 'bw') as f: f.write(pdf) # URLリスト取得 urls = [] with open('urls.txt', mode='rt', encoding='utf-8') as f: urls = f.readlines() # Chrome options options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--no-sandbox') options.add_argument('--disable-gpu') driver = webdriver.Chrome(service=ChromeService("/usr/bin/chromedriver"),options=options) # driver = webdriver.Chrome( # executable_path=ChromeDriverManager().install(), # options=options # ) for i, url in enumerate(urls,1): driver.get(url) save_to_pdf(driver, str(i) + '.pdf') driver.close() driver.quit() ```

Accepted Answer

私と同じ問題を質問している方を発見し、この方法で解決することができました。
https://teratail.com/questions/bqti1p61c26ina

私の場合、コードを以下のように変更しました。

**前**
```shell
apt-get install chromium chromium-driver
```
**後**
```shell
apt-get install chromium chromium-driver fonts-noto
```
webdriverをインストールする際に日本語フォントもインストールしないといけませんでした。

実現したいこと

前提

発生している問題

Jupyter Labのソースコード

Google Colabratoryのソースコード

関連した質問