前提・実現したいこと
JavaScriptを使って、指定したPDF内に記載されている表部分を抽出し、テーブル構造のデータとして取得したい
試したこと
例えば、サイゼリアのアレルギー情報が記載されたPDFについて、テーブル情報をJavaScriptで抽出しようとしました。
https://www.saizeriya.co.jp/others/images/grand.pdf
Mozilla製のPDF.jsを利用して以下のような感じでやってみたのですが、表データも分割された文字列として取得できるのみで、テーブル構造として取得することができませんでした。
※ちなみにPDF.jsをnpmで取得する場合は、npm install --save pdfjs-dist
で利用可能です
※例はTypeScriptですが、JavaScriptで良いです。
typescript
1import pdfjsLib from "pdfjs-dist"; 2 3pdfjsLib.GlobalWorkerOptions.workerSrc = 4 './vendors~pdfjsWorker.js'; 5 6const loadingTask = pdfjsLib.getDocument("./grand_kids.pdf"); 7loadingTask.promise.then(async doc => { 8 const num = doc.numPages; 9 for (let i = 1; i <= num; i++) { 10 const a = await doc.getPage(i) 11 const text = await a.getTextContent(); 12 // textに文字列は入るが、テーブル構造にはなっていない。座標情報から頑張るしかない? 13 } 14})
回答2件
あなたの回答
tips
プレビュー