タイトルの通りなのですが、PDFファイルをtextやcsv形式に変換するapiやライブラリはあるのでしょうか?
この処理は、できればサーバーサイドで行いたいです。
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
まずここでSpire.Office for .NETというライブラリーをダウンロードして、そしてPdfとXlsのdllファイルをVSに追加してから、以下のコードの通り操作すれば、PDFからCSVへの変換ができます。
PDFからExcelへ:
using Spire.Pdf; namespace ConvertPDFToExcel { class Program { static void Main(string[] args) { //PdfDocumentのインスタンスを作成する PdfDocument pdf = new PdfDocument(); //PDFファイルをロードする pdf.LoadFromFile("Shopping list.pdf"); //Excelとして保存する pdf.SaveToFile("PDFToExcel.xlsx", FileFormat.XLSX); } } }
ExcelからTextへ:
using Spire.Xls; namespace Excel_to_Txt { class Program { static void Main(string[] args) { Workbook workbook = new Workbook(); workbook.LoadFromFile(@"..\ExceltoTxt.xls"); Worksheet sheet = workbook.Worksheets[0]; sheet.SaveToFile("ExceltoTxt.txt", " ", Encoding.UTF8); } } }
投稿2022/03/18 09:12
総合スコア41
0
ベストアンサー
PDFからテキストはpopplerでできると思います。その中のpdftotextコマンドでテキストにはできます。
https://ja.wikipedia.org/wiki/Poppler
でも、PDFからCSVは知りませんね。CSVにするって意図はPDFのテーブルがタグで組まれていたらその部分だけCSVで取るってことでしょうか?あまりテーブルまでしっかり組まれたPDFはあまり見ない気がします。
投稿2016/05/24 10:58
総合スコア1895
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
0
ぱっと調べて、
Apache PDFBox
FeaturesにExtract Textとあったので多分テキストに変換できると思います。
投稿2016/05/24 07:03
総合スコア1280
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。