質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

Q&A

3回答

11196閲覧

PDFをTIFFに変換したい

himurin17590

総合スコア10

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

PDF

PDF(Portable Document Format)とはISOによって国際標準として制定されている電子ドキュメント用の拡張子です。

0グッド

1クリップ

投稿2016/02/20 01:36

各クライアントPC上にて
文字化けデータのテキストが入ったPDFのテキストの出力を行いたく、
PDFにOCRをかける事にしたのですが、
OCRの既存のライブラリでは**「イメージデータ」でしかOCRが働きませんでした**。

そこで、PDFをTIFFの形式に変換し、OCRを行おうと考えたのですが
PDF → TIFFの変換方法はどれも決め手になるものがありませんでした。

いい考えがないか、ここで質問させてください。

自分で調べた中では
・有償のライブラリを購入する
→無数のライブラリがあるけど、どれでも同じなの?
・Microsoft Office Document Image Writerを利用する
→ 現在は廃れている? いちいちインストールさせなきゃいけない? など問題点が。。。

といった状況でした。。。

ご経験や知識のある方がいらっしゃいましたら、お力をお借りできないでしょうか。
よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kozuchi

2016/02/20 02:03

ImageMagick でなんとかなりそうな気がしますが、そもそも目的はなんですか? 「PDFのテキストの出力」ですか? 「PDFにOCRをかける事」ですか? PDFからテキストを抽出するならそういうソフトがありますよ。 結果は OCR にかけるよりもマシなものが得られると思うのですが。 (フォント等に起因する文字化けなら OCRと違って回避できるかもしれません)
guest

回答3

0

Spire.pdfを一度使って見てください。

サンプルコード:

static

1 { 2 //PdfDocumentオブジェクトを作成し,PDFをロードします。 3 PdfDocument document = new PdfDocument(); 4 document.LoadFromFile("sample.pdf"); 5 6 //ファイルを.tiffで保存します。 7 JoinTiffImages(SaveAsImage(document), "result.tiff", EncoderValue.CompressionLZW); 8 } 9 //SaveAsImage()メソード 10 private static Image[] SaveAsImage(PdfDocument document) 11 { 12 Image[] images = new Image[document.Pages.Count]; 13 for (int i = 0; i < document.Pages.Count; i++) 14 { 15 images[i] = document.SaveAsImage(i); 16 } 17 return images; 18 } 19 //GetEncoderInfo()メソード 20 private static ImageCodecInfo GetEncoderInfo(string mimeType) 21 { 22 ImageCodecInfo[] encoders = ImageCodecInfo.GetImageEncoders(); 23 for (int j = 0; j < encoders.Length; j++) 24 { 25 if (encoders[j].MimeType == mimeType) 26 return encoders[j]; 27 } 28 throw new Exception(mimeType + " mime type not found in ImageCodecInfo"); 29 } 30 //JoinTiffImages()メソード 31 public static void JoinTiffImages(Image[] images, string outFile, EncoderValue compressEncoder) 32 { 33 Encoder enc = Encoder.SaveFlag; 34 EncoderParameters ep = new EncoderParameters(2); 35 ep.Param[0] = new EncoderParameter(enc, (long)EncoderValue.MultiFrame); 36 ep.Param[1] = new EncoderParameter(Encoder.Compression, (long)compressEncoder); 37 Image pages = images[0]; 38 int frame = 0; 39 ImageCodecInfo info = GetEncoderInfo("image/tiff"); 40 foreach (Image img in images) 41 { 42 if (frame == 0) 43 { 44 pages = img; 45 pages.Save(outFile, info, ep); 46 } 47 48 else 49 { 50 ep.Param[0] = new EncoderParameter(enc, (long)EncoderValue.FrameDimensionPage); 51 52 pages.SaveAdd(img, ep); 53 } 54 if (frame == images.Length - 1) 55 { 56 ep.Param[0] = new EncoderParameter(enc, (long)EncoderValue.Flush); 57 pages.SaveAdd(ep); 58 } 59 frame++; 60 } 61 }

投稿2020/10/20 03:54

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

Adobe Acrobat Xを使うのが一番安全な結果を得られるかと思います。

投稿2016/02/20 10:16

yohhoy

総合スコア6191

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

>PDF → TIFFの変換方法はどれも決め手になるものがありませんでした。
無償系であれば、
Ghostscript を使って、メモリーファイルで処理すれば可能ですし、
WindowsForm 用と、ASP.NET 用に、実装したこともあります。
PDF⇒TIFF画像、JPEG画像
但し元のPDFが、余りに古い場合は、対応できないかも。
Adobe Reader で表示出来ても、PDFが他メーカーや無料アプリで書換えてあるような場合も、
対応できない場合があります。

PDF上の文字データを抜出すのであれば、Adobe のアプリ経由(Adobe Acrobat のVBA)で、
可能かもしれません。
(Adobe Reader の方ではないです。検索ワード:adobe acrobat VBA)

PDFに文字データが無く、画像のみであれば、
TIFF化で、文字になるわけでは無いので、最終的に文字データが欲しいというのであれば、
OCR系のソフトや、Windows Server系のTIFF-OCR機能になるのかも。
対象の画像が、活字時代のスキャン画像データや、手書きの場合は、
OCR側に学習機能が無いと、厳しいかも。
Windows Server系のTIFF-OCR機能:簡易的には、機能を有効にした後、
該当TIFFファイルがあるフォルダで、TIFFファイルを対象とした、
Explorerでの、文字列検索が可能になります。

例えば、1980年代以前の、活字時代のカタログ、図表入りマニュアルなどは、
OCRにかけて、文字データが取れる頁と、取れない頁、取れても、識字率が悪い頁などが
でてきます。図表や、絵の部分はOCRで誤字や、変換不能になりますし。
この時は、DBへOCRデータを入れてしまって、データ自体がある程度パターン変換が
効きましたので、変換結果を見ながら自動修正して、結果を再度、
目視修正の機能迄、実装しました。

投稿2016/02/20 04:26

daive

総合スコア2028

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問