Java EEによるWebシステム開発初心者です。
曖昧性の高い質問になりますがよろしくお願い致します。
以下のような機能を持つWebシステムを構想しています。
実装方法についてアドバイスいただければと思い質問させていただきます。
- PDFを取り込む(ユーザがシステムにアップロード)
- PDF上の文字を読み取り,DBに持つ文字とマッチングを行う
- PDF上の文字のうちDBとマッチングした文字をハイライトし、画面上に表示
*ただしハイライトしてあること以外、元PDFと同じレイアウトで出力したい
イメージとしては、例えば以下のシステムです。
http://en.writecheck.com/
ユーザがアップロードした論文に対して、過去の論文との
類似度が高い部分をマークアップして出力するサービス
(取り込んだPDFに対しサーバー側の処理で情報を重ねて出力)
PDFを読み込むところまではiTextやPDFlib等でできる想定ですが
(A) PDF内の文の一部を編集(マークアップ)し、かつ
(B) 元のPDFのフォーマットを保持したまま出力する
アイディアが何かあれば教えていただけませんか。
(A)のみであれば元PDFからテキストを取得して編集すればよく、
(B)だけであればPDF形式や画像形式で取得したものをそのまま出力すれば
良いと思いますが、両立させる方法が思いつきません。
*なお出力時はPDF形式でなくとも、例えばXML形式での出力であっても
元のフォーマットが概ね保持できていれば問題ありません。
質問が曖昧で申し訳ありませんが、よろしくお願い致します。
あなたの回答
tips
プレビュー