質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.51%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Q&A

2回答

7582閲覧

JavaのPrintwriterクラスによるtxtファイル作成が途中で止まる

退会済みユーザー

退会済みユーザー

総合スコア0

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

0グッド

0クリップ

投稿2015/12/09 03:33

以前投稿した時と同じ素材で別のところつまっており助けていただきたいです。
最終目的:JavaによりExcel化された辞書(用語と解説)の用語をPDF文書内で検索して、その用語がPDF内に見つかればその用語の座標位置を返してほしい。
つまづきポイント:PDF内文書検索の準備としてPDFを読取り、文字毎の座標位置を2次元配列で保持したいと考えております。それをやるためにPDFを解析→中間ファイルとして、用語、ページ番号、座標位置を1行でカンマ区切りにしたテキストファイルを生成→中間テキストファイルを読込み、配列化。という方法で行っています。問題点は、解析したPDFの全ての文字を中間テキストファイルに出力しきれずに途中でとまってしまうことです。原因がわからずお力を借りたいです。以下コードをのせます。どうぞよろしくお願いいたします。

MyExtractText.java

Java

1import java.io.File; 2import java.io.FileInputStream; 3import java.io.FileNotFoundException; 4import java.io.FileOutputStream; 5import java.io.IOException; 6import java.io.OutputStreamWriter; 7import java.io.PrintWriter; 8import java.io.StringWriter; 9 10import org.apache.pdfbox.pdfparser.PDFParser; 11import org.apache.pdfbox.pdmodel.PDDocument; 12import org.apache.pdfbox.util.PDFTextStripper; 13import org.apache.pdfbox.util.TextPosition; 14 15public class MyExtractText { 16 17 18 private File pdfFile; 19 private File resultFile; 20 public MyExtractText(File pdfFile,File resultFile){ 21 this.pdfFile=pdfFile; 22 this.resultFile=resultFile; 23 } 24 25 public void process() throws IOException,FileNotFoundException { 26 27 PrintWriter pw =new PrintWriter(new OutputStreamWriter(new FileOutputStream(resultFile))); 28 29 30 PDFParser pp = new PDFParser(new FileInputStream(pdfFile)); 31 pp.parse(); 32 PDDocument doc = pp.getPDDocument(); 33 int pageCount = doc.getNumberOfPages(); 34 //int pageCount = doc.getPageCount(); 35 36 for(int i=0; i<pageCount; i++){ 37 38 int pageIndex = i+1; 39 40 boolean force = true; 41 boolean sort = true; 42 boolean separateBeads = false; 43 int startPage = pageIndex; 44 int endPage = pageIndex; 45 46 pw.println("--- "+pageIndex+" ---"); 47 48 MyPDFTextStripper stripper = new MyPDFTextStripper(pageIndex,pw); 49 50 stripper.setForceParsing( force ); 51 stripper.setSortByPosition( sort ); 52 stripper.setShouldSeparateByBeads( separateBeads ); 53 stripper.setStartPage( startPage ); 54 stripper.setEndPage( endPage ); 55 56 StringWriter sw=new StringWriter(); 57 PrintWriter output=new PrintWriter(sw); 58 stripper.writeText( doc, output ); 59 output.close(); 60 // sw.toString(); 61 } 62 } 63 64 class MyPDFTextStripper extends PDFTextStripper { 65 66 private int pageIndex; 67 private PrintWriter pw; 68 public MyPDFTextStripper(int pageIndex,PrintWriter pw) throws IOException{ 69 super("UTF-8"); 70 this.pageIndex=pageIndex; 71 this.pw=pw; 72 } 73 protected void processTextPosition( TextPosition text ){ 74 super.processTextPosition(text); 75 76 StringBuffer sb =new StringBuffer(); 77 sb.append(text.getCharacter()).append(","); 78 79 sb.append("pageIndex="+pageIndex).append(","); 80 81 sb.append("x="+text.getX()).append(","); 82 sb.append("y="+text.getY()).append(","); 83 sb.append("width="+text.getWidth()).append(","); 84 sb.append("height="+text.getHeight()); 85 86 87 88 pw.println( sb.toString() ); 89 90 } 91 } 92 93 public static void main(String[] args) { 94 95 if(args.length>0){ 96 File pdfFile = new File(args[0]); 97 File resultFile = new File(args[1]); 98 99 try{ 100 new MyExtractText(pdfFile,resultFile).process(); 101 } 102 catch(Exception ex){ 103 ex.printStackTrace(); 104 } 105 } 106 } 107} 108

compile, and run

$ javac -classpath .:pdfbox-app-1.5.0.jar MyExtractText.java $ java -classpath .:pdfbox-app-1.5.0.jar MyExtractText test.pdf result.txt $ cat result.txt

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

###ヘディングのテキストファイル名がユニークでは無さそうなので、pdfに対して辞書ファイルは1つ作成される。
メインクラス.process 内で、pdf初期化して、ページ数分ループ、pdfwriter のオーバーライドメソッドが1ページの文字列の数だけ繰り返し呼び出される。

outputstreamwriter は、bufferedwriter でラップした方がいいよ、ーって書いてあります。
outputstreamwriter は、少ない容量ですがバッファをもってるようです。バッファの吐き出し契機は、一般的には改行コード検出、又はフルになった時です。
pw をクローズする処理がありませんが、close を一番外のループの出口より後についか、バッファフラッシュを忘れずに。
こういうのは、ファイルとかいきなりやらないで、原因がはっきりしない場合は、output に、system.out を指定して、コンソールに出してみてください。出てきた単語とpdfを確認し、全部出てたらファイルに落とす。
ここで、ファイルに書き込み欠損があると分かれば、system.out と outputstreamwriter の違いを確認する。焦りは遠回りです。

追記---
ーーー
system.out に出せば全部でるはず。処理が途中で落ちないのであれば。

投稿2015/12/09 04:24

編集2015/12/09 04:27
ipadcaron

総合スコア1693

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ipadcaron

2015/12/09 04:28

なんか最初の書き込みが変になってる、中々悩ましい事象ですが無視します。
退会済みユーザー

退会済みユーザー

2015/12/09 04:35

@ipadcaron様 なるほどです! いつもありがとうございます。先ずは、やってみます!
guest

0

対象となるPDFは公開できますか。

投稿2015/12/09 04:06

liguofeng29

総合スコア801

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2015/12/09 04:23

@liguofeng29様 対象PDFは非常に機密性の高い文書のため、公開が難しいです。申し訳ありません。他のPDFでも同じ現象が起きたのでこちらをアップさせていただきます。なにか解決の糸口でも教えていただけると幸いです。 【代替PDF】 http://mmm.co.jp/hc/dental/pro/download/impression/silicone/00/manual01.pdf
liguofeng29

2015/12/09 05:06

上記PDFで出力してみましたが、 10001行に切れて出力されます。 ,pageIndex=5,x=308.0987,y=175.07 なので、 pw.println( sb.toString() ); の次に pw.flush(); を追加するこで、10013行まで出力されました。 pw.flush(); これで本当のファイルで出力してみてください。
退会済みユーザー

退会済みユーザー

2015/12/10 00:00

@liguofeng29様 ありがとうございます。 doc見たのですがflushメソッドがいまいちどういうものかわからないです。 バッファせずにタイムリ-に掃き出すイメージという認識です。 まずはやってみます!
liguofeng29

2015/12/10 01:06

再度確認ですが、全部で10ページの場合、 10ページのうち5ページ以降が出力されないのか それと10ページの最後の何行が出力されないのか。 どっちでしょうか。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.51%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問