JavaのPrintwriterクラスによるtxtファイル作成が途中で止まる

以前投稿した時と同じ素材で別のところつまっており助けていただきたいです。
最終目的：JavaによりExcel化された辞書（用語と解説）の用語をPDF文書内で検索して、その用語がPDF内に見つかればその用語の座標位置を返してほしい。
つまづきポイント：PDF内文書検索の準備としてPDFを読取り、文字毎の座標位置を2次元配列で保持したいと考えております。それをやるためにPDFを解析→中間ファイルとして、用語、ページ番号、座標位置を1行でカンマ区切りにしたテキストファイルを生成→中間テキストファイルを読込み、配列化。という方法で行っています。問題点は、解析したPDFの全ての文字を中間テキストファイルに出力しきれずに途中でとまってしまうことです。原因がわからずお力を借りたいです。以下コードをのせます。どうぞよろしくお願いいたします。

MyExtractText.java

Java
1import java.io.File;
2import java.io.FileInputStream;
3import java.io.FileNotFoundException;
4import java.io.FileOutputStream;
5import java.io.IOException;
6import java.io.OutputStreamWriter;
7import java.io.PrintWriter;
8import java.io.StringWriter;
9
10import org.apache.pdfbox.pdfparser.PDFParser;
11import org.apache.pdfbox.pdmodel.PDDocument;
12import org.apache.pdfbox.util.PDFTextStripper;
13import org.apache.pdfbox.util.TextPosition;
14
15public class MyExtractText {
16	
17	
18	private File pdfFile;
19	private File resultFile;
20	public MyExtractText(File pdfFile,File resultFile){
21		this.pdfFile=pdfFile;
22		this.resultFile=resultFile;
23	}
24	
25	public void process() throws IOException,FileNotFoundException {
26		
27		PrintWriter pw =new PrintWriter(new OutputStreamWriter(new FileOutputStream(resultFile)));
28		
29		
30		PDFParser pp = new PDFParser(new FileInputStream(pdfFile));
31		pp.parse();
32		PDDocument doc = pp.getPDDocument();
33		int pageCount = doc.getNumberOfPages();
34		//int pageCount = doc.getPageCount();
35		
36		for(int i=0; i<pageCount; i++){
37			
38			int pageIndex = i+1;
39
40			boolean force = true;
41			boolean sort = true;
42			boolean separateBeads = false;
43			int startPage = pageIndex;
44			int endPage = pageIndex;
45			
46			pw.println("--- "+pageIndex+" ---");
47			
48			MyPDFTextStripper stripper = new MyPDFTextStripper(pageIndex,pw);
49
50			stripper.setForceParsing( force );
51			stripper.setSortByPosition( sort );
52			stripper.setShouldSeparateByBeads( separateBeads );
53			stripper.setStartPage( startPage );
54			stripper.setEndPage( endPage );
55
56			StringWriter sw=new StringWriter();
57			PrintWriter output=new PrintWriter(sw);
58			stripper.writeText( doc, output );
59			output.close();
60			// sw.toString();
61		}
62	}
63	
64	class MyPDFTextStripper extends PDFTextStripper {
65		
66		private int pageIndex;
67		private PrintWriter pw;
68		public MyPDFTextStripper(int pageIndex,PrintWriter pw) throws IOException{
69			super("UTF-8");
70			this.pageIndex=pageIndex;
71			this.pw=pw;
72		}
73		protected void processTextPosition( TextPosition text ){
74			super.processTextPosition(text);
75			
76			StringBuffer sb =new StringBuffer();
77			sb.append(text.getCharacter()).append(",");
78			
79			sb.append("pageIndex="+pageIndex).append(",");
80			
81			sb.append("x="+text.getX()).append(",");
82			sb.append("y="+text.getY()).append(",");
83			sb.append("width="+text.getWidth()).append(",");
84			sb.append("height="+text.getHeight());
85			
86			
87			
88			pw.println( sb.toString() );
89			
90		}
91	}
92
93	public static void main(String[] args) {
94		
95		if(args.length>0){
96			File pdfFile = new File(args[0]);
97			File resultFile = new File(args[1]);
98			
99			try{
100				new MyExtractText(pdfFile,resultFile).process();
101			}
102			catch(Exception ex){
103				ex.printStackTrace();
104			}
105		}
106	}
107}
108

compile, and run

$ javac -classpath .:pdfbox-app-1.5.0.jar MyExtractText.java
$ java -classpath .:pdfbox-app-1.5.0.jar MyExtractText test.pdf result.txt
$ cat result.txt

行動規範の内容に同意します

回答2件

###ヘディングのテキストファイル名がユニークでは無さそうなので、pdfに対して辞書ファイルは1つ作成される。
メインクラス.process 内で、pdf初期化して、ページ数分ループ、pdfwriter のオーバーライドメソッドが1ページの文字列の数だけ繰り返し呼び出される。

outputstreamwriter は、bufferedwriter でラップした方がいいよ、ーって書いてあります。
outputstreamwriter は、少ない容量ですがバッファをもってるようです。バッファの吐き出し契機は、一般的には改行コード検出、又はフルになった時です。
pw をクローズする処理がありませんが、close を一番外のループの出口より後についか、バッファフラッシュを忘れずに。
こういうのは、ファイルとかいきなりやらないで、原因がはっきりしない場合は、output に、system.out を指定して、コンソールに出してみてください。出てきた単語とpdfを確認し、全部出てたらファイルに落とす。
ここで、ファイルに書き込み欠損があると分かれば、system.out と outputstreamwriter の違いを確認する。焦りは遠回りです。

追記---
ーーー
system.out に出せば全部でるはず。処理が途中で落ちないのであれば。

投稿2015/12/09 04:24

編集2015/12/09 04:27

ipadcaron

総合スコア1693

ipadcaron

2015/12/09 04:28

なんか最初の書き込みが変になってる、中々悩ましい事象ですが無視します。

退会済みユーザー

2015/12/09 04:35

@ipadcaron様なるほどです！いつもありがとうございます。先ずは、やってみます！

行動規範の内容に同意します

対象となるPDFは公開できますか。

投稿2015/12/09 04:06

liguofeng29

総合スコア801

退会済みユーザー

2015/12/09 04:23

@liguofeng29様対象PDFは非常に機密性の高い文書のため、公開が難しいです。申し訳ありません。他のPDFでも同じ現象が起きたのでこちらをアップさせていただきます。なにか解決の糸口でも教えていただけると幸いです。【代替PDF】 http://mmm.co.jp/hc/dental/pro/download/impression/silicone/00/manual01.pdf

liguofeng29

2015/12/09 05:06

上記PDFで出力してみましたが、 10001行に切れて出力されます。 ,pageIndex=5,x=308.0987,y=175.07 なので、 pw.println( sb.toString() );　の次に pw.flush(); を追加するこで、10013行まで出力されました。 pw.flush();　これで本当のファイルで出力してみてください。

退会済みユーザー

2015/12/10 00:00

@liguofeng29様ありがとうございます。 doc見たのですがflushメソッドがいまいちどういうものかわからないです。バッファせずにタイムリ－に掃き出すイメージという認識です。まずはやってみます！

liguofeng29

2015/12/10 01:06

再度確認ですが、全部で10ページの場合、 10ページのうち5ページ以降が出力されないのかそれと10ページの最後の何行が出力されないのか。どっちでしょうか。

行動規範の内容に同意します

あなたの回答