Javaによるメソッドの使用法について

JavaのPDFboxというライブラリを使って、PDF文書から文字の出現位置を取得するコードを書きたいと思い、ネットで探したところ、以下のサンプルコードが見つかりました。プログラムと同じディレクトリに読み取るPDFを置いて実行することによりtxtファイルに書き出して同ディレクトリに作成されます。
私がやりたいことは、txtファイルへの出力ではなく、配列に入れたいと考えております。先ずは、コードの解析をしているのですが1つ不明なところがございます。
protected void processTextPosition( TextPosition text )というメソッドです。定義はしてあるものの、使用はされていないように見えます。ですがcompile&runするとこの部分もしっかりと動いております。私の知見のためにこれを解析＆解説していただけると幸いです。また、txt出力ではなく配列化することについても教えていただきたいです。

MyExtractText.java

java
1import java.io.File;
2import java.io.FileInputStream;
3import java.io.FileNotFoundException;
4import java.io.FileOutputStream;
5import java.io.IOException;
6import java.io.OutputStreamWriter;
7import java.io.PrintWriter;
8import java.io.StringWriter;
9
10import org.apache.pdfbox.pdfparser.PDFParser;
11import org.apache.pdfbox.pdmodel.PDDocument;
12import org.apache.pdfbox.util.PDFTextStripper;
13import org.apache.pdfbox.util.TextPosition;
14
15public class MyExtractText {
16	
17	
18	private File pdfFile;
19	private File resultFile;
20	public MyExtractText(File pdfFile,File resultFile){
21		this.pdfFile=pdfFile;
22		this.resultFile=resultFile;
23	}
24	
25	public void process() throws IOException,FileNotFoundException {
26		
27		PrintWriter pw =new PrintWriter(new OutputStreamWriter(new FileOutputStream(resultFile)));
28		
29		
30		PDFParser pp = new PDFParser(new FileInputStream(pdfFile));
31		pp.parse();
32		PDDocument doc = pp.getPDDocument();
33		int pageCount = doc.getNumberOfPages();
34		//int pageCount = doc.getPageCount();
35		
36		for(int i=0; i<pageCount; i++){
37			
38			int pageIndex = i+1;
39
40			boolean force = true;
41			boolean sort = true;
42			boolean separateBeads = false;
43			int startPage = pageIndex;
44			int endPage = pageIndex;
45			
46			pw.println("--- "+pageIndex+" ---");
47			
48			MyPDFTextStripper stripper = new MyPDFTextStripper(pageIndex,pw);
49
50			stripper.setForceParsing( force );
51			stripper.setSortByPosition( sort );
52			stripper.setShouldSeparateByBeads( separateBeads );
53			stripper.setStartPage( startPage );
54			stripper.setEndPage( endPage );
55
56			StringWriter sw=new StringWriter();
57			PrintWriter output=new PrintWriter(sw);
58			stripper.writeText( doc, output );
59			output.close();
60			// sw.toString();
61		}
62	}
63	
64	class MyPDFTextStripper extends PDFTextStripper {
65		
66		private int pageIndex;
67		private PrintWriter pw;
68		public MyPDFTextStripper(int pageIndex,PrintWriter pw) throws IOException{
69			super("UTF-8");
70			this.pageIndex=pageIndex;
71			this.pw=pw;
72		}
73		protected void processTextPosition( TextPosition text ){
74			super.processTextPosition(text);
75			
76			StringBuffer sb =new StringBuffer();
77			sb.append(text.getCharacter()).append(",");
78			
79			sb.append("pageIndex="+pageIndex).append(",");
80			
81			sb.append("x="+text.getX()).append(",");
82			sb.append("y="+text.getY()).append(",");
83			sb.append("width="+text.getWidth()).append(",");
84			sb.append("height="+text.getHeight());
85			
86			
87			
88			pw.println( sb.toString() );
89			
90		}
91	}
92
93	public static void main(String[] args) {
94		
95		if(args.length>0){
96			File pdfFile = new File(args[0]);
97			File resultFile = new File(args[1]);
98			
99			try{
100				new MyExtractText(pdfFile,resultFile).process();
101			}
102			catch(Exception ex){
103				ex.printStackTrace();
104			}
105		}
106	}
107}

Compile&run

java
1$ javac -classpath .:pdfbox-app-1.5.0.jar MyExtractText.java
2$ java -classpath .:pdfbox-app-1.5.0.jar MyExtractText test.pdf result.txt
3$ cat result.txt
4

退会済みユーザー

2015/12/04 06:50 編集

ページごとにしたいか？　　ページごとでさらに行ごとにしたいのか？どっちでしょうか？

退会済みユーザー

2015/12/04 06:53

aliceさんありがとうございます。ページごとでさらに行ごとにしたいです。

行動規範の内容に同意します

回答2件

protected void processTextPosition( TextPosition text )というメソッド

extends PDFTextStripperで継承を行っているので、
親クラスで呼ばれていると思います。

このような場合、メソッドの前に@Overrideをつけるのが親切な書き方ですね。

投稿2015/12/04 07:13

liguofeng29

総合スコア801

退会済みユーザー

2015/12/04 07:16

liguofeng29さんわかりやすい回答ありがとうございます。

行動規範の内容に同意します

ベストアンサー

pdftextstripper クラスは abstract なんじゃないですか。
stripper.writetext の中で、processtextpositionをよびだしてる。

こんな感じでづ。

java
1class abstract base {
2   protected abstract void process();
3   public void write() {
4       process();
5       //...
6   }
7}
8class mybase extends base {
9    @overrides
10    protected void process() {
11        // 
12    }
13}
14
15
16mybase b = new mybase();
17b.write();
18
19

投稿2015/12/04 06:50

ipadcaron

総合スコア1693

退会済みユーザー

2015/12/04 07:01

ipadcaronさんそういうのもあるんですね！こんな短期間で解答いただけるとは・・・自分の力不足が恥ずかしいです。

ipadcaron

2015/12/04 07:14

protected はクラス内部で利用限定であることを実装者、~利用者に通知し、abstract はこのクラスは未定義のメソッドが幾つかありまづ、宣言でづ。組み合わせて解釈すると、このクラスは abstract なのでそのままではインスタンス化できません。利用する場合には、必ず継承した myClass を作成し、必要なメソッドを実装してください、てな感じです。何をやりたいのかはあなた次第っていうことです。ただし、なんでも出来るわけじゃなくて、与えられたパラメーターで実現すること。で、もう一つの質問については、 myClass 内部で、リストを用意、リストのgetterも外にだすために用意して、writetext実行後には、process 内で処理した結果がリストになってるはずなんで、これで呼び出された回数分の処理結果なり、処理たいしょうの文字列なりがリストで一覧形式で取得できるかと。

退会済みユーザー

2015/12/04 08:45

ipadcaronさんご丁寧にありがとうございます！！見えてきました！！

行動規範の内容に同意します

あなたの回答