質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Q&A

解決済

2回答

3171閲覧

Javaによるメソッドの使用法について

退会済みユーザー

退会済みユーザー

総合スコア0

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

0グッド

0クリップ

投稿2015/12/04 06:31

JavaのPDFboxというライブラリを使って、PDF文書から文字の出現位置を取得するコードを書きたいと思い、ネットで探したところ、以下のサンプルコードが見つかりました。プログラムと同じディレクトリに読み取るPDFを置いて実行することによりtxtファイルに書き出して同ディレクトリに作成されます。
私がやりたいことは、txtファイルへの出力ではなく、配列に入れたいと考えております。先ずは、コードの解析をしているのですが1つ不明なところがございます。
protected void processTextPosition( TextPosition text )というメソッドです。定義はしてあるものの、使用はされていないように見えます。ですがcompile&runするとこの部分もしっかりと動いております。私の知見のためにこれを解析&解説していただけると幸いです。また、txt出力ではなく配列化することについても教えていただきたいです。

MyExtractText.java

java

1import java.io.File; 2import java.io.FileInputStream; 3import java.io.FileNotFoundException; 4import java.io.FileOutputStream; 5import java.io.IOException; 6import java.io.OutputStreamWriter; 7import java.io.PrintWriter; 8import java.io.StringWriter; 9 10import org.apache.pdfbox.pdfparser.PDFParser; 11import org.apache.pdfbox.pdmodel.PDDocument; 12import org.apache.pdfbox.util.PDFTextStripper; 13import org.apache.pdfbox.util.TextPosition; 14 15public class MyExtractText { 16 17 18 private File pdfFile; 19 private File resultFile; 20 public MyExtractText(File pdfFile,File resultFile){ 21 this.pdfFile=pdfFile; 22 this.resultFile=resultFile; 23 } 24 25 public void process() throws IOException,FileNotFoundException { 26 27 PrintWriter pw =new PrintWriter(new OutputStreamWriter(new FileOutputStream(resultFile))); 28 29 30 PDFParser pp = new PDFParser(new FileInputStream(pdfFile)); 31 pp.parse(); 32 PDDocument doc = pp.getPDDocument(); 33 int pageCount = doc.getNumberOfPages(); 34 //int pageCount = doc.getPageCount(); 35 36 for(int i=0; i<pageCount; i++){ 37 38 int pageIndex = i+1; 39 40 boolean force = true; 41 boolean sort = true; 42 boolean separateBeads = false; 43 int startPage = pageIndex; 44 int endPage = pageIndex; 45 46 pw.println("--- "+pageIndex+" ---"); 47 48 MyPDFTextStripper stripper = new MyPDFTextStripper(pageIndex,pw); 49 50 stripper.setForceParsing( force ); 51 stripper.setSortByPosition( sort ); 52 stripper.setShouldSeparateByBeads( separateBeads ); 53 stripper.setStartPage( startPage ); 54 stripper.setEndPage( endPage ); 55 56 StringWriter sw=new StringWriter(); 57 PrintWriter output=new PrintWriter(sw); 58 stripper.writeText( doc, output ); 59 output.close(); 60 // sw.toString(); 61 } 62 } 63 64 class MyPDFTextStripper extends PDFTextStripper { 65 66 private int pageIndex; 67 private PrintWriter pw; 68 public MyPDFTextStripper(int pageIndex,PrintWriter pw) throws IOException{ 69 super("UTF-8"); 70 this.pageIndex=pageIndex; 71 this.pw=pw; 72 } 73 protected void processTextPosition( TextPosition text ){ 74 super.processTextPosition(text); 75 76 StringBuffer sb =new StringBuffer(); 77 sb.append(text.getCharacter()).append(","); 78 79 sb.append("pageIndex="+pageIndex).append(","); 80 81 sb.append("x="+text.getX()).append(","); 82 sb.append("y="+text.getY()).append(","); 83 sb.append("width="+text.getWidth()).append(","); 84 sb.append("height="+text.getHeight()); 85 86 87 88 pw.println( sb.toString() ); 89 90 } 91 } 92 93 public static void main(String[] args) { 94 95 if(args.length>0){ 96 File pdfFile = new File(args[0]); 97 File resultFile = new File(args[1]); 98 99 try{ 100 new MyExtractText(pdfFile,resultFile).process(); 101 } 102 catch(Exception ex){ 103 ex.printStackTrace(); 104 } 105 } 106 } 107}

Compile&run

java

1$ javac -classpath .:pdfbox-app-1.5.0.jar MyExtractText.java 2$ java -classpath .:pdfbox-app-1.5.0.jar MyExtractText test.pdf result.txt 3$ cat result.txt 4

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2015/12/04 06:50 編集

ページごとにしたいか?  ページごとでさらに行ごとにしたいのか? どっちでしょうか?
退会済みユーザー

退会済みユーザー

2015/12/04 06:53

aliceさん ありがとうございます。 ページごとでさらに行ごとにしたいです。
guest

回答2

0

protected void processTextPosition( TextPosition text )というメソッド

extends PDFTextStripperで継承を行っているので、
親クラスで呼ばれていると思います。

このような場合、メソッドの前に@Overrideをつけるのが親切な書き方ですね。

投稿2015/12/04 07:13

liguofeng29

総合スコア801

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2015/12/04 07:16

liguofeng29さん わかりやすい回答ありがとうございます。
guest

0

ベストアンサー

pdftextstripper クラスは abstract なんじゃないですか。
stripper.writetext の中で、processtextpositionをよびだしてる。

こんな感じでづ。

java

1class abstract base { 2 protected abstract void process(); 3 public void write() { 4 process(); 5 //... 6 } 7} 8class mybase extends base { 9 @overrides 10 protected void process() { 11 // 12 } 13} 14 15 16mybase b = new mybase(); 17b.write(); 18 19

投稿2015/12/04 06:50

ipadcaron

総合スコア1693

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2015/12/04 07:01

ipadcaronさん そういうのもあるんですね! こんな短期間で解答いただけるとは・・・ 自分の力不足が恥ずかしいです。
ipadcaron

2015/12/04 07:14

protected はクラス内部で利用限定であることを実装者、~利用者に通知し、abstract はこのクラスは未定義のメソッドが幾つかありまづ、宣言でづ。 組み合わせて解釈すると、 このクラスは abstract なのでそのままではインスタンス化できません。利用する場合には、必ず継承した myClass を作成し、必要なメソッドを実装してください、 てな感じです。何をやりたいのかはあなた次第っていうことです。ただし、なんでも出来るわけじゃなくて、与えられたパラメーターで実現すること。 で、もう一つの質問については、 myClass 内部で、リストを用意、リストのgetterも外にだすために用意して、writetext実行後には、process 内で処理した結果がリストになってるはずなんで、これで呼び出された回数分の処理結果なり、処理たいしょうの文字列なりがリストで一覧形式で取得できるかと。
退会済みユーザー

退会済みユーザー

2015/12/04 08:45

ipadcaronさん ご丁寧にありがとうございます!! 見えてきました!!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問