JavaのPDFboxというライブラリを使って、PDF文書から文字の出現位置を取得するコードを書きたいと思い、ネットで探したところ、以下のサンプルコードが見つかりました。プログラムと同じディレクトリに読み取るPDFを置いて実行することによりtxtファイルに書き出して同ディレクトリに作成されます。
私がやりたいことは、txtファイルへの出力ではなく、配列に入れたいと考えております。先ずは、コードの解析をしているのですが1つ不明なところがございます。
protected void processTextPosition( TextPosition text )というメソッドです。定義はしてあるものの、使用はされていないように見えます。ですがcompile&runするとこの部分もしっかりと動いております。私の知見のためにこれを解析&解説していただけると幸いです。また、txt出力ではなく配列化することについても教えていただきたいです。
MyExtractText.java
java
1import java.io.File; 2import java.io.FileInputStream; 3import java.io.FileNotFoundException; 4import java.io.FileOutputStream; 5import java.io.IOException; 6import java.io.OutputStreamWriter; 7import java.io.PrintWriter; 8import java.io.StringWriter; 9 10import org.apache.pdfbox.pdfparser.PDFParser; 11import org.apache.pdfbox.pdmodel.PDDocument; 12import org.apache.pdfbox.util.PDFTextStripper; 13import org.apache.pdfbox.util.TextPosition; 14 15public class MyExtractText { 16 17 18 private File pdfFile; 19 private File resultFile; 20 public MyExtractText(File pdfFile,File resultFile){ 21 this.pdfFile=pdfFile; 22 this.resultFile=resultFile; 23 } 24 25 public void process() throws IOException,FileNotFoundException { 26 27 PrintWriter pw =new PrintWriter(new OutputStreamWriter(new FileOutputStream(resultFile))); 28 29 30 PDFParser pp = new PDFParser(new FileInputStream(pdfFile)); 31 pp.parse(); 32 PDDocument doc = pp.getPDDocument(); 33 int pageCount = doc.getNumberOfPages(); 34 //int pageCount = doc.getPageCount(); 35 36 for(int i=0; i<pageCount; i++){ 37 38 int pageIndex = i+1; 39 40 boolean force = true; 41 boolean sort = true; 42 boolean separateBeads = false; 43 int startPage = pageIndex; 44 int endPage = pageIndex; 45 46 pw.println("--- "+pageIndex+" ---"); 47 48 MyPDFTextStripper stripper = new MyPDFTextStripper(pageIndex,pw); 49 50 stripper.setForceParsing( force ); 51 stripper.setSortByPosition( sort ); 52 stripper.setShouldSeparateByBeads( separateBeads ); 53 stripper.setStartPage( startPage ); 54 stripper.setEndPage( endPage ); 55 56 StringWriter sw=new StringWriter(); 57 PrintWriter output=new PrintWriter(sw); 58 stripper.writeText( doc, output ); 59 output.close(); 60 // sw.toString(); 61 } 62 } 63 64 class MyPDFTextStripper extends PDFTextStripper { 65 66 private int pageIndex; 67 private PrintWriter pw; 68 public MyPDFTextStripper(int pageIndex,PrintWriter pw) throws IOException{ 69 super("UTF-8"); 70 this.pageIndex=pageIndex; 71 this.pw=pw; 72 } 73 protected void processTextPosition( TextPosition text ){ 74 super.processTextPosition(text); 75 76 StringBuffer sb =new StringBuffer(); 77 sb.append(text.getCharacter()).append(","); 78 79 sb.append("pageIndex="+pageIndex).append(","); 80 81 sb.append("x="+text.getX()).append(","); 82 sb.append("y="+text.getY()).append(","); 83 sb.append("width="+text.getWidth()).append(","); 84 sb.append("height="+text.getHeight()); 85 86 87 88 pw.println( sb.toString() ); 89 90 } 91 } 92 93 public static void main(String[] args) { 94 95 if(args.length>0){ 96 File pdfFile = new File(args[0]); 97 File resultFile = new File(args[1]); 98 99 try{ 100 new MyExtractText(pdfFile,resultFile).process(); 101 } 102 catch(Exception ex){ 103 ex.printStackTrace(); 104 } 105 } 106 } 107}
Compile&run
java
1$ javac -classpath .:pdfbox-app-1.5.0.jar MyExtractText.java 2$ java -classpath .:pdfbox-app-1.5.0.jar MyExtractText test.pdf result.txt 3$ cat result.txt 4
回答2件
あなたの回答
tips
プレビュー