###前提・実現したいこと
JavaでPDFファイルをXMLに変換したいです。
単純にXMLに変換し、出力したいのですが、使用するライブラリやコーディングがわかりません。
###該当のソースコード
java
1package tika; 2 3import java.io.File; 4import java.io.IOException; 5 6import org.apache.tika.Tika; 7import org.apache.tika.exception.TikaException; 8 9public class tika { 10 11 public static void main(String[] args) { 12 try { 13 //tikaインスタンスの生成 14 Tika tika = new Tika(); 15 16 //コンソール出力 17 System.out.println(tika.parseToString(new File("/xxx.pdf"))); 18 19 } catch (IOException e) { 20 e.printStackTrace(); 21 } catch (TikaException e) { 22 e.printStackTrace(); 23 } 24 } 25}
###試したこと
Apache Tikaを使用してテキスト抽出はできたが、XMLにしたい。
###補足
Javaはあまり使用したことがなく、今回初めて使用しているので基本的な質問ですみません。。。
よろしくお願いします。
回答3件
あなたの回答
tips
プレビュー