C#でnugetからitext7 7.1.14とitext7.font-asian 7.1.14を入れてPDFテキストを読み取ったのですが,下記画像のように日付部分などが一部テキストが文字化けしてしまいます.修正方法はありますでしょうか.
C#
1var req = WebRequest.Create("https://www.release.tdnet.info/inbs/140120210208458149.pdf"); 2req.Timeout = 5000; 3 4using (var res = req.GetResponse()) 5using (var st = res.GetResponseStream()) 6using (var pdfDoc = new PdfDocument(new PdfReader(st))) 7{ 8 var text = ""; 9 10 //PDFのページ分繰り返す 11 for (var page = 1; page <= pdfDoc.GetNumberOfPages(); page++) 12 { 13 //PDFから文字列を抽出 14 text += PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page)) + "\n\n"; 15 } 16}
あなたの回答
tips
プレビュー