Python3 : tabula.read_pdf でPDFを読み込めない（入力データの行数が少ない場合）

Question

### 前提

python3で、PDFデータを読み込むコードを書いています。
 tabula.read_pdfという関数を使用して、以下のようにPDFファイルを読み込もうとしたところ、
以下の通り読み込めませんでした。

```
#プログラムの中身
filename_m= "test.pdf"
tp_m = tabula.read_pdf(filename_m, stream=True, pages = 'all', encoding='shift-jis', silent=True)
print("tp_m=")
print(tp_m)

#出力
　tp_m=
   []　　　
```

ここでtest.pdfの中身は以下の通りです。
次に、データの行数を2行にした"test2.pdf", 3行の"test3.pdf", 4行の"test4.pdf"を用意しました。

![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-01-06/8da36cca-057b-49fd-beed-33d089d1a171.png)
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2023-01-06/35feeda1-5379-4f61-b5dc-f499b78cfbbd.png)

上記のプログラムを実行したところ、
"test2.pdf"と"test3.pdf"については同様に読み込めませんでした。
一方で、"test4.pdf" については以下の通り読み込めました。

```
filename_m= "test4.pdf"
tp_m = tabula.read_pdf(filename_m, stream=True, pages = 'all', encoding='shift-jis', silent=True)
print("tp_m=")
print(tp_m)

＃出力
tp_m =
[  Unnamed: 0    1WEEK   1MONTH  2MONTH   3MONTH  4MONTH  5MONTH   6MONTH
0   2023/1/4 -0.04545  0.06818     NaN  0.06364     NaN     NaN  0.14364 
1   2023/1/5 -0.04545  0.06818     NaN  0.06364     NaN     NaN  0.14364 
2   2023/1/6 -0.04545  0.06818     NaN  0.06364     NaN     NaN  0.14364 
3   2023/1/7 -0.04545  0.06818     NaN  0.06364     NaN     NaN  0.14364]
```

同様に、5行以上の入力データを作成して試したところ、読み込まれました。

### 質問
ⅰ)   tabula.read_pdfは、入力データが4行以上の場合のみ読み込めるのでしょうか。

ⅱ)  もしそうであるなら、改善策はありますか？
　　入力用のPDFファイルに記述されているデータの行数が１～3行の場合に、それを読み込める関数などがあれば、ご教示いただきたいです。もしくは、現状のプログラムを修正して改善できるのでしょうか

以上、よろしくお願いいたします。

Accepted Answer

公式ドキュメントより：

[I got a empty DataFrame. How can I resolve it?](https://tabula-py.readthedocs.io/en/latest/faq.html#i-got-a-empty-dataframe-how-can-i-resolve-it)

前提として、対象の PDF はテキストベースのテーブル情報を含んでいること。画像ベースのものはサポートしていない。

解決策として提示されているのは：

- 正確にテーブルを検知するため、`area` を指定する
- テーブルに明確なラインがあるなら `lattice=True` を試す、もしくは `stream=True` を試す

これでもダメなら、[tabula app](https://tabula.technology/) を使ってみる。`tabula` の GUI バージョンで、直接テーブルの位置を指定できる。

もしこれで、テーブルが抽出できて、`tabula.py` で出来なかったら、GitHub の Issue で報告してください。とのこと。

前提

質問

関連した質問