お世話になります。
国土交通省のHPにある「全国・主要都市圏における高速道路・主要国道の主な区間の交通量増減」-<1.全国>を集計し、全国の交通量の推移を時系列で把握しようとしています。
※リンク内容
1)コードについて
日別資料のPDF(※最下段に画像添付)について、以下の手順を行おうとコードを書きました
①globを使ってフォルダ内のPDFファイルのリンク一覧を作成。
②for文を使って①のファイルそれぞれを処理
②-1 tabulaを使ってPDFからデータ抽出
②-2 pandasを使って②-1のデータをエクセルファイルとして保存
Python
1import pandas as pd 2import tabula 3import glob 4 5file = r"■■抽出元フォルダパス■■*.pdf" 6files = glob.glob(file) 7print(files) 8 9for alfa in files: 10 print(alfa) 11 file_name = alfa[-13:-4] 12 data = tabula.read_pdf(alfa,lattice=True,pages="2") 13 for df in data: 14 display(df) 15 df.to_excel(r"■■格納先フォルダパス■■{}.xlsx".format(file_name),index=False)
2)コードを実行した結果
①リンク一覧は正確に抽出された(格納先フォルダ+ファイル名)
②-1 データとしては一覧が抽出された
②-2 エクセルを展開すると1行しか保存されていない(PDFの最終行?)
3)お伺いしたいこと
②-2の処理の際に何か足りないものがあるように思われますがわからず困っております。
教えて頂くことはできますでしょうか。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー