データ分析を学習しています。
現在のデータファイルは、Excel形式で読み込みに毎回5分ぐらいかかっています。
毎回、時間がかかっていてめんどくさいです。
読み込み方は下記になります。
df_sample = pd.read_excel('/Users/AAA/BBB/sample.xlsx',sheet_name='XXX',header=1)
データファイルの形式はエクセルからCSVの形式に一旦変えてから、読み込みを行って方が早くなるのでしょうか。
また、処理速度に差があるようでしたらどのぐらい差があるかも興味があります。
場合によるかもしれませんので、整数が格納された3列1万行のファイルの読み込みを例とさせてください。
他の場合でご提示できるようでしたら他のものでも構いません。
ご存知の方ご回答お願いいたします。
まずは、今Excel形式のデータをどのように読み込んでいるかソースを提示してみては如何でしょうか。
同じExcel形式でも読み方次第で速さは結構変わりますよ。
ご質問ありがとうございます。
コードを記載しました。
その読み方で3列1万行のファイルで5分は遅いですね。
私のwin8のHDDに保存したxlsxを読み込むので3列整数10万行で6秒程度でした。
環境(win,mac,linuxとかVMとか)やファイルの保存場所とかはどうなっているのでしょうか。
import pandas as pd
df_sample = pd.read_excel()
しているだけなんですよね?
そのファイルをエクセルで開く場合は何秒かかりますか?
コメントありがとうございます。
シートの列数は5000行、7列でした。
このエクセルファイルには、他のシートもあります。
シートを指定して読み込んでいるので、今回の話題には加味していませんでした。
その他のシートは、1万行7列のシートが8枚あります。
ファイルの保管場所は、ローカルに保管していて、Jupytor notebookで読み込んでいます。
エクセルシートの読み込みは、10〜20秒ぐらいです。
五月雨の回答で申し訳ないです。
この処理は、2分ぐらいかかっています。
とりあえず原因の切り分けということで
新たなbookを作って読み込むシートの値を張り付けて
その新たに作ったシートを読み込むと処理時間はどうなりますか?
質問ありがとうございます。
新たなシートでも同様の処理時間です。
OS、python、pandasのバージョンは何でしょうか?
あなたの回答
tips
プレビュー