pandasにおける巨大dataframeの末行読み込みについて

pandasにおいて，数十GBのデータ(.txt)の末行のみを利用したいです．
readtableで全て読み込んだ後.tailで末行を取得すれば可能ですが，メモリ使用量が膨大になってしまうので避けたいです．また，skiprowsなどで指定行のみ読み込むことも考えましたが，読み込むデータによって行数がまちまちであり，指定行のindexを得るためにlenなどで読み込むデータの行数を取得するとしても，結局データを全て読み込む事になりメモリを消費してしまうので本末転倒になってしまいます．

サイズの異なるデータにおいても柔軟に末行のみを読み込む方法があれば教えていただきたいです．

meg_

2021/01/13 00:27

ターミナルにてコマンドで処理すれば良さそうです。※OSが不明なので具体的な方法は自身でお調べください。

行動規範の内容に同意します

回答4件

Daskを使う方法です。最後の数行だけならたぶん一瞬です。
dask.dataframe.DataFrame.tail() — Dask documentation
（Daskをインストールしていない場合はインストールする必要があります）

python
1import dask.dataframe as dd
2
3df = dd.read_csv('data.txt').tail(1)

投稿2021/01/13 02:48

kirara0048

総合スコア1399

「tail -1 対象ファイル」を実行した結果を使うのが楽じゃないかな。
パイプで接続してinput()で読んでもいいし、subprocessモジュールを使ってもいい。

Windowsでは、WSLやMinGWなどでtailコマンドを使えるようにしてください。

投稿2021/01/13 01:16

Daregada

総合スコア11990

ベストアンサー

巨大なテキストファイルの末尾だけが欲しいならシークポインタを使うのがいいように思います。

以下のサイトを参考に関数にまとめてみました。

What is the most efficient way to get first and last line of a text file?

python
1def get_last_line(fname):
2    with open(fname, 'rb') as f:
3        offset = -500
4
5        while True:
6            f.seek(offset, 2)
7            lines = f.readlines()
8            if len(lines) > 1:
9                last_line = lines[-1]
10                break
11            offset *= 2
12
13    return last_line.decode('utf8') # ファイル形式は適宜変更してください
14
15last_line = get_last_line(r'D:\WorkShop\Temp\test.txt')
16print(last_line)
17