・実行環境:Google Colaboratory
・接続DB:Big Query
・やりたいこと:Google ColaboratoryからBig Queryをたたき、中間テーブルを作成したい
・困っていること:Big Queryを叩いて得たデータを一度データフレームに入れ、そのデータフレームをBig Query上でテーブル化するという処理をしているため、データ量に比例して処理速度が重くなってしまう
・知りたいこと:今回のようなビッグデータをGoogle Colaboratory上で処理する際、負荷をかけないで処理する方法はあるのか
実際に書いているコード
Python
1import pandas as pd 2from pandas.io import gbq 3from gspread_dataframe import get_as_dataframe, set_with_dataframe 4 5query = 'データ更新のクエリ' 6df = pd.read_gbq(query, 'project-id') 7# テンポラリテーブルを上書き 8df.to_gbq('table_name', 'project-id', if_exists='replace')
今後もscikielearnの機械学習モデルに教育データを入れ込んだりしたいので、こういった大量データを扱う際の方法を教示いただけると幸いです。
よろしくおねがいします。
あなたの回答
tips
プレビュー