1. 【必須】やりたい・やりたかったこと
- スクレイピングツールOctoparseにて定期実行したデータをクラウドに上げたい(API利用?)
- BigQueryBIEngineを介して高速化した状態でGoogleDataPortalに表示したい
- その他GCP上のどのようなサービスを利用すれば最も低コストで実現できるかを知りたい
今回は技術的詳細に関する質問というよりは、上記のような、定期実行したスクレイピングのデータをいかに自動的にGoogledataportalに表示する流れを安価に実現する際の一般的な流れを知りたい、というのが趣旨となります
2. 【必須】起きている問題やエラーメッセージ
特定のファッションECサイト上にある注文実績データを定期実行・自動収集する流れをノーコードのスクレイピングツールを利用して作成しました。
その後そのデータを統計的な観点から分析したいと思い、dataportalで視覚化しました。
データの規模としてはテキストのみのデータで600万件ほど、毎日2万件前後新たにデータが追加されていきます。
古いものから削除していきたいと思っております。
現在は、Octoparseにて出力したデータを一度ローカルのDBに出力し、そこから逐次CSV形式でダウンロードしてGoogleCloudStorageに出力しています
Googledataportalにて、データソースにBIengineで高速化したcloudstargeを指定することで表示しています。
3. 【必須】ご自身で試されたこと
当初は、ローカルにサーバを立てて固定IPを割り振り、スクレイピングツール→自宅サーバのMySQLDB→DataPortalに表示
で処理していました。しかし画像の通りフィルタを多く使用しており、それを操作するたびにかなりの時間を要するようになったためBIengineによる高速化を試みました。
ただその後スクレイピングツールから自動でCloudにデータを上げるすべがわからず、結局Cloudstrageに手動でCSVをあげるところまででギブアップしてしまいました。
一応外注しようと専門的知識を持った数人にお話を聞いたのですが、はっきりとせず。。
一般的にはGoogleDriveにAPI連携して直接データをCSVで上げていくやり方が一般的?というようなお話も聞きました。
実際はツールが利用できれば良いのですが、流石に右も左もわからなすぎて1から学ぶしか無いのかと思っております。
どうぞよろしくお願いいたします。
4. 関連するソースコードやスクリーンショット
5. 関連するURL ※GithubのリポジトリリンクやサーバーのURLなど
【料金 | BI Engine | Google Cloud】
https://cloud.google.com/bi-engine/pricing?hl=ja
【BigQuery: クラウド データ ウェアハウス | Google Cloud】
https://cloud.google.com/bigquery?hl=ja
【Cloud Storage | Google Cloud】
https://cloud.google.com/storage?hl=ja
【Cloud SQL for PostgreSQL、Cloud SQL for MySQL、Cloud SQL for SQL Server | Cloud SQL: リレーショナル データベース サービス | Google Cloud】
https://cloud.google.com/sql?hl=ja
6. 使用言語・ライブラリのバージョン
MySQL
GoogleCloudStorage
GoogleDataPortal
BigQuery
BIEngine
