質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
BI

BI(ビジネスインテリジェンス)とは、これまでの業務で蓄積された膨大なデータを、分析・加工して企業の意思決定に活用する手法のこと。誰でも手軽に情報を閲覧できることが特徴です。

BigQuery

BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Cloud Storage

Google Cloud Storageは、グーグル社が提供しているクラウドベースのデベロッパー・企業向けストレージサービス。可用性に優れ、APIで操作可能なため、データのアーカイブ保存やアプリケーションのコンテンツ提供など様々な用途に活用できます。

受付中

Octoparse→GoogleDrive→BigQueryBIengine→Googledataportalに表示する流れを作りたい

K_MM
K_MM

総合スコア6

BI

BI(ビジネスインテリジェンス)とは、これまでの業務で蓄積された膨大なデータを、分析・加工して企業の意思決定に活用する手法のこと。誰でも手軽に情報を閲覧できることが特徴です。

BigQuery

BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Cloud Storage

Google Cloud Storageは、グーグル社が提供しているクラウドベースのデベロッパー・企業向けストレージサービス。可用性に優れ、APIで操作可能なため、データのアーカイブ保存やアプリケーションのコンテンツ提供など様々な用途に活用できます。

1回答

0評価

1クリップ

214閲覧

投稿2022/04/29 09:19

1. 【必須】やりたい・やりたかったこと

  • スクレイピングツールOctoparseにて定期実行したデータをクラウドに上げたい(API利用?)
  • BigQueryBIEngineを介して高速化した状態でGoogleDataPortalに表示したい
  • その他GCP上のどのようなサービスを利用すれば最も低コストで実現できるかを知りたい

今回は技術的詳細に関する質問というよりは、上記のような、定期実行したスクレイピングのデータをいかに自動的にGoogledataportalに表示する流れを安価に実現する際の一般的な流れを知りたい、というのが趣旨となります

2. 【必須】起きている問題やエラーメッセージ

特定のファッションECサイト上にある注文実績データを定期実行・自動収集する流れをノーコードのスクレイピングツールを利用して作成しました。
その後そのデータを統計的な観点から分析したいと思い、dataportalで視覚化しました。
データの規模としてはテキストのみのデータで600万件ほど、毎日2万件前後新たにデータが追加されていきます。
古いものから削除していきたいと思っております。

現在は、Octoparseにて出力したデータを一度ローカルのDBに出力し、そこから逐次CSV形式でダウンロードしてGoogleCloudStorageに出力しています
Googledataportalにて、データソースにBIengineで高速化したcloudstargeを指定することで表示しています。

3. 【必須】ご自身で試されたこと

当初は、ローカルにサーバを立てて固定IPを割り振り、スクレイピングツール→自宅サーバのMySQLDB→DataPortalに表示
で処理していました。しかし画像の通りフィルタを多く使用しており、それを操作するたびにかなりの時間を要するようになったためBIengineによる高速化を試みました。
ただその後スクレイピングツールから自動でCloudにデータを上げるすべがわからず、結局Cloudstrageに手動でCSVをあげるところまででギブアップしてしまいました。

一応外注しようと専門的知識を持った数人にお話を聞いたのですが、はっきりとせず。。
一般的にはGoogleDriveにAPI連携して直接データをCSVで上げていくやり方が一般的?というようなお話も聞きました。

実際はツールが利用できれば良いのですが、流石に右も左もわからなすぎて1から学ぶしか無いのかと思っております。
どうぞよろしくお願いいたします。

4. 関連するソースコードやスクリーンショット

イメージ説明
イメージ説明

5. 関連するURL ※GithubのリポジトリリンクやサーバーのURLなど

【料金  |  BI Engine  |  Google Cloud】
https://cloud.google.com/bi-engine/pricing?hl=ja
【BigQuery: クラウド データ ウェアハウス  |  Google Cloud】
https://cloud.google.com/bigquery?hl=ja
【Cloud Storage  |  Google Cloud】
https://cloud.google.com/storage?hl=ja
【Cloud SQL for PostgreSQL、Cloud SQL for MySQL、Cloud SQL for SQL Server  |  Cloud SQL: リレーショナル データベース サービス  |  Google Cloud】
https://cloud.google.com/sql?hl=ja

6. 使用言語・ライブラリのバージョン

MySQL
GoogleCloudStorage
GoogleDataPortal
BigQuery
BIEngine

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

68user

2022/05/11 06:45

CSV化して bq load コマンドで BigQuery に流し込むのがよいと思いますが、可視化するという観点だけであれば CSV → gsutil コマンドで GCS にコピー → DataPortal と同じと言えば同じです。 > Octoparseにて出力したデータを一度ローカルのDBに出力し、そこから逐次CSV形式でダウンロードしてGoogleCloudStorageに出力しています Octoparse がよくわかりませんが、下記のように自動化できないものでしょうか? https://www.octoparse.jp/tutorial/cloud-extraction/

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

BI

BI(ビジネスインテリジェンス)とは、これまでの業務で蓄積された膨大なデータを、分析・加工して企業の意思決定に活用する手法のこと。誰でも手軽に情報を閲覧できることが特徴です。

BigQuery

BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Cloud Storage

Google Cloud Storageは、グーグル社が提供しているクラウドベースのデベロッパー・企業向けストレージサービス。可用性に優れ、APIで操作可能なため、データのアーカイブ保存やアプリケーションのコンテンツ提供など様々な用途に活用できます。