質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
BI

BI(ビジネスインテリジェンス)とは、これまでの業務で蓄積された膨大なデータを、分析・加工して企業の意思決定に活用する手法のこと。誰でも手軽に情報を閲覧できることが特徴です。

BigQuery

BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Cloud Storage

Google Cloud Storageは、グーグル社が提供しているクラウドベースのデベロッパー・企業向けストレージサービス。可用性に優れ、APIで操作可能なため、データのアーカイブ保存やアプリケーションのコンテンツ提供など様々な用途に活用できます。

Q&A

1回答

840閲覧

Octoparse→GoogleDrive→BigQueryBIengine→Googledataportalに表示する流れを作りたい

K_MM

総合スコア6

BI

BI(ビジネスインテリジェンス)とは、これまでの業務で蓄積された膨大なデータを、分析・加工して企業の意思決定に活用する手法のこと。誰でも手軽に情報を閲覧できることが特徴です。

BigQuery

BigQueryは、Google Cloud Platformが提供しているビッグデータ解析サービス。数TB(テラバイト)またはPB(ペタバイト)の膨大なデータに対し、SQL風のクエリを実行し、高速で集計・分析を行うサービスです。

Google Cloud Platform

Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Google Cloud Storage

Google Cloud Storageは、グーグル社が提供しているクラウドベースのデベロッパー・企業向けストレージサービス。可用性に優れ、APIで操作可能なため、データのアーカイブ保存やアプリケーションのコンテンツ提供など様々な用途に活用できます。

0グッド

1クリップ

投稿2022/04/29 09:19

1. 【必須】やりたい・やりたかったこと

  • スクレイピングツールOctoparseにて定期実行したデータをクラウドに上げたい(API利用?)
  • BigQueryBIEngineを介して高速化した状態でGoogleDataPortalに表示したい
  • その他GCP上のどのようなサービスを利用すれば最も低コストで実現できるかを知りたい

今回は技術的詳細に関する質問というよりは、上記のような、定期実行したスクレイピングのデータをいかに自動的にGoogledataportalに表示する流れを安価に実現する際の一般的な流れを知りたい、というのが趣旨となります

2. 【必須】起きている問題やエラーメッセージ

特定のファッションECサイト上にある注文実績データを定期実行・自動収集する流れをノーコードのスクレイピングツールを利用して作成しました。
その後そのデータを統計的な観点から分析したいと思い、dataportalで視覚化しました。
データの規模としてはテキストのみのデータで600万件ほど、毎日2万件前後新たにデータが追加されていきます。
古いものから削除していきたいと思っております。

現在は、Octoparseにて出力したデータを一度ローカルのDBに出力し、そこから逐次CSV形式でダウンロードしてGoogleCloudStorageに出力しています
Googledataportalにて、データソースにBIengineで高速化したcloudstargeを指定することで表示しています。

3. 【必須】ご自身で試されたこと

当初は、ローカルにサーバを立てて固定IPを割り振り、スクレイピングツール→自宅サーバのMySQLDB→DataPortalに表示
で処理していました。しかし画像の通りフィルタを多く使用しており、それを操作するたびにかなりの時間を要するようになったためBIengineによる高速化を試みました。
ただその後スクレイピングツールから自動でCloudにデータを上げるすべがわからず、結局Cloudstrageに手動でCSVをあげるところまででギブアップしてしまいました。

一応外注しようと専門的知識を持った数人にお話を聞いたのですが、はっきりとせず。。
一般的にはGoogleDriveにAPI連携して直接データをCSVで上げていくやり方が一般的?というようなお話も聞きました。

実際はツールが利用できれば良いのですが、流石に右も左もわからなすぎて1から学ぶしか無いのかと思っております。
どうぞよろしくお願いいたします。

4. 関連するソースコードやスクリーンショット

イメージ説明
イメージ説明

5. 関連するURL ※GithubのリポジトリリンクやサーバーのURLなど

【料金  |  BI Engine  |  Google Cloud】
https://cloud.google.com/bi-engine/pricing?hl=ja
【BigQuery: クラウド データ ウェアハウス  |  Google Cloud】
https://cloud.google.com/bigquery?hl=ja
【Cloud Storage  |  Google Cloud】
https://cloud.google.com/storage?hl=ja
【Cloud SQL for PostgreSQL、Cloud SQL for MySQL、Cloud SQL for SQL Server  |  Cloud SQL: リレーショナル データベース サービス  |  Google Cloud】
https://cloud.google.com/sql?hl=ja

6. 使用言語・ライブラリのバージョン

MySQL
GoogleCloudStorage
GoogleDataPortal
BigQuery
BIEngine

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

68user

2022/05/11 06:45

CSV化して bq load コマンドで BigQuery に流し込むのがよいと思いますが、可視化するという観点だけであれば CSV → gsutil コマンドで GCS にコピー → DataPortal と同じと言えば同じです。 > Octoparseにて出力したデータを一度ローカルのDBに出力し、そこから逐次CSV形式でダウンロードしてGoogleCloudStorageに出力しています Octoparse がよくわかりませんが、下記のように自動化できないものでしょうか? https://www.octoparse.jp/tutorial/cloud-extraction/
guest

回答1

0

Webスクレイピングツールなら、ScrapeStormも使いやすいですよ。

投稿2022/06/23 11:33

ScrapeStorm.jp

総合スコア99

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問