質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
アーキテクチャ

アーキテクチャとは、情報システム(ハードウェア、OS、アプリケーション、ネットワーク等)の設計方法、設計思想、設計思想に基づいて構築されたシステム構造をアーキテクチャと呼びます

サーバ

サーバは、 クライアントサーバモデルにおいてクライアントからの要求に対し 何らかのサービスを提供するプログラムを指す言葉です。 また、サーバーソフトウェアを稼動させているコンピュータ機器そのもののことも、 サーバーと呼ぶ場合もあります。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

Q&A

解決済

2回答

1845閲覧

クローリングサービスに適したアーキについて

yuki777

総合スコア13

アーキテクチャ

アーキテクチャとは、情報システム(ハードウェア、OS、アプリケーション、ネットワーク等)の設計方法、設計思想、設計思想に基づいて構築されたシステム構造をアーキテクチャと呼びます

サーバ

サーバは、 クライアントサーバモデルにおいてクライアントからの要求に対し 何らかのサービスを提供するプログラムを指す言葉です。 また、サーバーソフトウェアを稼動させているコンピュータ機器そのもののことも、 サーバーと呼ぶ場合もあります。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

0グッド

2クリップ

投稿2017/06/19 07:57

自社でとあるサイトをクローリングしてメルアドを取得する仕組みを作ろうとしています。
そこで、10拠点ぐらいから計30000リスト/日を抽出するくらいのパフォーマンスが出る機能を作りたいのですが、アーキ構成をどうするべきか悩んでいます。
webアプリにしてアマゾンAWSで拡張生高く運用していくか?
herokuやsqale、レンタルサーバー等、
低コストで実現するために、どういうアーキ構成でいくべきでしょうか?

ご指導いただけると幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

10拠点から30000リスト程度なら普通のPCでも十分ではないでしょうか。
対象となる拠点のページ数にもよりますが、技術的には並列にすれば行けると思います。
1.クローリング&保存
2.保存データからメアド抜き出し&リスト化

テキストを取ってきて抜き出して保存するだけなので、単なるバッチでもいけるのではないでしょうか。

クロールする際は、対象サイトを管轄する国や州などの法規制、利用規約等にご注意ください。
クロールして逮捕された事例もあります。

投稿2017/06/19 08:14

moonphase

総合スコア6621

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yuki777

2017/06/19 08:41

お返事ありがとうございます。 言葉足らずで申し訳ございません。 「10拠点から」というのは、弊社で抽出する部隊が10拠点あるという意味になります。 つまり一拠点あたり3000件/日ほどのリストを確保したく存じます。
guest

0

Ruby

1# encoding: utf-8 2 3require 'open-uri' 4require 'certified' 5require 'nokogiri' 6 7count = 0 8 999_999.times do |i| 10 begin 11 url = "https://teratail.com/questions/#{format('%05d', i)}" 12 doc = Nokogiri::HTML(open(url)) 13 puts doc.xpath('/html[1]/head[1]/title').text 14 count += 1 15 rescue OpenURI::HTTPError 16 puts "This page not found >> #{url}" 17 end 18 19 break if count == 3000 20 21 sleep(4) 22end

私は何も分からない完全な素人です。
上のプログラムはteratailから質問のタイトルを
とってきて表示させるプログラムです。

1回とってくるのに10秒かかるとして
問題が発生しなければ
6 * 60 * 8 = 2,880個のタイトルを
1日にとって来ることができます。

対象のサイトによると思いますが
場合によってはmoonphase様が
おっしゃっているように普通のPCでも
大丈夫かもしれません。

投稿2017/06/19 10:10

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問