質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

3回答

2888閲覧

WEBスクレイピングの高速化

mmmmmuse

総合スコア4

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

2クリップ

投稿2020/09/18 19:38

編集2020/09/19 06:42

質問!

WEBスクレイピング自体の高速化を図る場合、なんの言語がおすすめですか?
JAVAのjsoupでは時間がかかってしまって実用化が難しいので開発し直す必要がありまして、
みなさんの経験から、意見いただけると嬉しいです!!!
お願いします!!

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

javahack

2020/09/18 23:51

APIが用意されているサイトの場合、スクレイピング等のAPI以外の方法で情報を得ようとする行為は規約違反となっていることが多いですが、その点は大丈夫でしょうか?
mmmmmuse

2020/09/19 06:36

>javahackさん 指摘いただいた問題は、大丈夫です。
m.ts10806

2020/09/19 06:54

「大丈夫」とだけで本当に大丈夫か確かめようがないので何かしらきちんと情報だされたほうが良いかと思います。
guest

回答3

0

自己解決

複数の言語・ライブラリで試したところ速度改善し解決しました

経験則からスクレイピングが早い言語やライブラリってわかるのかな?と思っての質問でしたがここまで低評価つくとは笑

投稿2020/09/21 08:09

mmmmmuse

総合スコア4

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

AkitoshiManabe

2020/09/22 03:52

> ここまで低評価つくとは 一言で「時代」だと思います。 ナローバンド時代のBlogにRSSが考案された頃は、効率的に情報共有するためにスクレイピングは歓迎される技術でした。現在のブロードバンド時代には逆に嫌悪される技術になっています。 恐らくですが、リスエスト数などを金額算出の単位にした従量課金サービスの登場で、機械的なアクセスを不本意なランニングコストと捉える例もあるからでしょう。 スクレイピングを題材にすると、ネガティブな評価がつきやすい(そんなものだ)と思ったほうがいいかもしれません。
guest

0

回答になっておらず、申し訳ありません。
今がどのぐらいの速度で、どのぐらいの速度が目標なのかが分からないので、
なんとも言えないのですが、言語やフレームワークを変えても、劇的に速度は上がらないと思います。

そもそも、スクレイピングは外部サイトに接続する関係上、速度の担保が難しいです。
まずは、速度が遅延している原因、主に以下があげられるものどれかを絞ってみてはいかがでしょうか。
おそらく、一番時間がかかっているのはHTML取得です。
そのうえで、改善できるところは改善し、難しいものは難しいと説明するのも一つの方法だと思います。

 ・スクレイピング先サイトからのHTML取得
・HTML解析
・上記以外の処理

投稿2020/09/19 13:13

Kaiser

総合スコア295

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

スクレイピングが異様に遅い場合には、対象サイトのWAFがわざとレスポンスを遅らせている可能性があります。

投稿2020/09/19 07:07

YouheiSakurai

総合スコア6142

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mmmmmuse

2020/09/19 07:11

そんなことあるんですね! では他のサイトも同じソースでスクレイピングをしてみて、まずは異様な遅さなのかを確認してみようと思います!ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問