質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

965閲覧

pythonで毎日URLが変更されるサイトをスクレイピングしたい

H.K2

総合スコア88

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2019/07/01 17:43

前提・実現したいこと

下記サイトのように、毎日URLが変化するサイトをスクレイピングしたいです。
http://www.morningstar.co.jp/market_spn/index.html

たとえば、上記URLに行っていただくと、マーケットー>総合に、各記事へのリンクがあり、「X日のPTS注目ポイント=(以下略)」のような見出しがあるのですが、
ジャンプすると、
https://www.morningstar.co.jp/market/2019/0701/stock_03601.html
のようなランダムな数値付きのURLになり、どうやって遷移すればよいのかわからない状況です。もしかしたら基本的なことなのかもしれませんが、ご教示いただければ幸甚に存じます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

Octoparseというスクレイピングツールをオススメ。
そのような機能があります。

投稿2019/07/05 07:27

Yuki-Sakuraba

総合スコア163

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

H.K2

2019/07/05 21:11

ありがとうございます。また使ってみます。 そのあとにパースしてDBに格納するまで一括でやりたいので、 機会があれば使ってみます。
Yuki-Sakuraba

2019/07/09 10:11

Octoparseで抽出したデータを自動DBに格納することもできますよ。
H.K2

2019/07/11 20:31

ありがとうございます。みてみます。 使い方はOctoparse公式を見てみればよいのでしょうか。 よいサイトがあればご教示いただければ。
guest

0

ベストアンサー

その初期のURLをスクレイピングし、該当のリンクを取得してそのURLをスクレイピングする、ということで。

投稿2019/07/01 22:52

y_waiwai

総合スコア87749

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

H.K2

2019/07/05 21:10

ありがとうございます。ちょっとやってみてるのですが、 requests.get(とりたいurl)で、初期URL開く →bs4.findとかfind_allつかって、特定のタグの要素とる →そのなかからre.searchとかで、条件に合うリンク取得 →取得したurlを、requests.get(取得したリンク) この流れの繰り返しでよかったでしょうか。
y_waiwai

2019/07/05 23:19

実際に動かしてみて所望の動作をすればそれでOKってことでいいんじゃないでしょうか
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問