[python3]webスクレイピングで特定の文字列をURLから検索

お世話になります。

pythonでwebスクレイピングをしたいのですが、以下の条件が必要となっています。

任意のURL（Aとする）と、特定の文字列（Bとする）を指定して実行
Aを起点としてURLを辿り、Bの文字列が出現されるURLまで最も短時間に検索
検索結果のURL経路を出力する

BeautifulSoupを使用しているのですが、リンク先を再帰的に辿りながら、
効率的に検索していく方法がうまく見つけられず困っております。

アドバイス頂けましたら幸いです。
宜しくお願い致します。

KojiDoi

2018/03/21 13:59

どうしてもpythonでないといけないのでしょうか。こういう処理だとwgetとgrepを使うのがはるかに簡単確実（二行で実現可能）に思えます。

kachan777

2018/03/22 02:46

たしかに、pythonにこだわる必要もないかもしれません。wgetでも検討してみたいとおもいます。

行動規範の内容に同意します

回答1件

ベストアンサー

Webページをリンクをたどりながら検索する場合、深さ優先探索してしまうと終わりが見えないので、幅優先探索を方針とすると思います。再帰呼び出しでも書けますがFIFO(first in first out:所謂キュー)を使うと単純なループでも書けます。標準モジュールにqueueがあるのでそれを使ってもよいですが、listでもまぁ書けそうです。

大雑把な構造はこんな雰囲気でどうでしょう。（動かしてないのでおかしな点があったらご容赦）

Python
1visited = set()
2q = [ ['最初のurl'] ]
3
4while len(q) > 0:
5    url_path = q.pop(0)
6    url = url_path[-1]
7    html = urlのコンテントをgetする
8    if htmlに目的の文字列が含まれている:
9        print(url_path)
10        break
11    urls = htmlの中に含まれる外部リンク(url)のリスト
12    for url in urls:
13        if url not in visited:
14            # 未検索のurlをキューへ追加
15            visited.add(url)
16            q.append(url_path + [url])