質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

2回答

826閲覧

[Python]クローラの作成で困っています

kurosuke___

総合スコア217

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/07/30 10:09

とあるサイトで、サイト内検索をすると10個のリンクが出てきて、そのリンクをクリックすると、そのリンクのアンカーテキストでサイト内検索した結果が表示されます。
そのアンカーテキスト、URL、子要素のように保存して、その子要素もまた同じような構造で保存して・・・と以下のようなクラスの階層構造で表現して保存したいです。
それらは毎回10個のリンク全てで行い・・・とやっていくと膨大なデータになると思います。
また階層の深さを任意で指定もしたいので、そこもまた難しいのです。
再帰的な処理をすればよいのでしょうが、どうにも難しいです。

Javascriptでレンダリングされているページなので、SeleniumでHeadless Chromeを動かしてスクレイピングしています。

Python

1class Element: 2 title = None 3 url = None 4 child = [] #ここにElementのインスタンスのリストが入る 5 6 def __init__(self, title, url, child=None): 7 self.title = title 8 self.url = url 9 self.child = child

順番が保たれさえすれば上記のようなクラスでなくてもOrderedDictなどでもいい気はします。

なかなか難しくてコーディングも設計も進まないので、考え方やテクニックなどでもいいので知恵をお貸しいただけないでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

問題として、深さ優先探索、幅優先探索と同じなので、それを参考にするといいと思います。

キューを使って、うまいことやる。

投稿2018/07/30 10:24

kiichi54321

総合スコア1984

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kurosuke___

2018/08/04 13:30

幅優先探索である程度出来ました!ありがとうございます!
guest

0

networkxを使ってグラフ構造(ツリー構造)でデータを管理すると良いと思いますよ。

投稿2018/07/30 10:18

YouheiSakurai

総合スコア6142

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kurosuke___

2018/08/04 13:30

回答有り難うございます、無向グラフ作りたかったので助かります。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問