回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップスクレイピングに関する質問

Q&A

解決済

1回答

2631閲覧

pythonのスクレイピングでリンク先をすべて取得したいが、コメント内のリンク先は除外したい。

総合スコア5

0グッド

0クリップ

投稿2020/06/19 09:21

編集2020/06/19 09:23

0

0

pythonでリンク(a href)を順次取得していきたいのですが、
コメント内部にあるリンクも取得してしまって困っています。

例えば以下のURLを取得してしまいます。
./lp/tomomura/index.html

html
1    <!-- <div>
2      <ul>
3        <li><a href="./lp/xxxx/index.html"><img src="./assets/images/top/banner-xxxx.png" alt=""></a></li>
4      </ul>
5    </div> -->

現状のコード（要点のみ抜粋）は以下の通りです。

python
1import requests
2import lxml.html
3from bs4 import BeautifulSoup
4
5url = 'https://xxxxxx'
6next_url = []
7
8res = requests.get(url)
9html = res.text
10soup = BeautifulSoup(html, 'html.parser')
11html = lxml.html.fromstring(html)
12html.make_links_absolute(url)
13
14anchors = html.xpath("//a")
15for anch in anchors:
16	try:
17		href = anch.attrib['href']
18	except:
19		href = ""
20	if href != "":
21		next_url.append(href)
22

よろしくお願い致します。

2020/06/19 09:28

再現しませんので、現象の確認できるデータとコードを示してください。

2020/06/19 09:43

コードは上記のものにurlをセットすれば動くはずです。 urlは都合上公開が難しい状況です。よろしくお願い致します。

2020/06/19 09:53

別に実物じゃなくて良いので、現象の再現できるデータ(HTMLのこと)を提示してください。プログラムは(冗長ですが)間違ってません。

2020/06/19 10:32

誠に申し訳ございません！勘違いをしておりました。コメントされているリンクですが、別の箇所でコメントしていない状態で記載されておりました。私のまったくの勘違いでした。コメントのみのリンクは、ライブラリの方で自動的に除外しているようでした。お手間をおかけしまして、申し訳ありません。

行動規範の内容に同意します

回答1件

0

自己解決

事象は私の勘違いでした。
申し訳ございません。

投稿2020/06/19 10:33

総合スコア5

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

pythonのスクレイピングでリンク先をすべて取得したいが、コメント内のリンク先は除外したい。

関連した質問

同じタグがついた質問を見る