Xpathで相対リンクを見つけたい

前提・実現したいこと

webサイトのスクレイピングを行っていて、ページ内を自動で移動することを行っています。
具体的には

//a[contains(@href, '#サイトのURL')]
例　//a[contains(@href, 'https://www.yahoo.co.jp/')]

このような形で同じサイト内のリンクを収集してそこからランダムにアクセスするということをしています。

発生している問題・エラーメッセージ

問題としては、hrefが絶対パスのときしかこれはできなくて
（サイトのドメインがhrefに書いてある場合）
サイトによっては、

#example.comというサイトで目的のパスが
<a href="/jp/aaa/bbb/ccc/">

のように相対パス？で書かれていてリンクを探すことができません

どうすれば相対パスでもリンクを探すことができるのでしょうか？

ちなみにスクレイピングにはSeleniumとPython3.8を使用しいます。

これがコードです。
わかる方がいらっしゃれば教えて下さいお願いします。

Python
1def movepage(mainurl):
2    elements = browser.find_elements_by_xpath("//a[contains(@href, '{}')]".format(mainurl))
3    element = random.choice(elements)
4    print(element)
5    browser.execute_script("arguments[0].click();", element)
6    time.sleep(3)

行動規範の内容に同意します

回答1件

ベストアンサー

サイトによっては、<a href="/jp/aaa/bbb/ccc/"> のように相対パス？で書かれていてリンクを探すことができません

そのパスは/で始まっているので絶対パスです。
ただし、スキーム(http:やhttps:)で始まっていないので相対URLと言います。
スキームで始まるのが絶対URLです。

絶対URLは、そのページの絶対URLをurl_of_this_pageとすると、

Python
1import urllib
2～～～
3target_url = urllib.parse.urljoin(url_of_this_page, element.get_attribute("href"))

で、求まります。

Python
1urllib.parse.urljoin("https://www.example.com/foo/bar.html", "/a/b/c.html")
2#=> 'https://www.example.com/a/b/c.html'
3
4urllib.parse.urljoin("https://www.example.com/foo/bar.html", "./x.html")
5#=> 'https://www.example.com/foo/x.html'