下記のようなリスト型のデータ内のurlを取得したいと考えています。

<ul class="link_list">        
<li><a href="/fuat/201911111111/1">
            <h1>あいうえお</h1>
            <p class="com"><i class="fa fa-comment"></i>404</p>
            <time><i class="fa fa-clock-o"></i>11/13 19:14</time>        </a></li>        
<li><a href="/fuat/2019112121212222/1">
            <h1>かきくけこ</h1>
            <p class="com"><i class="fa fa-comment"></i>403</p>
            <time><i class="fa fa-clock-o"></i>11/13 19:13</time>        </a></li>

〜同様にlistデータが8個存在〜

</ul>

urls = []
for i in driver.find_elements_by_class_name('link_list'):
 urls.append(i.find_element_by_tag_name('a').get_attribute('href'))
len(urls)
34 # 余計なurlも含まれているので、listに含まれる10個に限定して取得したい


# 'fuat'がurl内に必ず含まれているので、これをキーワードに取得を試みる
urls = driver.find_elements_by_partial_link_text('fuat')
len(urls)
0 # 取得できていない。。。。。

driver.find_elements_by_partial_link_text('fuat')で、情報取得できないのは何故でしょうか？
とても稚拙な質問かとは存じますが、ご教示いただけましたら幸甚です。
何卒よろしくお願い申し上げます。

行動規範の内容に同意します

回答1件

ベストアンサー

partial_link_textは

html
1<a href="ここは持ってこれない">ここは持ってこれる</a>

という仕様です。

python
1urls = [a_tag.get_attribute('href') for a_tag in driver.find_elements_by_tag_name('a') if 'fuat' in a_tag.get_attribute('href')]

でどうでしょうか。

コメントを受けて追記

それではそのlink_listの配下にあるaタグであることを明示してあげるとよいです。

python
1urls = []
2for a_tag in driver.find_elements_by_class_name('link_list')[0].find_elements_by_tag_name('a'):
3    urls.append(a_tag.get_attirbute('href'))
4print(urls)

先にあげた内包表記はSeleniumではなくpythonのテクニックです。
私は好んで使っていますが、むやみやたら長くなると
可読性が落ちるので、使いどころは考えながらになります。
例えば以下2つはどちらも[0, 2, 4, 8]と出力されます。

python
1numbers = []
2for i in range(5):
3    if i != 3:
4        numbers.append(i*2)
5print(numbers)

python
1numbers = [i*2 for i in range(5) if i != 3]
2print(numbers)

投稿2019/11/13 11:27

編集2019/11/14 05:25

shirai

総合スコア1290

john_doe_

2019/11/13 11:42

ご丁寧にご教示いただきましてありがとうございます。こんなやり方があるのですね。。。。。 a_tag.get_attribute('href') for、以降は理解が追いつきません。。。。ただ、取得数が多いので、'fuat'をキーワードにすることが間違っているようです。 len(urls) 246

shirai

2019/11/13 12:24

ではclass属性がlink_listの要素は何個ありますか？

john_doe_

2019/11/13 12:31

検索してみると、link_listのclassは34個ありました。リスト内のデータ数は10個で、一番最初のデータのxpathが、 //*[@id="main"]/section[3]/ul/li[1]/a' でしたので下記を強引な処理を試みましたが、ダメでした。。。。 for i in range(1,11): driver.find_element_by_xpath('//*[@id="main"]/section[3]/ul/li[{}]/a').format(i).click() driver.back() InvalidSelectorException: Message: invalid selector: Unable to locate an element with the xpath expression //*[@id="main"]/section[3]/ul/li[{}]/a because of the following error: SyntaxError: Failed to execute 'evaluate' on 'Document': The string '//*[@id="main"]/section[3]/ul/li[{}]/a' is not a valid XPath expression. (Session info: chrome=78.0.3904.97)

shirai

2019/11/13 12:57

では、対象の要素はその34このうち何個めですか？また、そのDOMは頻繁に変わることなどがあり、何個目か変わることはありますか？

john_doe_

2019/11/13 19:53

下記のコードを実行してurlを確認してみました。 for i in driver.find_elements_by_class_name('link_list'): print(i.find_element_by_tag_name('a').get_attribute('href')) 必要なurlは1番目のみでした。要素の指定が誤っているようです。。。

shirai

2019/11/14 02:03

1つ目のlink_listの配下にある10個のurlが欲しいということですか？

john_doe_

2019/11/14 03:21 編集

受け答えが悪くて申し訳ありません。下記のリストの0から9番目が目的のurlであることを確認しました。 driver.find_element_by_xpath('//*[@id="main"]/section[3]/ul/li[0]/a') format()関数で処理しようとしたのですが、上手くいきませんでした。。。。

shirai

2019/11/14 03:58

むやみにxpathを使うよりできる限り後から見て分かりやすいコードを書いた方がいいです。もう一度質問しますが、34個あるlink_listのうち、あなたが欲しがっている10個のurlが配下に収まっているlink_listは何番目のlink_listですか？ 1以上34以下の数字で教えてください。

john_doe_

2019/11/14 04:58

理解不足でご迷惑お掛けいたしております。再度確認しましたところ、1 of 34なので、1番目かとは存じます。

john_doe_

2019/11/14 05:46

たびたび丁寧にご教示いただきまして誠にありがとうございます。 hrefの取得でエラーが発生しました。 AttributeError: 'WebElement' object has no attribute 'get_attirbute' elem = driver.find_element_by_class_name('link_list')[0] elem.find_element_by_tag_name('a').get_attribute('href') TypeError: 'WebElement' object is not subscriptable 下記で調べてみたところ、欲しいリスト内容の近しい要素が格納されていることは確認できました。 elems = driver.find_elements_by_class_name('link_list')[0].find_elements_by_tag_name('a') elems[0].text

john_doe_

2019/11/14 06:17

下記で必要なurl情報を取得できたことを確認できました。たびたびご親切にご教示いただきまして誠にありがとうございました。 elems = driver.find_elements_by_class_name('link_list')[0].find_elements_by_tag_name('a') for elem in elems: print(elem.get_attribute('href'))

shirai

2019/11/14 07:04

すみませんattributeのスペルがミスってたみたいですね。

john_doe_

2019/11/14 07:20

自分も気づきませんでした。。。。無事に解決できましたので、大変助かりました。

行動規範の内容に同意します