特定のHTMLデータの取得方法

HTMLのテキストデータをBeautifulSoupを使用し、取得したいのですが、うまくいかず質問させて頂きました。

上記のHTMLなのですが、仮に、「dt」タグに、「業界」が存在する場合は、dd内のテキストを、「dt」にURLが存在する場合「dd」内のテキストを、といった形で「dt」タグ内に指定の文字列が存在する場合、次の行の「dd」内のテキストを取得するといった形を考えているのですが、何か良い方法はありませんでしょうか...?
どなたか、ご助言頂けましたら幸いです。

meg_

2020/02/22 07:40

条件分岐しない場合のコードは出来ていますか？

aae_11

2020/02/22 07:43 編集

dd内の文字列は、dtタグの文字列(業界など)によって、内容が変わって来る為、dd内の文字列の取得は条件分岐をすることを前提に考えております

meg_

2020/02/22 07:46

どこまでコードが出来ているかの確認の意で質問しました。現状の質問ですと丸投げの様に感じましたので。

aae_11

2020/02/22 07:58

なるほどです... 現状は条件分岐を前提に考えておりますので、現段階ではそこで詰まってしまっているといった状態ですね...

行動規範の内容に同意します

回答1件

もっと単純なコードでいけそうですが、以下のような感じでできます。

Python
1from bs4 import BeautifulSoup
2
3s = '<dl><dt>業界</dt><dd>説明１</dd><dd>説明２</dd><dt>URL</dt><dd><a href="https//www.example.com/">www.example.com</a></dd></dl>'
4soup = BeautifulSoup(s, 'lxml')
5
6def get_dd_text( elem, string):
7    ret = []
8    dt = soup.find('dt', string=string)
9    if dt:
10        for s in dt.find_next_siblings():
11            if s.name == 'dt':
12                break
13            ret.append(s.text)
14
15    return ret
16
17ret = get_dd_text( soup, '業界')
18print(ret) # ['説明１', '説明２']
19
20ret = get_dd_text( soup, 'URL')
21print(ret) # ['www.example.com']

投稿2020/02/22 08:01

8524ba23

総合スコア38341

aae_11

2020/02/22 08:55

ご回答ありがとうございます。すみません。自分の質問の仕方が悪く、一部分のみしか掲載しなかったのもあり、頂いたご回答をどのように、実装すれば良いかが分からない状態でございます... 業務で扱っているコードでもあり、全て掲載する訳には行かないのですが、リンク先とコードの一部を掲載いたします為、一度チェック頂くことお願いできませんでしょうか...?

8524ba23

2020/02/22 10:47

回答コードのどこが分からないのかを具体的に示していただければその点についてはアドバイスできるかもしれません。

aae_11

2020/02/22 11:11 編集

ありがとうございます。こちらなのですが、dd及びdtがある場所は、クラス「 jsDefinitionList 」な為、以下のように取得しました。「company_info = company_page.select_one('.jsDefinitionList')」しかし、「 s = company_info.find_next_siblings()」こちらのように記述しますと、dd,dtではなく、次のタグ部分「 [ <a class="jsShowCompanyInfoCorrectionForm" href="javascript:void(0);">企業情報を修正する</a> ] 」が取得されてしまっているといった状況になってしまっておりまして... こちらの部分につきましての対応方法がありましたら、教えて頂ければ幸いです...

8524ba23

2020/02/22 11:05

すみませんが、利用規約に反しているようなので対象リンクへのアドバイスはできません。

aae_11

2020/02/22 11:52

了解しました... では、頂きましたご回答内の内容から、ご質問したいのですが、「.find_next_siblings()」で取得したデータが dd,dtが存在する階層の親要素の次のタグを取得してしまう場合、代替する方法はありますでしょうか? 以下の例ですと、タグ部分を取得してしまうといった状態になってしまいます... <info><dt>業界</dt><dd>IT</dd></info>test

8524ba23

2020/02/22 13:05

提示HTMLを回答コードで動作させてみましたがタグ部分を取得してしまうという現象は再現しませんでした。なお、これ以上この質問への回答は控えさせていただきます。

行動規範の内容に同意します