BeatifulSoup4で同じタグ名、クラス名に同じ文字列の中から特定の値だけ取得したい

前提・実現したいこと

python3にてBeautifulSoupを使用してのスクレイピングをしているのですが
取得したいテキストのクラスが他のテキストのクラスと被る文字列があるものがありうまく取得できません
例えば、以下のような複数個所で「同じタグ名、class内文字列が被る」状況から三島由紀夫、太宰治のみを取得したい場合です

html
1<td class="bookData">
2    <span class="name1">タイトル</span>
3    <span class="name2">作者</span>
4    <span class="name3">出版社</span>
5</td>
6<td class="book">
7    <span class="bookname">潮騒</span>
8    <span class="name">三島由紀夫</span>
9    <span class="publisher name">新潮社</span>
10    <br>
11    <span class="bookname">走れメロス</span>
12    <span class="name">太宰治</span>
13    <span class="publisher name">筑摩書房</span>
14</td>
15<td class="bookother"
16    <span class="namerou">なめろう</span>
17    <span class="ka name">要潤</span>>
18</td>

試したこと

python
1from bs4 import BeautifulSoup
2
3soup = BeautifulSoup(html, 'lxml')
4tag = soup.find_all('span', class_='name')
5

親要素から子要素の取得方法もうまくいきません
ご教授宜しくお願いいたします

行動規範の内容に同意します

回答1件

ベストアンサー

基本的には CSS セレクタ使ったほうが要素の選択は楽ですね。

class="book" 属性を持つ td 要素の子の class="name" 属性を持つ span 要素を選択する CSS セレクタは td.book > span[class="name"] です。

python
1from bs4 import BeautifulSoup
2
3html = '''
4<td class="bookData">
5    <span class="name1">タイトル</span>
6    <span class="name2">作者</span>
7    <span class="name3">出版社</span>
8</td>
9<td class="book">
10    <span class="bookname">潮騒</span>
11    <span class="name">三島由紀夫</span>
12    <span class="publisher name">新潮社</span>
13    <br>
14    <span class="bookname">走れメロス</span>
15    <span class="name">太宰治</span>
16    <span class="publisher name">筑摩書房</span>
17</td>
18<td class="bookother"
19    <span class="namerou">なめろう</span>
20    <span class="ka name">要潤</span>>
21</td>'''
22
23
24soup = BeautifulSoup(html, 'lxml')
25names = [t.string for t in soup.select('td.book > span[class="name"]')]
26print(names)  # ['三島由紀夫', '太宰治']