Python, Scrapyでtd内の複数要素を抽出したい

###■経緯
とあるtableから、3列目のimg数が不規則なtdからsrc属性の値を抽出して、そのテーブル構造（行,列）を保ちながらcsvファイルとして出力を試みています。

その際、複数のimgがtd内にある場合、下のScrapyコードでは、HTML上「◯」のimg srcは抽出できるのですが、「★」の値が抽出できません。

###■質問
HTML上の「◯」「★」両方の値を、テーブル構造（行,列）を保ちながらcsvとして出力できるScrapyコード（XPathの指定方法）を教えていただけますでしょうか。

なんとなくですが、extract_first()の部分をうまく修正すれば2つ目のimg srcの値「★」も抽出できるのではないかと想像しています。

HTML
1<table>
2    <tbody>
3        <tr>
4            <td>A3</td>
5            <td>B3</td>
6            <td>
7                <img src="../../media/test1.gif">　<!-- ◯ -->
8                <img src="../../media/test2.gif">　<!-- ★ -->
9            </td>
10        </tr>
11        <tr>
12            <td>A2</td>
13            <td>B2</td>
14            <td>
15                <img src="../../media/test3.gif">
16            </td>
17        </tr>        
18    </tbody>
19</table>

PythonScrapy
1table_rows = response.xpath('//table/tbody/tr')
2
3for table_row in table_rows:
4        item = TutorialItem()
5        item['time'] = table_row.xpath('td[1]/text()').extract_first()
6        item['note'] = table_row.xpath('td[3]/img/@src').extract_first()
7        yield item

seastar3

2018/11/05 10:23

XMLの原理とプログラム上での操作の理解が必要な処理ですから、がタブとしては、XPathの前提であるXMLが入るでしょう。PythonでのXML操作入門のサイトをググってみましょう。

行動規範の内容に同意します

回答4件

ベストアンサー

scrapyを入れて試してみました
test1.gifとtest2.gifを取得できてますし、test3.gifは違うリストになっているはずですが

CSV出力結果をだしてもらえますか？

https://doc.scrapy.org/en/latest/topics/exporters.html#csvitemexporter
リストの場合カンマで結合されていると思うのですが違うのでしょうか？

sh
1scrapy shell ./test.html

for i in response.xpath('//table/tbody/tr'):
    print(i.xpath('td[1]/text()').extract_first())
    print(i.xpath('td[3]/img/@src').extract())
    print('-' * 20)

A3
['../../media/test1.gif', '../../media/test2.gif']
--------------------
A2
['../../media/test3.gif']
--------------------

投稿2018/11/15 13:24

barobaro

総合スコア1286

fukazume

2018/11/16 01:40

おっしゃる通り、extract()に変更することで期待した通りのリストに格納できていました！shellで試しているうちに見誤ったのかもしれません。お騒がせいたしましたが、得るものもありました。精巧なご指摘ありがとうございました！

行動規範の内容に同意します

scrapyはあまり試したことないのでわかりませんが

サンプルで取得できているのでしたら.extract_first()を.extract()に変更するだけでいいのでは？

.extract_first()は一番最初のデータしか取得できませんので複数取得する場合は.extract()になります。

python
1table_rows = response.xpath('//table/tbody/tr')
2
3for table_row in table_rows:
4    item = TutorialItem()
5    item['time'] = table_row.xpath('td[1]/text()').extract_first()
6    item['note'] = table_row.xpath('td[3]/img/@src').extract()
7    yield item

BeautifulSoupでしたら

python
1from bs4 import BeautifulSoup
2
3html = """
4<table>
5    <tbody>
6        <tr>
7            <td>A3</td>
8            <td>B3</td>
9            <td>
10                <img src="../../media/test1.gif">　<!-- ◯ -->
11                <img src="../../media/test2.gif">　<!-- ★ -->
12            </td>
13        </tr>
14        <tr>
15            <td>A2</td>
16            <td>B2</td>
17            <td>
18                <img src="../../media/test3.gif">
19            </td>
20        </tr>
21    </tbody>
22</table>
23"""
24
25soup = BeautifulSoup(html, 'html.parser')
26
27for trs in soup.select('tr'):
28
29    result = []
30
31    for tds in trs.select('td'):
32        if tds.img:
33            for i in tds.select('img'):
34                result.append(i.get('src'))
35        else:
36            result.append(tds.get_text(strip=True))
37
38    print(result)

結果
['A3', 'B3', '../../media/test1.gif', '../../media/test2.gif']
['A2', 'B2', '../../media/test3.gif']

投稿2018/11/15 08:53

編集2018/11/15 11:58

barobaro

総合スコア1286

fukazume

2018/11/15 09:46

ご回答ありがとうございます。extract()ですと、上記サンプルコードを例に取りますと、test1.gif, test2.gif, test3.gif の全てを抽出してしまうんです。。私は、test1.gifとtest2.gifのimg srcを取得して、対応するフィールド内に格納したい（＝テーブル構造（行,列）を保ちながらcsvファイルとして出力を試みている）のですが、難しいでしょうか？表題の通り、imgだけに留まらず、pなどtd内に複数要素を記述しているソースに対して、有効な回避策も思いつかず困っている状況です。

barobaro

2018/11/15 12:01

タグ内にimgが二つ以上ある場合はどのような結果にしたいのでしょうか BeautifulSoupでサンプルと出力結果を書きました。

fukazume

2018/11/16 01:42

こちらのアプローチも参考になりました。ありがとうございます！

行動規範の内容に同意します

pythonでXMLの操作として、次のコードは通りますか。試してみて下さい。

python
1items = response.xpath('//table/tbody/tr/td/img/@src")
2for item in items:
3	yield item

投稿2018/11/05 10:18

seastar3

総合スコア2287

fukazume

2018/11/05 10:33 編集

引き続き、ありがとうございます！ @src") → @src') に編集して以下のエラーがズラッと返ってきます。何かヒントになりますでしょうか。 [scrapy.core.scraper] ERROR: Spider must return Request, BaseItem, dict or None, got 'Selector' in 〜

seastar3

2018/11/05 11:56

５行目のコード間違えて申し訳ありません。訂正します。

行動規範の内容に同意します

検証していないのですが、考え方はXMLのやり方でtrタグごとの集合を取り、このtrタグ内のtd/imgの集合を取り、そのsrc属性を配列itmesとして抜き出し、これもitemの要素に分けて戻します。xpathのレベルに対応したforの入れ子のコードになります。

python
1table_rows = response.xpath('//table/tbody/tr')
2
3for table_row in table_rows:
4		nodes = table_row.xpath('td/img')
5
6		for node in nodes:
7			items = node.xpath('@src')
8
9			for item in items:
10        			yield item

投稿2018/11/05 08:51

編集2018/11/05 11:57

seastar3

総合スコア2287

seastar3

2018/11/05 09:13

シンプルに"item = response.xpath('//table/tbody/tr/td/img/@src"でも、配列はとれますが、ご要望のrowごとの編集が入るでしょうから、２重のループにしてみたわけです。

fukazume

2018/11/05 09:49

ご回答ありがとうございます。やはり、・1つ目のimg src属性の値は、抽出できた・2つ目のimg src属性の値は、抽出できなかったという同じ結果でした。妥協案と言うか、以下のようにimg[2]とXPath指定してあげれば、2つ目のimg srcがある場合に抽出できるのですが。 item['note'] = table_row.xpath('td[3]/img[2]/@src').extract_first()

seastar3

2018/11/05 10:11

src要素もリストですね。もう一度しらみつぶしループにかけてみましょう。

fukazume

2018/11/05 10:45

お付き合いいただきありがとうございます。以下のように頂いたソースをインデントエラーが出るため編集し実行しましたが、やはり以下のエラーが発生しますね。難しいです(^_^;) [scrapy.core.scraper] ERROR: Spider must return Request, BaseItem, dict or None, got 'Selector' in 〜 ---------------------------- table_rows = response.xpath('//table/tbody/tr') for table_row in table_rows: nodes = table_row.xpath('td/img') for node in nodes: items = node.xpath('@src') ＜エラーが出るのでインデントしました＞ for item in items: yield item

seastar3

2018/11/05 11:58

５行目のコード間違えて申し訳ありません。訂正します。

行動規範の内容に同意します

あなたの回答