質問編集履歴 - Python, Scrapyでtd内の複数要素を抽出したい

サンプルコードの改善

2018/11/15 09:37

投稿

fukazume

スコア78

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -24,7 +24,7 @@
             <td>A2</td>
             <td>B2</td>
             <td>
-                <img src="../../media/test1.gif">
+                <img src="../../media/test3.gif">
             </td>
         </tr>
     </tbody>

7 8 397 728 317

タグ追加

2018/11/15 09:36

投稿

fukazume

スコア78

title CHANGED Viewed

File without changes

body CHANGED Viewed

File without changes

7 8 397 728 317

誤字訂正

2018/11/06 03:46

投稿

fukazume

スコア78

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~1Python~~, Scrapyでtd内の複数要素を抽出したい
1	+ Python, Scrapyでtd内の複数要素を抽出したい

body CHANGED Viewed

File without changes

7 8 397 728 317

コード修正

2018/11/05 03:16

投稿

fukazume

スコア78

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~Python~~, Scrapyでtd内の複数要素を抽出したい
1	+ 1Python, Scrapyでtd内の複数要素を抽出したい

body CHANGED Viewed

@@ -36,7 +36,7 @@
 for table_row in table_rows:
         item = TutorialItem()
-        item['time'] = table_row.xpath('td[0]/text()').extract_first()
+        item['time'] = table_row.xpath('td[1]/text()').extract_first()
-        item['note'] = table_row.xpath('td[2]/img/@src').extract_first()
+        item['note'] = table_row.xpath('td[3]/img/@src').extract_first()
         yield item
 ```

7 8 397 728 317

追記

2018/11/05 03:13

投稿

fukazume

スコア78

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,12 +1,14 @@
 ###■経緯
 とあるtableから、3列目のimg数が不規則なtdからsrc属性の値を抽出して、そのテーブル構造（行,列）を保ちながらcsvファイルとして出力を試みています。
-その際、複数のimgがtd内にある場合、下のScrapyコードでは、HTML上「◯」のimg srcは抽出できるのですが、「★」の値が抽出できません。
+その際、複数のimgがtd内にある場合、下のScrapyコードでは、**HTML上「◯」のimg srcは抽出できるのですが、「★」の値が抽出できません。**
 ###■質問
 HTML上の「◯」「★」両方の値を、テーブル構造（行,列）を保ちながらcsvとして出力できるScrapyコード（XPathの指定方法）を教えていただけますでしょうか。
+なんとなくですが、extract_first()の部分をうまく修正すれば2つ目のimg srcの値「★」も抽出できるのではないかと想像しています。
 ```HTML
 <table>
     <tbody>

7 8 397 728 317

コード修正

2018/11/05 02:49

投稿

fukazume

スコア78

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -35,6 +35,6 @@
 for table_row in table_rows:
         item = TutorialItem()
         item['time'] = table_row.xpath('td[0]/text()').extract_first()
-        item['note'] = table_row.xpath('td[1]/img/@src').extract_first()
+        item['note'] = table_row.xpath('td[2]/img/@src').extract_first()
         yield item
 ```

7 8 397 728 317

コードを簡略化

2018/11/05 02:35

投稿

fukazume

スコア78

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -11,9 +11,12 @@
 <table>
     <tbody>
         <tr>
-            <td>A1</td>
+            <td>A3</td>
-            <td>B1</td>
+            <td>B3</td>
+            <td>
+                <img src="../../media/test1.gif">　<!-- ◯ -->
+                <img src="../../media/test2.gif">　<!-- ★ -->
-            <td></td>
+            </td>
         </tr>
         <tr>
             <td>A2</td>
@@ -21,15 +24,7 @@
             <td>
                 <img src="../../media/test1.gif">
             </td>
-        <tr>
-            <td>A3</td>
-            <td>B3</td>
-            <td>
-                <img src="../../media/test1.gif">　<!-- ◯ -->
-                <img src="../../media/test2.gif">　<!-- ★ -->
-            </td>
-        </tr>
+        </tr>
-        </tr>
     </tbody>
 </table>
 ```

7 8 397 728 317