以下のページのスクレイピングを試みています。ISBN-10の値を取得しようとしているのですが、うまくいきません。
scrapy shell https://www.amazon.co.jp/%E3%83%A2%E3%83%B3%E3%83%86%E3%83%BB%E3%82%AF%E3%83%AA%E3%82%B9%E3%83%88%E4%BC%AF%E3%80%887%E3%80%89-%E5%B2%A9%E6%B3%A2%E6%96%87%E5%BA%AB-%E3%82%A2%E3%83%AC%E3%82%AF%E3%82%B5%E3%83%B3%E3%83%89%E3%83%AB-%E3%83%87%E3%83%A5%E3%83%9E/dp/400325337X
以下のコードを実行すると、結果にISBN-10が含まれているのが確認できます。
response.xpath('//ul/li/span/').getall()
['<span class="a-list-item">\n <a class="a-link-normal a-color-tertiary" href="/%E6%9C%AC-%E9%80%9A%E8%B2%A9/b?ie=UTF8&node=465392">\n 本\n </a>\n </span>', '<span class="a-list-item a-color-tertiary">\n ›\n </span>', '<span class="a-list-item">\n <a class="a-link-normal a-color-tertiary" href="/%E6%96%87%E8%8A%B8-%E5%B0%8F%E8%AA%AC-%E6%9C%AC/b?ie=UTF8&node=466284">\n 文学・評論\n </a>\n </span>', '<span class="a-list-item a-color-tertiary">\n ›\n </span>', '<span class="a-list-item">\n <a class="a-link-normal a-color-tertiary" href="/%E8%A9%95%E8%AB%96%E3%83%BB%E6%96%87%E5%AD%A6%E7%A0%94%E7%A9%B6-%E6%96%87%E5%AD%A6%E3%83%BB%E8%A9%95%E8%AB%96-%E5%92%8C%E6%9B%B8/b?ie=UTF8&node=467262">\n 評論・文学研究\n </a>\n </span>', '<span class="a-list-item">\n\n\n\n\n\n\n\n<span class="a-button a-spacing-mini a-button-toggle format"><span class="a-button-inner"><a href="/%E3%83%A2%E3%83%B3%E3%83%86%E3%83%BB%E3%82%AF%E3%83%AA%E3%82%B9%E3%83%88%E4%BC%AF-7-%E5%B2%A9%E6
(略)
ただし、テキスト部分だけ取得しようと以下のコードを実行すると、結果がかなり削られてしまいます。なぜでしょうか。
>>> response.xpath('//ul/li/span/text()').getall()
['\n ', '\n ', '\n ›\n ', '\n ', '\n ', '\n ›\n ', '\n ', '\n ', '\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n', '\n\n\n\n\n', '\n\n\n\n\n\n\n\n\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\n\n\n\n', '\n - 285,276位本 (', ')\n', ' - 668位', ' - 698位', ' - 2,025位', '\n\n\n\n', '\n', '\n\n', '\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n', '\n\n\n\n', '›', '›']
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。