scrapyを使用したスクレイピングのデータ整形

前提・実現したいこと

scrapyを利用して下記の階層構造のWebページをクローリング、スクレイピングしています。

hoge.com/results/2020-08-01
┣　/AAA.html
┣　/BBB.html

AAA,BBB..の各ページは成績表になっており、

タイトル(文字列)
実施日(文字列)
順位(リスト)
順位ごとの名前や年齢(リスト)

のように文字列とリストで取得をおこなっているため、CSVでは

Title|Date|Rank|Name
|:--|:--:|--:|
|AAA|2020-08-01|1,2,3,4|A,B,C,D
BBB|2020-08-01|1,2,3,4|A,B,C,D

上記のようにURLごとにレコードとして出力されます。

このテーブルを下記のように配列をカラムとして
列に並ぶように出力したいのですが対応方法がわからず、、
有識者の方にご助言を頂けますと幸いでございます。

|Title|Date|Rank|Name
|:--|:--:|--:|
|AAA|2020-08-01|1|A
|AAA|2020-08-01|2|B
|AAA|2020-08-01|3|C
|AAA|2020-08-01|4|D
|BBB|2020-08-01|1|A
|BBB|2020-08-01|2|B
|BBB|2020-08-01|3|C
|BBB|2020-08-01|4|D

該当のソースコード

class RankSpider(scrapy.Spider):
    name = 'rank'
    allowed_domains = ['hoge.com']
    start_urls = ['http://hoge.com/results/2020-08-01']

    def parse(self, response):
         for url in response.css('a[class="XXX"]::attr("href")').extract():
             yield scrapy.Request(response.urljoin(url), self.parse_item)

    def parse_item(self, response):
        item = RankingItem()
        item['Title'] = response.css('h1::text').get()
        item['Date'] = response.css('div.date::text').get()
        item['Rank'] = response.css('li h3.number::text').getall()
        item['Name'] = response.css('li h4.name::text').getall()
        yield item

行動規範の内容に同意します

回答1件

CSV部分の分割でしたらこれでいけます。

import pandas as pd
from io import StringIO

s = '''"Title","Date","Rank","Name"
"AAA","2020-08-01","1,2,3,4","A,B,C,D"
"BBB","2020-08-01","1,2,3,4","A,B,C,D"'''
df = pd.read_csv(StringIO(s))

df = (df.set_index(['Title', 'Date'])
    .stack()
    .str.split(',', expand=True)
    .stack()
    .unstack(-2)
    .reset_index(-1, drop=True)
    .reset_index()
)

print(df)

'''
  Title        Date Rank Name
0   AAA  2020-08-01    1    A
1   AAA  2020-08-01    2    B
2   AAA  2020-08-01    3    C
3   AAA  2020-08-01    4    D
4   BBB  2020-08-01    1    A
5   BBB  2020-08-01    2    B
6   BBB  2020-08-01    3    C
7   BBB  2020-08-01    4    D
'''

追記
動作確認はできてないのですが、scrapy.Item継承クラスと辞書型は相互変換ができるらしいので、
それを利用してpandasを利用するのが楽だと思います。

python
1import pandas as pd
2
3rs = RankSpider()
4
5#scrapy.Item継承クラスを辞書型に変換
6drs = dict(rs)
7#辞書型をpandas.DataFrameに変換
8df = pd.DataFrame.from_dict(drs, orient='index').T
9#pandas.DataFrameを辞書型に変換
10drs = df.to_dict()
11#辞書型をscrapy.Item継承クラスに変換
12rs = RankSpider(drs)

投稿2020/08/18 00:52

編集2020/08/18 04:58

yureighost

総合スコア2183

kajimaru315

2020/08/18 04:16

yureighostさんご回答ありがとうございます！ pandsを使用しての処理があるんですね。無知で申し訳ないのですが、こちらはスクレイピング用のスパイダーとは別にpands用のファイルを作成して実行するのでしょうか？ 1.スクレイピングスパイダーで情報取得 ↓ 2.取得した情報を別のpyファイルにインポート ↓ 3.インポートしたファイルを整形 ↓ 4.CSVに生成このようなイメージですか？

kajimaru315

2020/08/18 05:34

yureighostさんありがとうございます。頂いた内容で一度試してみます！

行動規範の内容に同意します