リスト型変数の値を正しく抽出したい

Chrome ウェブストアをクロールし、アプリのタイトル、URL、★などの情報を取得したいと考えています。
以下のコードで値を取得することはできたのですが、list 変数に格納されている値が「1文字ずつのリスト」として格納されていました。

list変数の中身 → print(list(itertools.chain.from_iterable(list))) で確認しました

list を print すると単純な多次元リストのように見えます。

python
1from selenium import webdriver
2from selenium.webdriver.chrome.options import Options
3import lxml.html
4import itertools
5
6options = Options()
7options.add_argument("--headless")
8driver = webdriver.Chrome(options=options)
9
10url = "https://chrome.google.com/webstore/category/extensions?hl=ja"
11driver.get(url)
12ps = driver.page_source
13root = lxml.html.fromstring(ps) 
14list = root.xpath('//script[@id="cws-model-data"]/text()')
15

1文字ずつの形で値が格納されているため、list[0][1] と指定すると「"」が、list[0][2] と指定する「I」が返ってきます。
やりたいこととしては、list[0] と指定したら「initialmodeldata」の文字が返ってきたり、list[0][7][2]と指定したら「おすすめ」の文字が返ってきたりなど、指定したリストの位置に応じた値を返したいと考えています。

そもそものやり方が悪手であれば、ご指摘いただけると幸いです。
よろしくお願いします。

行動規範の内容に同意します

回答2件

print(list(itertools.chain.from_iterable(list))) で確認しました

chainはそういう働きをします。

何の目的でitertools.chainしているのでしょう？

あと、listを普通の変数として使うのは間違っています。

list = root.xpath('//script[@id="cws-model-data"]/text()')
print(list(itertools.chain.from_iterable(list)))

だと、

TypeError: 'list' object is not callable

になるはず。本当に文字が出力されましたか？

投稿2022/03/03 15:02

otn

総合スコア84557

sassoon

2022/03/03 15:10

> 何の目的でitertools.chainしているのでしょう？すいません。多次元リストから値の引っ張り方を調べている際に参照したコードをそのまま貼り付けただけでした。 > 本当に文字が出力されましたか？失礼しました。list ではない変数名で試していました。 hoge = root.xpath('//script[@id="cws-model-data"]/text()') print(list(itertools.chain.from_iterable(hoge)))

行動規範の内容に同意します

ベストアンサー

python
1import json
2
3lst = root.xpath('//script[@id="cws-model-data"]/text()')
4jl = json.loads(lst[0])
5
6print(jl[0])
7print(jl[1][2][0][0][6][0][0][1])
8
9#
10initialmodeldata
11おすすめ