pythonでのスクレイピング

Question

### 前提・実現したいこと
python初心者です。
下記のサイトからチーム毎に各ゴールパターンのゴール数というデータを取得し、リストの形で保持したいと考えています。

http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal

リスト化したい箇所はサイトでは「得点数」としてグラフ化されている部分の元データです。

[[広島,2,0,6,4,0,3,0,3,4,0],
[FC東京,3,0,3,4,2,4,1,1,2,1],
...]

というようなデータにしたいです。


### 発生している問題・エラーメッセージ
かなり強引にですが、beautifulsoupで該当箇所を文字列として取得する事は出来ました。
得られた文字列はチーム毎に[]で囲まれて、見た目はもう少しでリスト化出来そうなのですが、
そこから先が思いつきません。


### 該当のソースコード

```python
import requests
import re

from bs4 import BeautifulSoup,Comment

url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal"

response = requests.get(url)
bs = BeautifulSoup(response.content,"lxml")

test=str(bs.find(string=re.compile("function drawChart")))

test2="["+test[test.find('チーム'):test.find(',		]);

var')].replace("\'","").replace("
			","").replace("		","").replace(" ","").replace("[]","")
```
スクレイピングの部分ももっとスマートなやり方があれば教えて頂きたいです。。
どうぞ宜しくお願い致します。

Accepted Answer

リスト部の文字列を正規表現で抜き出して ``eval()`` 又は ``ast.literal_eval()`` にてリスト化するとよいかと思います。


```Python
from pprint import pprint
import requests
import re
import ast

from bs4 import BeautifulSoup,Comment

url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal"

response = requests.get(url)
bs = BeautifulSoup(response.content,"lxml")
test=str(bs.find(string=re.compile("function drawChart")))

tbl = re.search(r'arrayToDataTable((.*?))', test, flags=re.DOTALL|re.MULTILINE).group(1)
pprint(ast.literal_eval(tbl))
#[['チーム',
#  'ＰＫ',
#  'セットプレー直接',
#  'セットプレーから',
#  'クロスから',
#  'スルーパスから',
#  'ショートパスから',
#  'ロングパスから',
#  'ドリブルから',
#  'こぼれ球から',
#  'その他'],
# ['広島', 2, 0, 6, 4, 0, 3, 0, 3, 4, 0],
# ['FC東京', 3, 0, 3, 4, 2, 4, 1, 1, 2, 1],
# ['札幌', 0, 0, 5, 8, 1, 2, 1, 1, 1, 1],
# ['神戸', 0, 1, 4, 2, 2, 3, 0, 2, 4, 1],
# ['清水', 2, 0, 5, 3, 0, 6, 0, 1, 1, 1],
# ['川崎Ｆ', 0, 0, 5, 5, 1, 3, 1, 1, 0, 3],
# ['長崎', 1, 0, 4, 7, 3, 0, 0, 1, 2, 1],
# ['横浜FM', 1, 2, 4, 3, 0, 4, 0, 3, 1, 0],
# ['Ｃ大阪', 1, 3, 4, 0, 1, 1, 1, 3, 1, 3],
# ['柏', 0, 0, 1, 4, 1, 2, 0, 4, 2, 2],
# ['湘南', 1, 0, 4, 3, 1, 0, 1, 1, 1, 4],
# ['磐田', 1, 0, 3, 4, 0, 4, 0, 1, 1, 1],
# ['仙台', 1, 0, 3, 0, 0, 2, 1, 3, 2, 3],
# ['鳥栖', 3, 0, 3, 1, 0, 5, 0, 0, 0, 2],
# ['Ｇ大阪', 2, 0, 2, 2, 1, 5, 0, 2, 0, 0],
# ['名古屋', 1, 0, 5, 2, 1, 1, 0, 0, 1, 1],
# ['浦和', 1, 0, 4, 4, 0, 0, 0, 1, 2, 0],
# ['鹿島', 2, 1, 1, 2, 2, 1, 0, 0, 2, 0]]
```