質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.50%

  • Python 3.x

    6405questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • スクレイピング

    334questions

pythonでのスクレイピング

解決済

回答 1

投稿

  • 評価
  • クリップ 2
  • VIEW 357

mana40

score 3

 前提・実現したいこと

python初心者です。
下記のサイトからチーム毎に各ゴールパターンのゴール数というデータを取得し、リストの形で保持したいと考えています。

http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal

リスト化したい箇所はサイトでは「得点数」としてグラフ化されている部分の元データです。

[[広島,2,0,6,4,0,3,0,3,4,0],
[FC東京,3,0,3,4,2,4,1,1,2,1],
...]

というようなデータにしたいです。

 発生している問題・エラーメッセージ

かなり強引にですが、beautifulsoupで該当箇所を文字列として取得する事は出来ました。
得られた文字列はチーム毎に[]で囲まれて、見た目はもう少しでリスト化出来そうなのですが、
そこから先が思いつきません。

 該当のソースコード

import requests
import re

from bs4 import BeautifulSoup,Comment

url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal"

response = requests.get(url)
bs = BeautifulSoup(response.content,"lxml")

test=str(bs.find(string=re.compile("function drawChart")))

test2="["+test[test.find('チーム'):test.find(',\t\t]);\n\n\t\tvar')].replace("\'","").replace("\n\t\t\t","").replace("\t\t","").replace(" ","").replace("[]","")


スクレイピングの部分ももっとスマートなやり方があれば教えて頂きたいです。。
どうぞ宜しくお願い致します。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

リスト部の文字列を正規表現で抜き出して eval() 又は ast.literal_eval() にてリスト化するとよいかと思います。

from pprint import pprint
import requests
import re
import ast

from bs4 import BeautifulSoup,Comment

url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal"

response = requests.get(url)
bs = BeautifulSoup(response.content,"lxml")
test=str(bs.find(string=re.compile("function drawChart")))

tbl = re.search(r'arrayToDataTable\((.*?)\)', test, flags=re.DOTALL|re.MULTILINE).group(1)
pprint(ast.literal_eval(tbl))
#[['チーム',
#  'PK',
#  'セットプレー直接',
#  'セットプレーから',
#  'クロスから',
#  'スルーパスから',
#  'ショートパスから',
#  'ロングパスから',
#  'ドリブルから',
#  'こぼれ球から',
#  'その他'],
# ['広島', 2, 0, 6, 4, 0, 3, 0, 3, 4, 0],
# ['FC東京', 3, 0, 3, 4, 2, 4, 1, 1, 2, 1],
# ['札幌', 0, 0, 5, 8, 1, 2, 1, 1, 1, 1],
# ['神戸', 0, 1, 4, 2, 2, 3, 0, 2, 4, 1],
# ['清水', 2, 0, 5, 3, 0, 6, 0, 1, 1, 1],
# ['川崎F', 0, 0, 5, 5, 1, 3, 1, 1, 0, 3],
# ['長崎', 1, 0, 4, 7, 3, 0, 0, 1, 2, 1],
# ['横浜FM', 1, 2, 4, 3, 0, 4, 0, 3, 1, 0],
# ['C大阪', 1, 3, 4, 0, 1, 1, 1, 3, 1, 3],
# ['柏', 0, 0, 1, 4, 1, 2, 0, 4, 2, 2],
# ['湘南', 1, 0, 4, 3, 1, 0, 1, 1, 1, 4],
# ['磐田', 1, 0, 3, 4, 0, 4, 0, 1, 1, 1],
# ['仙台', 1, 0, 3, 0, 0, 2, 1, 3, 2, 3],
# ['鳥栖', 3, 0, 3, 1, 0, 5, 0, 0, 0, 2],
# ['G大阪', 2, 0, 2, 2, 1, 5, 0, 2, 0, 0],
# ['名古屋', 1, 0, 5, 2, 1, 1, 0, 0, 1, 1],
# ['浦和', 1, 0, 4, 4, 0, 0, 0, 1, 2, 0],
# ['鹿島', 2, 1, 1, 2, 2, 1, 0, 0, 2, 0]]

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/05/21 00:45

    ご回答ありがとうございます!
    教えて頂いた内容で意図通りの結果を得られました。
    こんなやり方があるとは全く知りませんでした。

    宜しければ教えて頂きたいのですが、
    1)正規表現で表している「r'arrayToDataTable\((.*?)\)」の意図としては、
     「arrayToDataTable\((」と「)\)」を満たす最小の文字列を返させるという事でしょうか?
     
    2)group(1)を外して実行すると該当データの1行目の途中までという結果となったのですが、
     このgroup(1)の働きはどのようなものなのでしょうか?

    3)「ast」モジュールを今回初めて知ったのですが、公式ドキュメントではその働き・使い方がいまいちよくわかりませんでした。。
     参考になるページなどがありましたら教えていただけないでしょうか?

    以上、重ねての質問で恐縮ですが、教えて頂けると幸いです。

    キャンセル

  • 2018/05/21 08:54

    1.) 2)
    まず、正規表現
    r'arrayToDataTable\(.*?\)'
    はおっしゃる通り、 "arrayToDataTable(...)"に最短マッチさせることが目的となるのですが、今回処理で必要となるのはこの中の "..." の部分のみとなります。
    そこで正規表現を
    r'arrayToDataTable\((.*?)\)'
    のように必用となる部分をさらに括弧で囲います。(これをグループ化といいます)
    このように検索条件の一部を括弧をつかってグループ化しておくことで、検索結果から
    re.search(...).group(1)
    としてそのグループを取得することができます。
    (グループが複数ある場合は 引数の数字にて引き当てるグループを選択します)

    キャンセル

  • 2018/05/21 08:55

    3)
    まずは eval() を理解するとよいかと思います。
    これは文字列をPython式として評価するための組み込み関数で、例えば
    >>> s = "1 + 2"
    >>> eval(s)
    3
    のように文字列の数式を計算することができるという非常にパワフルな関数で、今回のように単なる文字列をリストとして評価するのに有効に機能します。
    しかし残念ながら、外部から取り込んだ文字列を eval() に入力するのは非常に危険が伴います。例えば
    >>> s = "__import__('os').system('rm -rf *')"
    >>> eval(s)
    のように悪意のあるユーザが作成したスクリプトを eval() によって実行されてしまう可能性がある為です。
    そこで今回の ast.literal_eval() を使用します。
    ast.literal_eval()は評価する対象がタプルやタプル、辞書などに限定されており上記のようなスクリプトを実行することが出来ないため安全に文字列→リスト変換を安全に行うことができます。

    キャンセル

  • 2018/05/23 00:27

    追加のご回答ありがとうございます。
    自分で考えていた時にも「arrayToDataTable」の後の部分から抽出したいと考えたのですが、このような方法があるのですね。
    また、eval/list_evalの用法も理解できました。
    とても分かり易いご回答を頂きありがとうございました。大変勉強になりました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.50%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    6405questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • スクレイピング

    334questions