pythonを用いて,Jリーグの順位表をスクレイピングしようとしています.
Jリーグの順位表として,J.LEAGUE Data Site英語ページの今年の順位表をスクレイピングすることにしました.(https://data.j-league.or.jp/SFRT01/?competitionSectionIdLabel=Up+to+date&competitionIdLabel=MEIJI+YASUDA+J1+LEAGUE+1st&yearIdLabel=2016&yearId=2016&competitionId=411&competitionSectionId=0&search=search)
得られるデータに日本語が含まれると面倒だと思ったからです.
そこでpython3を用いて以下のようなコードを書き,実行しましたが,日本語ページのデータが得られてしまいました.これはなぜでしょうか?
よろしければ教えてください.お願いします.
python3
1from urllib.request import urlopen 2from bs4 import BeautifulSoup 3import codecs 4 5html = urlopen("https://data.j-league.or.jp/SFRT01/?competitionSectionIdLabel=Up+to+date&competitionIdLabel=MEIJI+YASUDA+J1+LEAGUE+1st&yearIdLabel=2016%E5%B9%B4&yearId=2016&competitionId=411&competitionSectionId=0&search=search") 6bsObj = BeautifulSoup(html) 7fDataFile = codecs.open('j1-2016.dat','w','utf-8') 8 9for child in bsObj.find("table",{"id":"search_result"}).children: 10 fDataFile.write('%s\n'%child) 11
また,得られた結果の一部も示しておきます.
<thead> <tr id="sortHeader"> <th class="wd00 bg-glay">グラフ</th> <th class="wd01 al-l bg-glay" data-sort-type="numericData">順位</th> <th class="wd02 bg-glay">チーム</th> <th class="wd03 al-l" data-sort-type="numericData">勝点</th> <th class="wd04 al-l" data-sort-type="numericData">試合</th> <th class="wd05 al-l" data-sort-type="numericData">勝</th> <th class="wd08 al-l" data-sort-type="numericData">分</th> <th class="wd09 al-l" data-sort-type="numericData">敗</th> <th class="wd12 al-l" data-sort-type="numericData">得点</th> <th class="wd13 al-l" data-sort-type="numericData">失点</th> <th class="wd14 al-l" data-sort-type="numericData" style="padding-right:10px">得失点差</th> <th class="wd17 bg-glay">直近試合の勝敗</th> <th class="wd18 bg-glay"> </th> <th class="implicit-sort-col" data-sort-append="1" data-sort-type="numericData"></th> </tr> </thead> <tbody> <tr style="background-color:"> <td class="wd00"><a class="icon-graph" href="#" onclick="javascript:window.open('/SFRT02?competitionYearId=2016&competitionId=411¤tCompetitionSectionId=3727&lastCompetitionSectionId=3727&teamId=1','graph','width=1000,height=720,toolbar=no,menubar=no,resizable=yes,scrollbars=yes,location=no, status=no');return false;">グラフ</a></td> <td class="wd01" data-sort-value="1"> 1</td> <td class="wd02"> <a href="http://www.jleague.jp/club/kashima/profile/">鹿島アントラーズ</a> </td> <td class="wd03" data-sort-value="39">39</td> <td class="wd04" data-sort-value="17">17</td> <td class="wd05" data-sort-value="12">12</td> <td class="wd08" data-sort-value="3">3</td> <td class="wd09" data-sort-value="2">2</td> <td class="wd12" data-sort-value="29">29</td> <td class="wd13" data-sort-value="10">10</td> <td class="wd14" data-sort-value="19"> +19</td> <td class="wd17"> <img class="img-base" src="/images/common/icon_c-w2.gif"><img class="img-base-print" src="/images/common/icon_c-w.png"><img class="img-base" src="/images/common/icon_c-w2.gif"><img class="img-base-print" src="/images/common/icon_c-w.png"><img class="img-base" src="/images/common/icon_c-w2.gif"><img class="img-base-print" src="/images/common/icon_c-w.png"><img class="img-base" src="/images/common/icon_c-w2.gif"><img class="img-base-print" src="/images/common/icon_c-w.png"><img class="img-base" src="/images/common/icon_c-w2.gif"><img class="img-base-print" src="/images/common/icon_c-w.png"/></img></img></img></img></img></img></img></img></img></td> <td class="wd18"></td> <td class="implicit-sort-col" data-sort-value="80">80</td> </tr> <tr style="background-color:"> <td class="wd00"><a class="icon-graph" href="#" onclick="javascript:window.open('/SFRT02?competitionYearId=2016&competitionId=411¤tCompetitionSectionId=3727&lastCompetitionSectionId=3727&teamId=21','graph','width=1000,height=720,toolbar=no,menubar=no,resizable=yes,scrollbars=yes,location=no, status=no');return false;">グラフ</a></td> 以下同様に他のクラブの情報がきます

回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2016/07/01 12:54 編集