空白をそのままにしてスクレイピングを進めたい

前提・実現したいこと

Pythonのseleniumを用いてプロ野球の一球速報のスクレイピングを行おうとしているのですが、
塁状況をスクレイピングしようとすると無走者時は塁情報のテキストが空白になってしまうため、
エラーが出てしまいスクレイピングができません。

塁状況が空白時にはそのままスクレイピングを進め、
塁に人が埋まった場合にはその際の走者の選手名をスクレイピングできるようにしたいです。

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "C:\Users\YM\PycharmProjects\samle\main.py", line 47, in <module>
    print(elem_1B.text)
AttributeError: 'list' object has no attribute 'text'

該当のソースコード

from selenium import webdriver
import chromedriver_binary
import time
import csv
import datetime
from selenium.common.exceptions import NoSuchElementException
import re

driver = webdriver.Chrome()
driver.get('https://baseball.yahoo.co.jp/npb/game/2020082103/score?index=0110100')
csv_date = datetime.datetime.today().strftime("%Y%m%d")
csv_file_name = "carp_data_" + csv_date + ".csv"
f = open(csv_file_name, "w", encoding="CP932", errors="ignore")

writer = csv.writer(f, lineterminator="\n")
csv_header = ["球数", "投手", "投", "打者", "打席", "球種", "球速", "結果", "コース", "一塁", "二塁", "三塁"]
writer.writerow(csv_header)

i = 0
item = 1
while True :
    i = i + 1
    time.sleep(5)
    try:
        elem_pitcher = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[1]/a')
        elem_pitch = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[2]')
        elem_batter = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[3]/a')
        elem_bat = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[4]')
        elem_1B = driver.find_elements_by_xpath('//*[@id="base1"]/span')
        elem_2B = driver.find_elements_by_xpath('//*[@id="base2"]/span')
        elem_3B = driver.find_elements_by_xpath('//*[@id="base3"]/span')
    except NoSuchElementException:
        pass
    except AttributeError:
        pass
    elems_tb = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[3]/tbody/tr/td[3]')
    elems_tc = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[3]/tbody/tr/td[4]')
    elems_te = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[3]/tbody/tr/td[5]')
    elems_td = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[1]/tbody/tr/td/div/span')
    for elem_tb, elem_tc, elem_te, elem_td in zip(elems_tb, elems_tc, elems_te, elems_td):
        print(elem_pitcher.text)
        print(elem_pitch.text)
        print(elem_batter.text)
        print(elem_bat.text)
        pitch_position = elem_td.get_attribute('style')
        print(pitch_position)
        print(elem_1B.text)
        print(elem_2B.text)
        print(elem_3B.text)
        csvlist = [str(item), elem_pitcher.text, elem_pitch.text, elem_batter.text, elem_bat.text, elem_tb.text, elem_tc.text, elem_te.text, elem_1B.text, elem_2B.text, elem_3B.text]
        writer.writerow(csvlist)
        item = item + 1
    next_link = driver.find_element_by_id('btn_next')
    driver.get(next_link.get_attribute('href'))
driver.close()

行動規範の内容に同意します

回答1件

ベストアンサー

tryを使ってください。

python
1        print(pitch_position)
2        try:
3            print(elem_1B.text)
4        except AttributeError:
5            pass
6        try:
7            print(elem_2B.text)
8        except AttributeError:
9            pass
10        try:
11            print(elem_3B.text)
12        except AttributeError:
13            pass
14        csvlist = [str(item), elem_pitcher.text, elem_pitch.text, elem_batter.text, elem_bat.text, elem_tb.text, elem_tc.text, elem_te.text, elem_1B.text, elem_2B.text, elem_3B.text]
15

とかに変えてみてください。

上記には誤りがありました。

.textを取る部分を関数にしたので、全コードを載せます。
また、書込み先のファイルを閉じていなかったので閉じておきました。

python
1from selenium import webdriver
2import chromedriver_binary
3import time
4import csv
5import datetime
6from selenium.common.exceptions import NoSuchElementException
7import re
8
9def to_text(elem):
10    try:
11        return elem.text
12    except AttributeError:
13        return ""
14
15driver = webdriver.Chrome()
16driver.get('https://baseball.yahoo.co.jp/npb/game/2020082103/score?index=0110100')
17csv_date = datetime.datetime.today().strftime("%Y%m%d")
18csv_file_name = "carp_data_" + csv_date + ".csv"
19f = open(csv_file_name, "w", encoding="CP932", errors="ignore")
20
21writer = csv.writer(f, lineterminator="\n")
22csv_header = ["球数", "投手", "投", "打者", "打席", "球種", "球速", "結果", "コース", "一塁", "二塁", "三塁"]
23writer.writerow(csv_header)
24
25i = 0
26item = 1
27while True :
28    i = i + 1
29    time.sleep(5)
30    try:
31        elem_pitcher = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[1]/a')
32        elem_pitch = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[2]')
33        elem_batter = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[3]/a')
34        elem_bat = driver.find_element_by_xpath('//*[@id="gm_rslt"]/tbody/tr/td[4]')
35        elem_1B = driver.find_elements_by_xpath('//*[@id="base1"]/span')
36        elem_2B = driver.find_elements_by_xpath('//*[@id="base2"]/span')
37        elem_3B = driver.find_elements_by_xpath('//*[@id="base3"]/span')
38    except NoSuchElementException:
39        pass
40    except AttributeError:
41        pass
42    elems_tb = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[3]/tbody/tr/td[3]')
43    elems_tc = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[3]/tbody/tr/td[4]')
44    elems_te = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[3]/tbody/tr/td[5]')
45    elems_td = driver.find_elements_by_xpath('//*[@id="pitchesDetail"]/section[2]/table[1]/tbody/tr/td/div/span')
46    for elem_tb, elem_tc, elem_te, elem_td in zip(elems_tb, elems_tc, elems_te, elems_td):
47        print(elem_pitcher.text)
48        print(elem_pitch.text)
49        print(elem_batter.text)
50        print(elem_bat.text)
51        pitch_position = elem_td.get_attribute('style')
52        print(pitch_position)
53        text_elem_1B = to_text(elem_1B)
54        text_elem_2B = to_text(elem_2B)
55        text_elem_3B = to_text(elem_3B)
56        print(text_elem_1B)
57        print(text_elem_2B)
58        print(text_elem_3B)
59        csvlist = [str(item), elem_pitcher.text, elem_pitch.text, elem_batter.text, elem_bat.text, elem_tb.text, elem_tc.text, elem_te.text, text_elem_1B, text_elem_2B, text_elem_3B]
60        writer.writerow(csvlist)
61        item = item + 1
62    next_link = driver.find_element_by_id('btn_next')
63    driver.get(next_link.get_attribute('href'))
64driver.close()
65f.close()

情報を取るためにto_textを以下に変更して、出力のその部分を教えてください。

python
1def to_text(elem):
2    if type(elem) == list:
3        print(f'from to_text:')
4        for i,e in enumerate(elem):
5            print(f'elem[{i}] = {i}')
6            print(f'dir is:\n', dir(e))
7        exit()
8    try:
9        return elem.text
10    except AttributeError:
11        return ""

リストの場合は、そのそれぞれがtextを持っているようです。
以下に変更して、何が表示されるか見てみてください。

python
1def to_text(elem):
2    if type(elem) == list:
3        try:
4            return ' : '.join([x.text for x in elem])
5        except AttributeError:
6            return 'need more check'
7    try:
8        return elem.text
9    except AttributeError:
10        return ""

投稿2021/01/26 04:01

編集2021/01/26 11:42

ppaul

総合スコア24670

ycarp3340

2021/01/26 04:38

ご回答いただきありがとうございます。いただいたコードで試したのですが、今度は Traceback (most recent call last): File "C:\Users\YM\PycharmProjects\samle\main.py", line 59, in <module> csvlist = [str(item), elem_pitcher.text, elem_pitch.text, elem_batter.text, elem_bat.text, elem_tb.text, elem_tc.text, elem_te.text, elem_1B.text, elem_2B.text, elem_3B.text] AttributeError: 'list' object has no attribute 'text' とのエラーが発生してしまいました。 csvlistにテキストで渡す際に空白となっているため、エラーが発生しているようです。

ppaul

2021/01/26 04:53

elem_pitcherからelem_3Bまでの中にリストはありますか？それを調べて見てください。それとは別に、csvlist = の行の中でもelem_1B.textとか使っているいるのですね。それだと先ほどの変更では対応出来ていませんでした。走者がいない累のcsvでの値は、空文字列でいいですか。

ycarp3340

2021/01/26 06:05

リストはないと思います。＞走者がいない累のcsvでの値は、空文字列でいいですか。そちらで問題ございません。

ycarp3340

2021/01/26 07:06

実行してみましたが、 Traceback (most recent call last): File "C:\Users\YM\PycharmProjects\samle\sample.py", line 53, in <module> text_elem_1B = to_text(elem_1B.text) AttributeError: 'list' object has no attribute 'text' とテキストに変換？するところでエラーが発生してしまいました。。。

ppaul

2021/01/26 07:16

動作環境がないので凡ミスを見逃していました。修正したので、もう一度やってみてください。

ycarp3340

2021/01/26 07:39

ありがとうございます。エラーなく進みはしたのですが、肝心の塁状況がcsvに出力されず、全て空の状態になってしまいました。

ppaul

2021/01/26 08:13

私はseleniumは使ったことがないのですが、調べて見ると、elem_1Bとかは複数検索をしているようですね。その結果リストが返ってきています。そのリストの中から何を取り出したいのかは元のHTML次第なので、情報がないとわかりません。情報を取るために、関数to_textを変更して動かしてみてください。

ycarp3340

2021/01/26 08:21

なるほど。リストで返ってきているために空白になってしまうんですね。出力はこんな感じになりました。森下暢仁右坂本勇人右 top: 11px; left: 128px; from to_text:

ppaul

2021/01/26 08:28

最後に入れたexitのインデントが間違っていました。修正したのでもう一度流して下さい。

ycarp3340

2021/01/26 08:34

出力は変わらず以下の通りです。森下暢仁右坂本勇人右 top: 11px; left: 128px; from to_text:

ppaul

2021/01/26 08:50

では、大量の出力になるかもしれませんが、exit()を消すかコメントにして流してみてください。

ycarp3340

2021/01/26 10:33

出力したものについて、非常に量が多いのですが、全てお見せした方がよろしいでしょうか？それとも走者なしと走者ありの場合に分けてお見せした方がよろしいでしょうか？

ppaul

2021/01/26 11:24

print(f'elem[{i}] = {i}') print(f'dir is:\n', dir(e)) の出力の一組で良いです。

ycarp3340

2021/01/26 11:28

出力は以下のようになりました。 elem[0] = 0 dir is: ['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_execute', '_id', '_parent', '_upload', '_w3c', 'clear', 'click', 'find_element', 'find_element_by_class_name', 'find_element_by_css_selector', 'find_element_by_id', 'find_element_by_link_text', 'find_element_by_name', 'find_element_by_partial_link_text', 'find_element_by_tag_name', 'find_element_by_xpath', 'find_elements', 'find_elements_by_class_name', 'find_elements_by_css_selector', 'find_elements_by_id', 'find_elements_by_link_text', 'find_elements_by_name', 'find_elements_by_partial_link_text', 'find_elements_by_tag_name', 'find_elements_by_xpath', 'get_attribute', 'get_property', 'id', 'is_displayed', 'is_enabled', 'is_selected', 'location', 'location_once_scrolled_into_view', 'parent', 'rect', 'screenshot', 'screenshot_as_base64', 'screenshot_as_png', 'send_keys', 'size', 'submit', 'tag_name', 'text', 'value_of_css_property']

ppaul

2021/01/26 11:43

リストの場合は、そのそれぞれがtextを持っているようです。回答の最後を反映して実行し、何が表示されるか見てみてください。

ycarp3340

2021/01/26 12:05

CSVに走者反映されていました。ありがとうございました!

行動規範の内容に同意します