前提・実現したいこと
ここに質問の内容を詳しく書いてください。
Pythonでプログラムを作成しているのですが、エラーメッセージの修正方法が分かりません。
お分かりになられる方がいらっしゃいましたら、教えていただけないでしょうか。
発生している問題・エラーメッセージ
AttributeError Traceback (most recent call last) <ipython-input-12-77f87d602904> in <module>() 37 soup_info = getSoup(1) 38 time.sleep(1) ---> 39 page_count_str = soup_info.find(class_ = "last").text.strip() 40 41 page_count = int(page_count_str) AttributeError: 'NoneType' object has no attribute 'text'
該当のソースコード
import requests import bs4 import time import pandas as pd from tqdm import tqdm from google.colab import files def getSoup(page_number): Target_URL = "http://www.sakamotofoods.co.jp/webshop/&page=" + str(page_number) headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"} response = requests.get(Target_URL, headers=headers) time.sleep(1) soup = bs4.BeautifulSoup(response.content, "html.parser") return soup def getData(URL): Target_URL = URL headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"} response = requests.get(Target_URL, headers=headers) time.sleep(1) soup = bs4.BeautifulSoup(response.content, "html.parser") return soup def getDataframe(soup, df): entries = soup.find_all(class_ = "showcaseHd") for entry in entries: URL = entry.find("a")["href"] soup_second = getData(URL) se = pd.Series([ soup_second.find("title").text, # Product Name soup_second.find_all(class_ = "tableType02")[1].find_all("tr")[6].find("td").text, # JAN ], columns) df = df.append(se, columns) return df soup_info = getSoup(1) time.sleep(1) page_count_str = soup_info.find(class_ = "last").text.strip() page_count = int(page_count_str) print("\n") print("ページ数: " + str(page_count)) columns = ["Product Name", "JAN"] df = pd.DataFrame(columns=columns) for page in tqdm(range(1, page_count + 1)): soup_info = getSoup(page) df = getDataframe(soup_info, df) df
試したこと
矢印の付いている行が問題あるという事は分かったので、
classを変えたりしてみましたが、解決には至りませんでした。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
コードはないんですか?
失礼しました。
コードを載せてませんでした。
以下がコードになります。データを抽出するツールを作ろうと思っています。
import requests
import bs4
import time
import pandas as pd
from tqdm import tqdm
from google.colab import files
def getSoup(page_number):
Target_URL = "http://www.sakamotofoods.co.jp/webshop/&page=" + str(page_number)
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}
response = requests.get(Target_URL, headers=headers)
time.sleep(1)
soup = bs4.BeautifulSoup(response.content, "html.parser")
return soup
def getData(URL):
Target_URL = URL
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"}
response = requests.get(Target_URL, headers=headers)
time.sleep(1)
soup = bs4.BeautifulSoup(response.content, "html.parser")
return soup
def getDataframe(soup, df):
entries = soup.find_all(class_ = "showcaseHd")
for entry in entries:
URL = entry.find("a")["href"]
soup_second = getData(URL)
se = pd.Series([
soup_second.find("title").text, # Product Name
soup_second.find_all(class_ = "tableType02")[1].find_all("tr")[6].find("td").text, # JAN
], columns)
df = df.append(se, columns)
return df
soup_info = getSoup(1)
time.sleep(1)
page_count_str = soup_info.find(class_ = "last").text.strip()
page_count = int(page_count_str)
print("\n")
print("ページ数: " + str(page_count))
columns = ["Product Name", "JAN"]
df = pd.DataFrame(columns=columns)
for page in tqdm(range(1, page_count + 1)):
soup_info = getSoup(page)
df = getDataframe(soup_info, df)
df
・質問は編集できますのでコードを質問に追記してください。
・質問については回答にあるように「クラス名がlastのタグ」が存在していないと思われます。(少なくともBeautifulSoupで取得できていない)
ご連絡ありがとうございます。
コードの方は訂正しました。
textについて確認してみます。
Pythonはインデントが非常に重要なのでコードを修正してインデントを正しく設定してください。
コードの```の後ろにPythonと言語名を入れるのも忘れずに。
"text"が問題なのではなく、"soup_info.find(class_ = "last")"の結果が"None"(「クラス名がlastのタグ」が存在していない)になっていることが問題です。
教えていただいた事を考えながら、いろいろ試してます。
上手くいきましたら、報告させていただきます。