pyhon、スクレイピングでのエラー表示について

Question

実案件をもとにpythonでのスクレイピングを学習中です。
BeaautifulSoupを用いています。

このurlの中から企業名と企業のurlを取得して欲しい、というのが要件です。
https://next.rikunabi.com/rnc/docs/cp_s00700.jsp?leadtc=top_wpmodal_submit
```python
from time import sleep
import pandas as pd
import requests
from bs4 import BeautifulSoup
from requests.api import post

url = 'https://next.rikunabi.com/rnc/docs/cp_s00700.jsp?leadtc=top_wpmodal_submit'
r = requests.get(url , timeout=3)
soup = BeautifulSoup(r.content , 'lxml')
r.raise_for_status()

companies = soup.find_all('ul' , class_='rnn-group--xm')


d_list = []
for i , company in enumerate(companies):
    print('='*30 , i , '='*30)
    page_url = company.find('h2' , class_="rnn-textLl js-abScreen__title").get('href')
    page_url = page_url.replace('nx1_rq' , 'nx2_rq')　　#この行に対してエラーが出ています。

    sleep(3)

    page_r = requests.get(page_url , timeout=3)
    page_r.raise_for_status()
    page_soup = BeautifulSoup(page_r.content , 'lxml')

    table_1 = page_soup.find('div' , class_='rn3-companyOfferCompany')
    table_2 = page_soup.find('div' , class_='rn3-companyOfferEntry')

    company_name = table_1.find('p' , class_='rn3-companyOfferCompany__text')
    company_url = table_2.find('a' , class_='rn3-companyOfferEntry__link js-companyOfferEntry__link').get('href')

    d = {
        'company_name' : company_name,
        'company_url' : company_url
    }

    d_list.append(d)
    print(d_list)
```
行なったことです。
まず、先述したurlにアクセスするとこのようなページが表示されます。
![イメージ説明](c0d4734a4b854c949e85c35bc9560ada.png)
この段階では企業名と企業urlが格納されている要素には辿り着けないので、
```python
page_url = company.find('h2' , class_="rnn-textLl js-abScreen__title").get('href')
```
このコードを使用して下層ページに飛びました。下層ページはこのようになっています。
![イメージ説明](cee54144649cfde1fc3df60a57be9a79.png)
目的の企業名、企業URLは、ここからさらに”求人情報”というタブをクリックした先にありました。
ここで、求人情報のページにアクセスする為に今回エラーが出てしまった行のコードを書きました。
具体的には、


"企業からのメッセージ"ページurl
https://next.rikunabi.com/company/cmi0248910140/nx1_rq0008925977/
"求人情報"ページurl
https://next.rikunabi.com/company/cmi0248910140/nx2_rq0008925977/

この2つのページのurlを見比べて相違している部分をreplace関数を用いて書き換え、page_urlに上書きしてあげることで、"求人情報"にたどり着く変数を作ろうとしました。



するとこのようなエラーが表示されました。

  File "answer.py", line 19, in <module>
    page_url = page_url.replace('nx1_rq' , 'nx2_rq')
AttributeError: 'NoneType' object has no attribute 'replace'

NoneTypeと出ている部分が、
https://qiita.com/shizen-shin/items/5455e2ea625a3c8cf5dd
こちらのサイトで紹介されているように”関数にデフォルト引数が渡されなかったときなど”に発生する
エラーだということは分かったのですが、具体的に私のコードの場合なにが悪かったのか、いまいちピンときませんでした。
どなたかご教授いただけますでしょうか。

Answer

該当部分の HTML は以下の様になっていて、`h2` タグの内部に `a` タグがあります。
```html
<h2 class="rnn-textLl js-abScreen__title"><a href="..."
```

なので、その `a` タグから `href` 属性を取り出します。
```python
page_url = company.find('h2' , class_="rnn-textLl js-abScreen__title").find('a').get('href')
```

これで URL の一部を取り出すことはできますが、`page_url` に base URL(`http://.../` 部分)を付加する必要があります。

関連した質問