webスクレイピング　.text

前提・実現したいこと

webスクレイピング初心者です。
サイトのあるテキストだけ取りたいと思っています。
しかし、以下のコードを実行すると、実行可能な時と不可能な時があります。
このような場合、どのように対処すればいいのかを教えていただきたいです。
また、他のテキストの取り出し方法などがあれば教えていただきたいです。

発生している問題・エラーメッセージ

AttributeError                            Traceback (most recent call last)
<ipython-input-34-86dad44d7856> in <module>
     16 # BeautifulSoupで扱えるようにパースします
     17 soup = BeautifulSoup(html, "html.parser")
---> 18 msg1 = soup.select_one("#app > div > div > div.mainContainer > div > div > div.row.DataBlock > div:nth-child(10) > div > header > div > div:nth-child(3) > span").text
     19 msg1 = re.sub(r"\s","",msg)

AttributeError: 'NoneType' object has no attribute 'text'

該当のソースコード

python
1from selenium import webdriver
2from bs4 import BeautifulSoup 
3import re
4
5driver_path="/Users/sishi/Anaconda3/chromedriver"
6#Chromeを操作
7driver = webdriver.Chrome(driver_path)
8
9url="https://www.pref.kanagawa.jp/osirase/1369/"
10driver.get(url)
11
12html = driver.page_source.encode('utf-8')
13
14# BeautifulSoupで扱えるようにパースします
15soup = BeautifulSoup(html, "html.parser")
16msg1 = soup.select_one("#app > div > div > div.mainContainer > div > div > div.row.DataBlock > div:nth-child(10) > div > header > div > div:nth-child(3) > span").text
17msg1 = re.sub(r"\s","",msg1)

試したこと

ChromeからCSSセレクタをコピペで取り出すと、冗長であったりうまくいかない場合があると書いてあったのですが、この場合どこを短縮して、どのようにセレクタを取り出せばいいのかわかりらず断念してしまいました。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答3件

スクレイピングの自動化ツールなら、Octoparseを自薦します。
WEBサイトを入力して、抽出したいデータをクリックすると、データを取得できます。
初心者でも使えます。

投稿2020/07/03 04:20

退会済みユーザー

総合スコア0

実行可能な時と不可能な時があります。

出ているエラーはAttributeErrorです。
つまり実行のたびに生成されるこのオブジェクトに、
textというアトリビュートが存在するときと存在しない時があります。

存在するときはオブジェクトがきちんと取得できたとき、
存在しないときはオブジェクトがきちんと取得できずNoneが帰ってきたときです。

すなわち要素をきちんと取得できる時とできない時があるということです。
対象サイトがたまたまその瞬間重かったかどうかによって決まっているとみてほぼ間違い無いでしょう。

具体的な対策としては、そのURLに遷移した後、要素を取得する前に一定時間待ってやるべきです。
これにより多少重かろうと毎回取得できるでしょう。

python
1from time import sleep
2
3〜中略〜
4
5driver.get(url)
6sleep(10)
7html = driver.page_source.encode('utf-8')
8
9〜後略〜

投稿2020/06/26 18:46

shirai

総合スコア1290

mamecoro

2020/06/27 02:06

回答ありがとうございます！！そのような現象が起こることを考慮していませんでした。教えていただいたコードを使って実行してみます！！ありがとうございます。

行動規範の内容に同意します

select_oneの結果がNoneだったというエラーです。
つまり、該当の要素が存在しないということなので、要素の指定が間違っているわけです。

対処としては、「HTMLをよく見る」しかないです。

HTMLを見るときは、変数htmlの内容をファイルに書き出して、そのファイルを見ましょう。
ブラウザで見るのとは違う可能性が高いです。例えば、JavaScriptで追加された要素だったり。

投稿2020/06/18 08:30

otn

総合スコア85901

mamecoro

2020/06/18 09:51

回答ありがとうございます。 htmlの内容をファイルに書き出すというのは具体的にどのように行うのでしょうか？？その後、そのがいるの中身から自分で階層構造をみてCSSセレクターを設定するということでしょうか？？

otn

2020/06/18 10:46

ファイルの読み書きをしたことが無い？ with open("/tmp/html","w") as f: f.write(html) とか。

mamecoro

2020/06/27 02:07

返信ありがとうございます。 Webスクレイピング初心者で見様見真似でやってしまっていたため、そのようなことをあまりしたことがありませんでした… 一度やってみます！！また、基礎もしっかりと学ぼうと思います

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

webスクレイピング　.text

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問