質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.04%

webスクレイピング .text

受付中

回答 3

投稿

  • 評価
  • クリップ 0
  • VIEW 702

score 1

前提・実現したいこと

webスクレイピング初心者です。
サイトのあるテキストだけ取りたいと思っています。
しかし、以下のコードを実行すると、実行可能な時と不可能な時があります。
このような場合、どのように対処すればいいのかを教えていただきたいです。
また、他のテキストの取り出し方法などがあれば教えていただきたいです。

発生している問題・エラーメッセージ

AttributeError                            Traceback (most recent call last)
<ipython-input-34-86dad44d7856> in <module>
     16 # BeautifulSoupで扱えるようにパースします
     17 soup = BeautifulSoup(html, "html.parser")
---> 18 msg1 = soup.select_one("#app > div > div > div.mainContainer > div > div > div.row.DataBlock > div:nth-child(10) > div > header > div > div:nth-child(3) > span").text
     19 msg1 = re.sub(r"\s","",msg)

AttributeError: 'NoneType' object has no attribute 'text'

該当のソースコード

from selenium import webdriver
from bs4 import BeautifulSoup 
import re

driver_path="/Users/sishi/Anaconda3/chromedriver"
#Chromeを操作
driver = webdriver.Chrome(driver_path)

url="https://www.pref.kanagawa.jp/osirase/1369/"
driver.get(url)

html = driver.page_source.encode('utf-8')

# BeautifulSoupで扱えるようにパースします
soup = BeautifulSoup(html, "html.parser")
msg1 = soup.select_one("#app > div > div > div.mainContainer > div > div > div.row.DataBlock > div:nth-child(10) > div > header > div > div:nth-child(3) > span").text
msg1 = re.sub(r"\s","",msg1)

試したこと

ChromeからCSSセレクタをコピペで取り出すと、冗長であったりうまくいかない場合があると書いてあったのですが、この場合どこを短縮して、どのようにセレクタを取り出せばいいのかわかりらず断念してしまいました。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

0

select_oneの結果がNoneだったというエラーです。
つまり、該当の要素が存在しないということなので、要素の指定が間違っているわけです。

対処としては、「HTMLをよく見る」しかないです。

HTMLを見るときは、変数htmlの内容をファイルに書き出して、そのファイルを見ましょう。
ブラウザで見るのとは違う可能性が高いです。例えば、JavaScriptで追加された要素だったり。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/06/18 18:51

    回答ありがとうございます。
    htmlの内容をファイルに書き出すというのは具体的にどのように行うのでしょうか??
    その後、そのがいるの中身から自分で階層構造をみてCSSセレクターを設定するということでしょうか??

    キャンセル

  • 2020/06/18 19:46

    ファイルの読み書きをしたことが無い?
    with open("/tmp/html","w") as f:
    f.write(html)
    とか。

    キャンセル

  • 2020/06/27 11:07

    返信ありがとうございます。
    Webスクレイピング初心者で見様見真似でやってしまっていたため、そのようなことをあまりしたことがありませんでした…
    一度やってみます!!また、基礎もしっかりと学ぼうと思います

    キャンセル

0

実行可能な時と不可能な時があります。

出ているエラーはAttributeErrorです。
つまり実行のたびに生成されるこのオブジェクトに、
textというアトリビュートが存在するときと存在しない時があります。

存在するときはオブジェクトがきちんと取得できたとき、
存在しないときはオブジェクトがきちんと取得できずNoneが帰ってきたときです。

すなわち要素をきちんと取得できる時とできない時があるということです。
対象サイトがたまたまその瞬間重かったかどうかによって決まっているとみてほぼ間違い無いでしょう。

具体的な対策としては、そのURLに遷移した後、要素を取得する前に一定時間待ってやるべきです。
これにより多少重かろうと毎回取得できるでしょう。

from time import sleep

〜中略〜

driver.get(url)
sleep(10)
html = driver.page_source.encode('utf-8')

〜後略〜

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/06/27 11:06

    回答ありがとうございます!!
    そのような現象が起こることを考慮していませんでした。
    教えていただいたコードを使って実行してみます!!
    ありがとうございます。

    キャンセル

-1

スクレイピングの自動化ツールなら、Octoparseを自薦します。
WEBサイトを入力して、抽出したいデータをクリックすると、データを取得できます。
初心者でも使えます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る