質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Q&A

解決済

1回答

856閲覧

PythonでCSSセレクター(Chromeの自動生成)がうまくいかないです【Webスクレイピング】

hiyoko-kun

総合スコア23

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

0グッド

1クリップ

投稿2019/03/13 10:34

編集2019/03/13 10:42

前提・実現したいこと

Webスクレイピングとエラーを直したいです.

発生している問題・エラーメッセージ

Traceback (most recent call last): File "19.3.6.title.py", line 104, in <module> nikkei_heikin2 = (soup.select_one("#content > table > tbody > tr:nth-child(2) > td:nth-child(3)").text) AttributeError: 'NoneType' object has no attribute 'text'

該当のソースコード

Python

1# アクセスするURL 2 url = "https://www.spamcop.net/w3m?action=inprogress" 3 4 # URLにアクセスする htmlが帰ってくる 5 html2 = urllib.request.urlopen(url) 6 7 # htmlをBeautifulSoupで扱う 8 soup = BeautifulSoup(html2, "html.parser") 9 10 nikkei_heikin2 = "" 11 12 nikkei_heikin2 = (soup.select_one("#content > table > tbody > tr:nth-child(2) > td:nth-child(3) > a").text) 13

試したこと

soup = BeautifulSoup(html2, "html.parser")→
soup = BeautifulSoup(html2.read(), "html.parser")

あるサイトには,"原因はaタグしか入れていないリストの要素からaタグを取り出そうとしていたこと。ネストされている要素の場合は問題ない。"
と書かれていた.

補足情報(FW/ツールのバージョンなど)

https://www.spamcop.net/w3m?action=inprogress
上のサイトにブラックリストのIPアドレスの一覧が載っています.
イメージ説明

そのIPアドレスを抜き出すために,chromeでCSSセレクターを自動生成し,soup.select_oneに代入しています.

時間がある時に質問に答えて頂けたら嬉しいです.
よろしくお願いします.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Chrome でコピペした CSS セレクタは、Beautiful Soup が対応していない擬似クラスが含まれていたり、冗長であったりします。
CSS セレクタはコピペではなく、自分で書きましょう。

python

1import urllib 2from bs4 import BeautifulSoup 3 4url = 'https://www.spamcop.net/w3m?action=inprogress' 5html = urllib.request.urlopen(url) 6soup = BeautifulSoup(html, 'html.parser') 7 8tags = soup.select('tr > td:nth-of-type(3) > a') 9links = [t.text for t in tags] 10print(links)

txt

1['90.143.191.81', '90.143.191.81', '90.143.191.81', '115.209.72.125', '115.209.72.125', '115.209.72.125', '115.209.72.125', '115.209.72.125', '189.211.95.54', '58.54.78.104', '58.54.78.104', '27.22.132.131', '142.93.133.30', '46.138.101.133', '46.138.101.133', '46.138.101.133', '46.138.101.133', '104.254.244.226', '113.120.36.201', 2以下略

投稿2019/03/13 10:44

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hiyoko-kun

2019/03/13 11:16

丁寧に答えていただいて,誠にありがとうございます。 疑問が解決しました. ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問