質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

3428閲覧

指定した単語が存在するWebページからスクレイピング(python)

x066

総合スコア23

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/08/17 16:16

編集2018/08/18 14:01

#【実行環境および使用言語】
-CentOS 7
-Python 2.7.5

#【やりたいこと】
次のような操作を行いたいと考えております。

①とあるWebページからURL一覧を取得する(スクレイピング?)
②予め設定しておいたとある単語と一致する単語がないか取得したURL一覧先の全ページから調べる
③一致する単語がある場合、指定した要素を取得する

例)
設定単語『スイカ』
→取得したURL先の全てのページから『スイカ』という単語が含まれたものがあるか調べる
→『スイカ』という単語がある全てのページから『タイトル』や『画像』といったデータを取得する

#【進捗】
現在は指定したサイトのクラスからURLを抽出しようとしています。
※以前の【AttributeError: 'NoneType' object has no attribute 'get'】が出て来るエラーは直りました。ありがとうございます。(8/18追記)
###ソースコード

python

1# coding: UTF-8 2import requests 3from bs4 import BeautifulSoup 4 5response = requests.get('URL') 6#HTMLを取得して変数へ格納 7 8soup = BeautifulSoup(response.text,'lxml') 9#lxmlというツールでresponse.textを変換、スクレイピングできる形にして変数へ格納 10 11Cdata = soup.find_all("div", class_="クラス名") 12 13for x in Cdata: 14 Udata = x.get("href") 15 print (Udata)

###エラー
「None」と表示され、URLの取得ができません。
指定したクラス内に実際に存在するはずなのですが・・・

以上、よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

スクレイピング python

スクレイピングはスクレイピングの対象サイトにかなり依存します。
JavaScriptを使ったSPA(Single Page Application)→Chromeドライバー & selenium
静的なページ…requestsモジュール
スクレイピングフレームワークを使いたい→Scrapy or フリーソフト

まず、ソースコードを記述して、詰まった時にやりたい事をピンポイントで質問すると回答が付きやすいかと。
あと「とあるページ」がどこか分かりませんが、グーグルやツィッターなどの大手サイトは機械的なアクセス(スクレイピング/クローリング)を規約により禁止しているので、その旨ご注意を。


AttributeError: 'NoneType' object has no attribute 'get'

グーグル翻訳
AttributeError: 'NoneType'オブジェクトには属性 'get'がありません

soup.find('a',class_='クラス名') # <=この結果がNone(要素を取得できていない)です。

Python

1# print文を追加してクラス名が正しいかをを確認してくださいな。 2print(response.text) 3# 変数名が違います。responsew.text => response.text 4soup = BeautifulSoup(response.text,'lxml')

■参考情報
Python3のNoneおよびNoneTypeを排除したい

投稿2018/08/17 19:09

編集2018/08/17 21:23
umyu

総合スコア5846

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問