質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

for

for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

スクロール

スクロールとは、ディスプレイスクリーン上において連続的にコンテンツが滑っていくことを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

2237閲覧

python 属性値取得エラー

yoshidayuta

総合スコア15

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

for

for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

スクロール

スクロールとは、ディスプレイスクリーン上において連続的にコンテンツが滑っていくことを指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2021/02/15 01:46

前提・実現したいこと

下記のようなHTMLが60個あり、href値とurl値を取得することをしたいです。
for文を使い12個目までは取得できるのですが、それ以降はエラーが出てしまいます。なぜなのでしょうか?

<a href="sample.com" class="listing-item"> <div class="img" style="background-image: url(&quot;https://sample.jpg&quot;);"></div> </a> ・ ・ ・ ・

発生している問題・エラーメッセージ

~/opt/anaconda3/lib/python3.8/site-packages/bs4/element.py in __getitem__(self, key) 1404 """tag[key] returns the value of the 'key' attribute for the Tag, 1405 and throws an exception if it's not there.""" -> 1406 return self.attrs[key] 1407 1408 def __iter__(self): KeyError: 'style'

該当のソースコード

subcount = 0 href_lists = [] url_lists = [] for _ in range(60): //href値を取得し、リストに追加 h = content_lists[subcount].attrs['href'] href_lists.append('https://txxx.com'+ h)  //URL値を取得し、リストに追加 style = content_lists[subcount].find(class_='img')['style'] decl = cssutils.parseStyle(style) values = cssutils.css.PropertyValue(decl.getPropertyValue('background-image')) uri = values[0].uri url_lists.append(uri) subcount +=1 time.sleep(1)

試したこと

画面に表示されないと取得できないのかと考え、スクロールをし実行しましたがダメでした。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

int32_t

2021/02/15 01:52

単純に、content_lists が12個しか要素を持っていないのでしょう。どのようにすれば質問者さんの期待通りになるかは、現在の質問内容では情報が少なくてわかりません。
guest

回答1

0

自己解決

スクロールさせてteme.sleep()にて時間をおくとうまく取得できました
parse読み込み時間が必要必要なのか

投稿2021/02/15 02:00

yoshidayuta

総合スコア15

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問