質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

2回答

346閲覧

HTML5でID・Classを使っていないサイトで、Pythonを利用したスクレイピング

asui9625

総合スコア11

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2018/09/23 06:42

HTML5ではID・Classを使わずともサイト作成ができるため、そのようなサイトでデータのスクレイピングができずに作業が滞っています。
Pythonでサイトのスクレイピングの説明をしているサイトは、自分の調べ方が悪いだけかと思われますが、IDやClassを指定しているもののため、参考になりませんでした。

例えば、下記のようなサイトで、うまく特定のデータをスクレイピングする方法はありますか?

https://kojika17.com/portfolio/

参考
idとclassを使わないで、HTML5とCSS3でコーディングしてみた。
https://kojika17.com/2011/05/css3-coding.html

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

例えば、下記のようなサイトで、うまく特定のデータをスクレイピングする方法はありますか?

質問者さんが必要な箇所を特定できているのであれば、それを再現するのが方法になります。
class=xxであるdiv要素の子要素のうち、何番目のもの」「ファイル名がxxである画像の次のa」みたいな泥臭いやり方です。
BeautifulSoupは階層を追えるので、多少はその助けになります。

もちろん、元サイトの構造が変われば抽出のロジックも書き直しです。
機械処理されることが念頭になく、人間にどう見えるかにこだわったサイトは難しいです。(人間が手打ちで作ってるものは特に)

投稿2018/09/24 12:34

morinatsu

総合スコア395

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

BeautifulSoup?だめですか

投稿2018/09/23 07:00

fcitx

総合スコア134

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

asui9625

2018/09/23 08:26

説明不足で申し訳ありません。 BeautifulSoup使ってます。 そのスクレイピングしたいWebサイトでは、 ClassやIDを多様していますが、私が抽出したい部分だけ なぜか一切ClassやIDを使っていません。 ソースはGoogle Chromeを使って確認しており、 実際にClassが指定されてる部分(今回抽出する必要がない部分)を 抽出して、そもそも根本的に間違ってる的な状況ではないことは確認できています。 私が過去に質問した内容なので、もしお時間がありましたら、 そちらも確認していただけると嬉しいです。 https://teratail.com/questions/144642 2週間かけてもできないとか、悲しいです・・・
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問