質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.38%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1330閲覧

Pythonスクレイピング:URLとHTMLの混合について

gomasan

総合スコア96

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/08/07 01:44

レストランのレビューサイトのようなサイトをスクレイピングし、スプレッドシートに連携しています。

基本はrequestsを使ってURLを取得しているのですが、一部サイトのHTMLを組み込んで参照先をそのHTMLにすることは可能でしょうか。

Python

1 2import gspread 3import requests 4from bs4 import BeautifulSoup 5from oauth2client.service_account import ServiceAccountCredentials 6import time 7 8#以下はurl取得 9 10url = “https://xxx?pid=1234511r = requests(url) 12 13soup = BeautifulSoup(r.text, “lxml”) 14 15elements_01 = soup.select(".sample1”) 16 17for index, e in enumerate(elements)_01: 18 num = index+1 19 wks.update_acell('A'+str(num), e.get_text()) 20 21#以下はHTML取得 22 23text =""" 24<html> 25<body> 26 <p class = "oya"> 27 <i class = "ko_01">サンプル</i> 28 </p> 29 <p class = "oya"> 30 <i class = "ko_02">サンプル</i> 31 </p> 32 <p class = "oya"> 33 <i class = "ko_03">サンプル</i> 34 </p> 35</body> 36</html> 37""" 38soup = BeautifulSoup(text, 'lxml') 39 40elements_02 = soup.select(".oya") 41 42for e in elements_02: 43 print(e.i) 44 print(e.i["class"][0]) 45

と言ったような形です。
このHTMLはURLに含まれる部分です。(サイトの全てではなく、そのうちの一部のHTML)

抽出したい項目が5つあるとしたら、4つはurlで抽出、一つはhtmlで抽出といった形です。

上手くいかず、調べても見つけられなかったため質問させていただきました。

宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nto

2020/08/07 02:37 編集

前回されている質問の様に具体的に何をどうしたい、または目的とする抽出結果など記載して質問の追記をお願いします。
guest

回答2

0

自己解決

HTMLからのみでしか取得出来ないと思っていた項目が、URLから取得できると判明したため、こちら解決となりました。

ご指摘・ご回答いただいた皆様、説明不足で申し訳ございません。
また、ご教示いただきありがとうございます。

抽出は出来たもののスプレッドシート への書き込みが解決していないため
別途質問させていただきます。

投稿2020/08/07 13:15

gomasan

総合スコア96

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

URLの記載は、aタグのhrefに書くこと含め、問題ありません。
htmlやテキストを転載するのは、状況によっては著作権法に違反する可能性がありますので、法律をよく確認しましょう。

技術的な質問であれば、
・こういう結果を期待して
・こういうコードを書いたが
・こういう結果だった
という風に書いてください。

投稿2020/08/07 02:24

otn

総合スコア85671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.38%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問