回答率: 85.37%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.37%

トップ Beautiful Soupに関する質問

Q&A

解決済

2回答

1335閲覧

Pythonスクレイピング：URLとHTMLの混合について

総合スコア96

0グッド

0クリップ

投稿2020/08/07 01:44

0

0

レストランのレビューサイトのようなサイトをスクレイピングし、スプレッドシートに連携しています。

基本はrequestsを使ってURLを取得しているのですが、一部サイトのHTMLを組み込んで参照先をそのHTMLにすることは可能でしょうか。

Python
1
2import gspread
3import requests
4from bs4 import BeautifulSoup
5from oauth2client.service_account import ServiceAccountCredentials
6import time
7
8#以下はurl取得
9
10url = “https://xxx?pid=12345”
11r = requests(url)
12
13soup = BeautifulSoup(r.text, “lxml”)
14
15elements_01 = soup.select(".sample1”)
16
17for index, e in enumerate(elements)_01:
18    num = index+1
19    wks.update_acell('A'+str(num), e.get_text())
20
21#以下はHTML取得
22
23text =""" 
24<html>
25<body>
26  <p class = "oya">
27     <i class = "ko_01">サンプル</i>
28  </p>
29  <p class = "oya">
30     <i class = "ko_02">サンプル</i>
31  </p>
32  <p class = "oya">
33     <i class = "ko_03">サンプル</i>
34  </p>
35</body>
36</html>
37"""
38soup = BeautifulSoup(text, 'lxml')
39
40elements_02 = soup.select(".oya")
41
42for e in elements_02:
43    print(e.i)
44    print(e.i["class"][0])
45

と言ったような形です。
このHTMLはURLに含まれる部分です。(サイトの全てではなく、そのうちの一部のHTML）

抽出したい項目が5つあるとしたら、4つはurlで抽出、一つはhtmlで抽出といった形です。

上手くいかず、調べても見つけられなかったため質問させていただきました。

宜しくお願い致します。

2020/08/07 02:37 編集

前回されている質問の様に具体的に何をどうしたい、または目的とする抽出結果など記載して質問の追記をお願いします。

行動規範の内容に同意します

回答2件

0

自己解決

HTMLからのみでしか取得出来ないと思っていた項目が、URLから取得できると判明したため、こちら解決となりました。

ご指摘・ご回答いただいた皆様、説明不足で申し訳ございません。
また、ご教示いただきありがとうございます。

抽出は出来たもののスプレッドシートへの書き込みが解決していないため
別途質問させていただきます。

投稿2020/08/07 13:15

総合スコア96

0

URLの記載は、aタグのhrefに書くこと含め、問題ありません。
htmlやテキストを転載するのは、状況によっては著作権法に違反する可能性がありますので、法律をよく確認しましょう。

技術的な質問であれば、
・こういう結果を期待して
・こういうコードを書いたが
・こういう結果だった
という風に書いてください。

投稿2020/08/07 02:24

総合スコア85764

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.37%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Beautiful Soupに関する質問

Pythonスクレイピング：URLとHTMLの混合について