回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップスクレイピングに関する質問

Q&A

解決済

1回答

1041閲覧

BeautifulSoup　bs４ HTML解析と取得について

総合スコア15

0グッド

0クリップ

投稿2021/01/19 11:28

編集2021/01/19 11:30

0

0

#課題・問題
pythonでスクレイピングをしようとしています。
bs４を用いてURL取得⇨HTML取得⇨HTML解析⇨HTMLテキスト取得をしようとしていますが、

<body>部分がうまく取得できません。

from bs4 import BeautifulSoup
import urllib.request as req

get_url = browser.current_url
url = get_url

response = req.urlopen(url)
parse_html = BeautifulSoup(response,'html.parser')
print(parse_html)

##HTML出力結果

<html>
<head>
  省略
</head>
<body>
<noscript>You need to enable JavaScript to run this app.</noscript>
**<div id="root"></div>**
<script>!function (l) {
    function e(e) {
        for (var r, t, n = e[0], o = e[1], u = e[2], f = 0, i = []; f < n.length; f++) t = n[f], p[t] && i.push(p[t][0]), p[t] = 0;
        for (r in o) Object.prototype.hasOwnProperty.call(o, r) && (l[r] = o[r]);
        for (s && s(e); i.length;) i.shift()();
        return c.push.apply(c, u || []), a()
    }

    function a() {
        for (var e, r = 0; r < c.length; r++) {
            for (var t = c[r], n = !0, o = 1; o < t.length; o++) {
                var u = t[o];
                0 !== p[u] && (n = !1)
            }
            n && (c.splice(r--, 1), e = f(f.s = t[0]))
        }
        return e
    }
</body>

このように**<div id="root"></div>**部分の中身が解析されず、取得できません。
解決策お教えていただきたいです。

補足

chromeのJavaScriptは有効にしてあります

2021/01/19 11:34

スクレイピングをしたいhtmlの内容を質問に追記いただけると、回答を得られやすいと思います。

行動規範の内容に同意します

回答1件

0

ベストアンサー

取得できません。

空という中身が取得されているので、これはこれで正しい動作です。

JavaScriptで中身を追加しているのでしょう。

response = req.urlopen(url)

で取得するのはJavaScript動作前の生のHTMLです。
JavaScriptを使用したページの取得には、ブラウザ+Selenium等を使います。

投稿2021/01/19 11:38

総合スコア85901

2021/01/22 08:18

response = browser.page_souce を実行でJava動作後のHTMLを取得できました。ヒントありがとうございます。

2021/01/22 08:50

ああ、よく見ると、seleniumを使っていながら、urlopenとbs4を併用していたのですね。 seleniumだけで完結しましょう。bs4も不要です。

2021/01/22 09:26

seleniumとBeautifulSoupは併用するとダメなんですか？

2021/01/22 11:59

駄目では無いですが、必要が無い。意味が無い。

2021/01/23 01:21

なるほどですねわかりました！消しておきます！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップスクレイピングに関する質問

BeautifulSoup　bs４ HTML解析と取得について

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る