質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

Q&A

解決済

1回答

3886閲覧

Puppeteerを使って子要素を全て取得したい

hokosugi

総合スコア63

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

0グッド

0クリップ

投稿2021/08/15 07:04

poppeteerでスクレイピングをしています。
ドキュメントに従って個別要素は取得できましたが、親要素から子要素をすべて取得する方法が分かりません。
一応書いてみましたが、 list変数、document.getElementIdではDOMが設定されていないようで page に変更しました。また、list変数をfor文の中に入れてみましたが、 evaluate()メソッドはitelateに対応していないようです。

エラー文

//document.getElementId ReferenceError: document is not defined //document.getElementId=>page.getElemntId TypeError: page.getElementsByClassName is not a function

itelate エラーのコード

return await page.evaluate(() => { const list = document.querySelectorAll(".topCell").textContent; const listArr = Array.from(list); const result = []; listArr.forEach(list=>{ const text = new Promise((resolve, reject)=>{ resolve(page.evaluate(() => list.querySelector(".icLarge").textContent)); }); result.push(text); }) }); //error文 // Error: Evaluation failed: TypeError: undefined is not iterable (cannot read property Symbol(Symbol.iterator))

コード全文

const puppeteer = require('puppeteer'); async function getChildElements(page, url){ await page.goto(url) // 以下をitelate文の場合上記のコードに変更する const list = document.getElementsByClassName(".parentElement"); const listArr = Array.from(list); const result = []; listArr.forEach(li=>{ const text = new Promise((resolve, reject)=>{ resolve(page.evaluate(() => li.querySelector(".childElements").textContent)); }); result.push(text); }) // ここまで } !(async() => { try { const browser = await puppeteer.launch() const page = await browser.newPage() const texts = await getChildElements(page, 'https://www.sample.com') console.log(`取得したのは${texts}です。`) browser.close() } catch(e) { console.error(e) } })()

読みづらくて申し訳ありませんが、繰り返し文を使って子要素の属性を取得する方法を教えて下さい。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

解決しました。ドキュメントにある
const browser = await puppeteer.launch({ headless: false });
でheadlessをfalseにすると、chroniumたち上がり、さいごまでスクレイピングしてくれました。
尚、上記のコードには間違いがあって

listArr.forEach(list=>{ const text = new Promise((resolve, reject)=>{ resolve(page.evaluate(() => list.querySelector(".icLarge").textContent)); }); result.push(text); })

のresolveは
resolve(result.push(list.innerText))
にすべきでした。

投稿2021/08/17 11:28

hokosugi

総合スコア63

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問