質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

Q&A

0回答

497閲覧

puppeteerを用いたスクレイピングで取得した本文が部分的に欠落してしまう

gengen000

総合スコア6

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

0グッド

0クリップ

投稿2018/01/25 02:21

前提・実現したいこと

puppeteerでスクレイピングをしてるのですが、本文が一部欠落する現象に遭遇しています。
完全な本文を抽出するにはどうしたらよいでしょうか?

該当のソースコード

javascript

1const puppeteer = require('puppeteer') 2 3class Crawler { 4 5 constructor() { 6 this.main = async f => { 7 if(this.browser === undefined || this.browser === null) { 8 this.browser = await puppeteer.launch({args: ['--disable-gpu', '--disable-setuid-sandbox', '--no-sandbox']}) 9 } 10 if(this.page === undefined || this.page === null) { 11 this.page = await this.browser.newPage() 12 } 13 const r = await f(this.browser) 14 return r 15 } 16 } 17 18 close() { 19 (async () => await this.browser.close())() 20 } 21 22 // url:string 23 // set rss link, like 'https://somepage.com' 24 get_rss_list(url) { 25 const get_rss = async browser => { 26 await this.page.goto(url) 27 const handle = await this.page.$$('rss>channel>item') 28 const r = [] 29 for(let i = 0; i < handle.length; ++i) { 30 const hlink = await handle[i].$('link') 31 const htitle = await handle[i].$('title') 32 const link = await this.page.evaluate(a=>a.innerHTML, hlink) 33 const title = await this.page.evaluate(a=>a.innerHTML, htitle) 34 r.push({'title':title, 'link':link}) 35 await hlink.dispose() 36 await htitle.dispose() 37 await handle[i].dispose() 38 } 39 return r 40 } 41 return this.main(get_rss) 42 } 43 44 // link: {'link': 'https://hoge.net'. 'role': 'foo>bar'} 45 get_article(link) { 46 const op = async browser => { 47 await this.page.goto(link['link']) 48 for(let i = 0; i < link['roles'].length; ++i) { 49 const handle = await this.page.$(link['roles'][i]['role']) 50 if(handle === null) continue 51 const html = await this.page.evaluate(a=>a.textContent, handle) 52 await handle.dispose() 53 return html 54 } 55 return null 56 } 57 return this.main(op) 58 } 59} 60 61(async () => { 62 try { 63 let c = new Crawler(); 64 const a = await c.get_rss_list('https://headlines.yahoo.co.jp/rss/it_nlab-c_sci.xml') 65 for(let i = 0; i < a.length; ++i) { 66 const h = {'roles': [{'role': '.hbody'}, {'role': '.ynDetailText'}], 'link': a[i]['link']} 67 const html = await c.get_article(h); 68 console.log(html) 69 } 70 await c.close() 71 } catch(err) { 72 console.error(err) 73 } 74})();

実行結果

$ node index.js

 スマートフォン用ゲーム「クラ
・・・(中略)・・・
今回が初めてではなく、今月4日には同じく


↑ここで終わってしまう。実際の本文は

"今回が初めてではなく、今月4日には同じくスーパーセルが運営する「クラ・・・"
と先があるけど、取得できなかった。

補足情報(FW/ツールのバージョンなど)

$ cat package.json { "dependencies": { "puppeteer": "^1.0.0" } }
$ node --version v8.9.4
$ uname -a Linux instance-1 4.9.0-5-amd64 #1 SMP Debian 4.9.65-3+deb9u2 (2018-01-04) x86_64 GNU/Linux

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問