前提・実現したいこと
puppeteerでスクレイピングをしてるのですが、本文が一部欠落する現象に遭遇しています。
完全な本文を抽出するにはどうしたらよいでしょうか?
該当のソースコード
javascript
1const puppeteer = require('puppeteer') 2 3class Crawler { 4 5 constructor() { 6 this.main = async f => { 7 if(this.browser === undefined || this.browser === null) { 8 this.browser = await puppeteer.launch({args: ['--disable-gpu', '--disable-setuid-sandbox', '--no-sandbox']}) 9 } 10 if(this.page === undefined || this.page === null) { 11 this.page = await this.browser.newPage() 12 } 13 const r = await f(this.browser) 14 return r 15 } 16 } 17 18 close() { 19 (async () => await this.browser.close())() 20 } 21 22 // url:string 23 // set rss link, like 'https://somepage.com' 24 get_rss_list(url) { 25 const get_rss = async browser => { 26 await this.page.goto(url) 27 const handle = await this.page.$$('rss>channel>item') 28 const r = [] 29 for(let i = 0; i < handle.length; ++i) { 30 const hlink = await handle[i].$('link') 31 const htitle = await handle[i].$('title') 32 const link = await this.page.evaluate(a=>a.innerHTML, hlink) 33 const title = await this.page.evaluate(a=>a.innerHTML, htitle) 34 r.push({'title':title, 'link':link}) 35 await hlink.dispose() 36 await htitle.dispose() 37 await handle[i].dispose() 38 } 39 return r 40 } 41 return this.main(get_rss) 42 } 43 44 // link: {'link': 'https://hoge.net'. 'role': 'foo>bar'} 45 get_article(link) { 46 const op = async browser => { 47 await this.page.goto(link['link']) 48 for(let i = 0; i < link['roles'].length; ++i) { 49 const handle = await this.page.$(link['roles'][i]['role']) 50 if(handle === null) continue 51 const html = await this.page.evaluate(a=>a.textContent, handle) 52 await handle.dispose() 53 return html 54 } 55 return null 56 } 57 return this.main(op) 58 } 59} 60 61(async () => { 62 try { 63 let c = new Crawler(); 64 const a = await c.get_rss_list('https://headlines.yahoo.co.jp/rss/it_nlab-c_sci.xml') 65 for(let i = 0; i < a.length; ++i) { 66 const h = {'roles': [{'role': '.hbody'}, {'role': '.ynDetailText'}], 'link': a[i]['link']} 67 const html = await c.get_article(h); 68 console.log(html) 69 } 70 await c.close() 71 } catch(err) { 72 console.error(err) 73 } 74})();
実行結果
$ node index.js
スマートフォン用ゲーム「クラ
・・・(中略)・・・
今回が初めてではなく、今月4日には同じく
↑ここで終わってしまう。実際の本文は
"今回が初めてではなく、今月4日には同じくスーパーセルが運営する「クラ・・・"
と先があるけど、取得できなかった。
補足情報(FW/ツールのバージョンなど)
$ cat package.json { "dependencies": { "puppeteer": "^1.0.0" } }
$ node --version v8.9.4
$ uname -a Linux instance-1 4.9.0-5-amd64 #1 SMP Debian 4.9.65-3+deb9u2 (2018-01-04) x86_64 GNU/Linux
あなたの回答
tips
プレビュー