質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

Q&A

解決済

3回答

3552閲覧

xmlの<link>タグからurlの値を取得できない(cheerio-httpcli)

twipg

総合スコア30

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

0グッド

2クリップ

投稿2015/12/05 06:12

編集2015/12/05 06:16

YahooニュースのRSSからスクレイピングしたところ、
linkタグの値が取得できません。

http://news.yahoo.co.jp/pickup/rss.xml

xml

1. 2. 3. 4<item> 5 <title> 6 11月5日「世界津波の日」に 7 </title> 8 <link> 9 http://news.yahoo.co.jp/pickup/6183122 10 </link> 11 <pubdate> 12 Sat, 05 Dec 2015 13:51:53 +0900 13 </pubdate> 14 <enclosure length="133" url="http://i.yimg.jp/images/icon/photo.gif" type="image/gif"> 15 </enclosure> 16 <guid ispermalink="false"> 17 yahoo/news/topics/6183122 18 </guid> 19</item> 20. 21. 22.

Node.jsのcheerio-httpcliを使用しています。

var RSS_URL = "http://news.yahoo.co.jp/pickup/rss.xml"; var client = require('cheerio-httpcli'); client.fetch(RSS_URL, {}, function(err, $, res, body){ if(err){console.log("error"); return; } console.log('<< Yahoo! topics >>') $("item").each(function(idx, item){ var title = $(this).children("title").text(); var date = $(this).children("pubdate").text(); var date2 = date.substr(0, 22); var link = $(this).children("link").text(); console.log(title + " / " + date2); console.log(link); }); });

結果

% node scrape-yahoo-topics.js [14:55:02] << Yahoo! topics >> 骨董市に車突っ込む 6人けが / Sat, 05 Dec 2015 14:01 11月5日「世界津波の日」に / Sat, 05 Dec 2015 13:51 レジでの預金引き出し 開始へ / Sat, 05 Dec 2015 11:23 魚の体脂肪計 漁業関係が注目 / Sat, 05 Dec 2015 14:39 PM2.5飛散も 衛星画像で閲覧 / Sat, 05 Dec 2015 13:51 墜落で恋人失った元力士結婚 / Sat, 05 Dec 2015 12:46 朝ドラ好調の波瑠 時間ほしい / Sat, 05 Dec 2015 14:12 μ’s解散? 流出動画が波紋 / Sat, 05 Dec 2015 11:32

このようにlinkの値のところが空白で改行されてしまいます。

どうすれば、<link>タグのURLが取得できますでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

投稿2017/01/04 13:42

MasaGon

総合スコア14

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

おそらくcheerioのオプションを渡せれば解決できるのではないかと思うので、本家にIssueを残しておきました。
https://github.com/ktty1220/cheerio-httpcli/issues/16

投稿2016/12/24 08:02

編集2016/12/24 08:04
MasaGon

総合スコア14

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

cheerio-httpcli についてはよく知らないのですが
参考までにこういう形式だと取ってこれたので報告です

var link = $(this).children("link")[0].next.data; // 改行取り除く // var link = $(this).children("link")[0].next.data.replace("\n", '') // 別の参照方法 // var link = $(this)[0].children[4].data;

xss の parse のされ方が合っていないのかわかりませんが
dump

$(this).children() だと type: 'tag' であるオブジェクトのみ取ってきていて
url が dataとして含まれる要素の type は 'text' になっていました

投稿2015/12/05 09:54

anozon

総合スコア662

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

twipg

2015/12/05 11:13

改行取り除くバージョンまでありがとうございます。 まさに求めていた回答です。助かりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問