wikipediaの映画一覧(https://ja.wikipedia.org/wiki/Category:2016%E5%B9%B4%E3%81%AE%E6%98%A0%E7%94%BB)のページから、各映画のURLを
jQueryで取得しようとしています。
javascript
1 $("ul").children("li").children("a").each(function (idx) { 2 console.log("リンク:" + $(this).attr('href')); 3 });
環境は、node.jsのスクレイピングモジュール cheerio-httpcliを使っています
このような書き方で、全て取得できたのですが、
2016年の日本公開映画
2016年の映画
第73回ヴェネツィア国際映画祭
第69回カンヌ国際映画祭
第11回札幌国際短編映画祭
第29回東京国際映画祭
第41回トロント国際映画祭
2016年日本週末興行成績1位の映画の一覧
と言った、米印の映画ではないページを除きたいです。
**上記の写真ののように、<h3>*</h3>が含まれたdivを除いた〜と書く場合はどのようにしたら良いかご教授ください。
もしよろしければ、children().children().みたいな書き方より美しい書き方がありましたら、それも教えてください。
回答4件
あなたの回答
tips
プレビュー