現在テキスト分類器を作成しており、その際に疑問に思ったことについて質問したいと思います。
取得した文書を単語ごとにパースする際に、「var」「function」などのワードが多数含まれていることに気が付きました。この原因は、scriptタグの中身もパースためでした。
ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。
このことから、scriptタグとstyleタグを除去してスクレイピングしたのですが、まだ「var」や「function」が多く含まれていました。単に文書中に出現しているだけなのかもしれませんが、他にもこのタグは除去したほうが良いというものはありますでしょうか?
スクレイピングする際には、bodyの中身だけを見ています。
補足:
ruby + nokogiriでスクレイピングしています。
用途としては、ナイーブベイズを使ったテキスト分類で使用するために、文書に出現する単語を取得しています。
doc.inner_text
でタグ内のテキストのみを取得して処理をしています。
ruby
1require 'nokogiri' 2require 'open-uri' 3 4html <<-EOS 5<html> 6<body> 7 <div class='title'> 8 <p><h1>Hello</h1> World</p> 9 </div> 10</body> 11</html> 12EOS 13doc = Nokogiri::HTML(open(url).read) 14doc.css('body').search('script').remove 15doc.search('style').remove 16body = doc.inner_text 17puts body # Hello World 18...
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/01/27 07:32 編集
2017/01/27 07:29
2017/01/27 07:34
2017/01/27 07:36 編集
2017/01/27 07:40