現在テキスト分類器を作成しており、その際に疑問に思ったことについて質問したいと思います。
取得した文書を単語ごとにパースする際に、「var」「function」などのワードが多数含まれていることに気が付きました。この原因は、scriptタグの中身もパースためでした。
ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。

このことから、scriptタグとstyleタグを除去してスクレイピングしたのですが、まだ「var」や「function」が多く含まれていました。単に文書中に出現しているだけなのかもしれませんが、他にもこのタグは除去したほうが良いというものはありますでしょうか？
スクレイピングする際には、bodyの中身だけを見ています。

補足:

ruby + nokogiriでスクレイピングしています。
用途としては、ナイーブベイズを使ったテキスト分類で使用するために、文書に出現する単語を取得しています。

doc.inner_text でタグ内のテキストのみを取得して処理をしています。

ruby
1require 'nokogiri'
2require 'open-uri'
3
4html <<-EOS
5<html>
6<body>
7  <div class='title'>
8    <p><h1>Hello</h1> World</p>
9  </div>
10</body>
11</html>
12EOS
13doc = Nokogiri::HTML(open(url).read)
14doc.css('body').search('script').remove
15doc.search('style').remove
16body = doc.inner_text
17puts body # Hello World
18...

行動規範の内容に同意します

回答1件

ベストアンサー

サイトのつくり方は人それぞれであり、
Webスクレイピングするのであれば、
マークアップ言語の知識がないとスムーズに開発できないと思います。

スクレイピング対象やアルゴリズムが不明なので、なんともいえませんが、
取得したDOMのdivタグに
<input type="button" onClick="var hoge=1; alert(hoge)">
みたいに書く人もいると思います。
その場合、
onClick内の文字列を取得しているのであれば、
varやfunctionを拾うのではないでしょうか。

追記

Ruby
1require 'open-uri'
2require 'nokogiri'
3
4
5def scrape url
6  doc = Nokogiri::HTML.parse(open(url, &:read))
7
8  doc.css('body').search('script, style').remove
9  doc.css('body').text
10end
11
12p scrape('http://www.yahoo.co.jp/')