質問編集履歴
3
補足の追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -8,6 +8,8 @@
|
|
8
8
|
補足:
|
9
9
|
|
10
10
|
ruby + nokogiriでスクレイピングしています。
|
11
|
+
用途としては、ナイーブベイズを使ったテキスト分類で使用するために、文書に出現する単語を取得しています。
|
12
|
+
|
11
13
|
`doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
|
12
14
|
|
13
15
|
```ruby
|
2
補足の追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -3,4 +3,30 @@
|
|
3
3
|
ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。
|
4
4
|
|
5
5
|
このことから、scriptタグとstyleタグを除去してスクレイピングしたのですが、まだ「var」や「function」が多く含まれていました。単に文書中に出現しているだけなのかもしれませんが、他にもこのタグは除去したほうが良いというものはありますでしょうか?
|
6
|
-
スクレイピングする際には、bodyの中身だけを見ています。
|
6
|
+
スクレイピングする際には、bodyの中身だけを見ています。
|
7
|
+
|
8
|
+
補足:
|
9
|
+
|
10
|
+
ruby + nokogiriでスクレイピングしています。
|
11
|
+
`doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
|
12
|
+
|
13
|
+
```ruby
|
14
|
+
require 'nokogiri'
|
15
|
+
require 'open-uri'
|
16
|
+
|
17
|
+
html <<-EOS
|
18
|
+
<html>
|
19
|
+
<body>
|
20
|
+
<div class='title'>
|
21
|
+
<p><h1>Hello</h1> World</p>
|
22
|
+
</div>
|
23
|
+
</body>
|
24
|
+
</html>
|
25
|
+
EOS
|
26
|
+
doc = Nokogiri::HTML(open(url).read)
|
27
|
+
doc.css('body').search('script').remove
|
28
|
+
doc.search('style').remove
|
29
|
+
body = doc.inner_text
|
30
|
+
puts body # Hello World
|
31
|
+
...
|
32
|
+
```
|
1
タグの追加
title
CHANGED
File without changes
|
body
CHANGED
File without changes
|