質問編集履歴

3

補足の追加

2017/01/27 04:17

投稿

uramot
uramot

スコア20

test CHANGED
File without changes
test CHANGED
@@ -17,6 +17,10 @@
17
17
 
18
18
 
19
19
  ruby + nokogiriでスクレイピングしています。
20
+
21
+ 用途としては、ナイーブベイズを使ったテキスト分類で使用するために、文書に出現する単語を取得しています。
22
+
23
+
20
24
 
21
25
  `doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
22
26
 

2

補足の追加

2017/01/27 04:17

投稿

uramot
uramot

スコア20

test CHANGED
File without changes
test CHANGED
@@ -9,3 +9,55 @@
9
9
  このことから、scriptタグとstyleタグを除去してスクレイピングしたのですが、まだ「var」や「function」が多く含まれていました。単に文書中に出現しているだけなのかもしれませんが、他にもこのタグは除去したほうが良いというものはありますでしょうか?
10
10
 
11
11
  スクレイピングする際には、bodyの中身だけを見ています。
12
+
13
+
14
+
15
+ 補足:
16
+
17
+
18
+
19
+ ruby + nokogiriでスクレイピングしています。
20
+
21
+ `doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
22
+
23
+
24
+
25
+ ```ruby
26
+
27
+ require 'nokogiri'
28
+
29
+ require 'open-uri'
30
+
31
+
32
+
33
+ html <<-EOS
34
+
35
+ <html>
36
+
37
+ <body>
38
+
39
+ <div class='title'>
40
+
41
+ <p><h1>Hello</h1> World</p>
42
+
43
+ </div>
44
+
45
+ </body>
46
+
47
+ </html>
48
+
49
+ EOS
50
+
51
+ doc = Nokogiri::HTML(open(url).read)
52
+
53
+ doc.css('body').search('script').remove
54
+
55
+ doc.search('style').remove
56
+
57
+ body = doc.inner_text
58
+
59
+ puts body # Hello World
60
+
61
+ ...
62
+
63
+ ```

1

タグの追加

2017/01/27 04:08

投稿

uramot
uramot

スコア20

test CHANGED
File without changes
test CHANGED
File without changes