質問編集履歴
3
補足の追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -17,6 +17,10 @@
|
|
17
17
|
|
18
18
|
|
19
19
|
ruby + nokogiriでスクレイピングしています。
|
20
|
+
|
21
|
+
用途としては、ナイーブベイズを使ったテキスト分類で使用するために、文書に出現する単語を取得しています。
|
22
|
+
|
23
|
+
|
20
24
|
|
21
25
|
`doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
|
22
26
|
|
2
補足の追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -9,3 +9,55 @@
|
|
9
9
|
このことから、scriptタグとstyleタグを除去してスクレイピングしたのですが、まだ「var」や「function」が多く含まれていました。単に文書中に出現しているだけなのかもしれませんが、他にもこのタグは除去したほうが良いというものはありますでしょうか?
|
10
10
|
|
11
11
|
スクレイピングする際には、bodyの中身だけを見ています。
|
12
|
+
|
13
|
+
|
14
|
+
|
15
|
+
補足:
|
16
|
+
|
17
|
+
|
18
|
+
|
19
|
+
ruby + nokogiriでスクレイピングしています。
|
20
|
+
|
21
|
+
`doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
|
22
|
+
|
23
|
+
|
24
|
+
|
25
|
+
```ruby
|
26
|
+
|
27
|
+
require 'nokogiri'
|
28
|
+
|
29
|
+
require 'open-uri'
|
30
|
+
|
31
|
+
|
32
|
+
|
33
|
+
html <<-EOS
|
34
|
+
|
35
|
+
<html>
|
36
|
+
|
37
|
+
<body>
|
38
|
+
|
39
|
+
<div class='title'>
|
40
|
+
|
41
|
+
<p><h1>Hello</h1> World</p>
|
42
|
+
|
43
|
+
</div>
|
44
|
+
|
45
|
+
</body>
|
46
|
+
|
47
|
+
</html>
|
48
|
+
|
49
|
+
EOS
|
50
|
+
|
51
|
+
doc = Nokogiri::HTML(open(url).read)
|
52
|
+
|
53
|
+
doc.css('body').search('script').remove
|
54
|
+
|
55
|
+
doc.search('style').remove
|
56
|
+
|
57
|
+
body = doc.inner_text
|
58
|
+
|
59
|
+
puts body # Hello World
|
60
|
+
|
61
|
+
...
|
62
|
+
|
63
|
+
```
|
1
タグの追加
test
CHANGED
File without changes
|
test
CHANGED
File without changes
|