teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

3

補足の追加

2017/01/27 04:17

投稿

uramot
uramot

スコア20

title CHANGED
File without changes
body CHANGED
@@ -8,6 +8,8 @@
8
8
  補足:
9
9
 
10
10
  ruby + nokogiriでスクレイピングしています。
11
+ 用途としては、ナイーブベイズを使ったテキスト分類で使用するために、文書に出現する単語を取得しています。
12
+
11
13
  `doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
12
14
 
13
15
  ```ruby

2

補足の追加

2017/01/27 04:17

投稿

uramot
uramot

スコア20

title CHANGED
File without changes
body CHANGED
@@ -3,4 +3,30 @@
3
3
  ほかにも、「ffffcc」などのstyleタグの中身も含まれていました。
4
4
 
5
5
  このことから、scriptタグとstyleタグを除去してスクレイピングしたのですが、まだ「var」や「function」が多く含まれていました。単に文書中に出現しているだけなのかもしれませんが、他にもこのタグは除去したほうが良いというものはありますでしょうか?
6
- スクレイピングする際には、bodyの中身だけを見ています。
6
+ スクレイピングする際には、bodyの中身だけを見ています。
7
+
8
+ 補足:
9
+
10
+ ruby + nokogiriでスクレイピングしています。
11
+ `doc.inner_text` でタグ内のテキストのみを取得して処理をしています。
12
+
13
+ ```ruby
14
+ require 'nokogiri'
15
+ require 'open-uri'
16
+
17
+ html <<-EOS
18
+ <html>
19
+ <body>
20
+ <div class='title'>
21
+ <p><h1>Hello</h1> World</p>
22
+ </div>
23
+ </body>
24
+ </html>
25
+ EOS
26
+ doc = Nokogiri::HTML(open(url).read)
27
+ doc.css('body').search('script').remove
28
+ doc.search('style').remove
29
+ body = doc.inner_text
30
+ puts body # Hello World
31
+ ...
32
+ ```

1

タグの追加

2017/01/27 04:08

投稿

uramot
uramot

スコア20

title CHANGED
File without changes
body CHANGED
File without changes