回答編集履歴

タグが１つであることを前提としている旨を追記

2015/02/24 13:59

投稿

riocampos

スコア241

answer CHANGED Viewed

@@ -19,6 +19,7 @@
 ---
 nokogiri でのパース方法を追記します。
+タグが一つだけであることを前提としています（修正すれば複数タグでも扱えますので、必要があればやってみてください）。
 ```lang-ruby
 ng_words = %w[ngword-1 ngword-2]

nokogiri でのパース方法を追記

2015/02/24 13:59

投稿

riocampos

スコア241

answer CHANGED Viewed

@@ -15,4 +15,24 @@
 結論としては「書けますが面倒」です。 nokogiri などの HTML/XML パーサを使ってください。
 もちろん、前提条件がお示しのタグぐらい統一されていて簡略であれば簡単ですけどね。
-（もしも、対象となるタグの前提条件が明確になっているならば、それに合わせた程度で書くこともできますので、ご連絡ください。ただし、結果として正規表現が面倒になりそうであれば、その旨ご返答します。）
+（もしも、対象となるタグの前提条件が明確になっているならば、それに合わせた程度で書くこともできますので、ご連絡ください。ただし、結果として正規表現が面倒になりそうであれば、その旨ご返答します。）
+---
+nokogiri でのパース方法を追記します。
+```lang-ruby
+ng_words = %w[ngword-1 ngword-2]
+str = %[<div class="XXX ngword-1 ngword-2"></div>]
+elem = Nokogiri::HTML.parse(str).xpath('/html/body/*').first
+classes = elem[:class].split
+classes -= ng_words
+elem[:class] = classes.join(" ")
+tag = elem.to_html
+puts tag #=> <div class="XXX"></div>
+```
+NG ワードは配列に入れておきます。
+タグは `Nokogiri::HTML.parse` すると html タグと body タグにラップされるので、 `xpath('/html/body/*')` メソッドでラップを剥がして目的とするタグのみを含むインスタンス elem を抜き出します（div タグに限らず、どのようなタグでも使えるように書いています）。
+続いて class 属性値を抜き出して文字列そして配列にし、 NG ワードを取り除いてから文字列に戻し、再度 class 属性値に設定しています。
+あとは `to_html` メソッドで戻せばいいだけです。