rubyでhtmlのタグ内にあるclassの文字列を削除する方法を教えてください

Question

Rubyを用いてhtmlのタグが書かれている文書を整形するとき、タグのclass名にNGワードが入っていたらそれを削除する機能をつけたいのですが、どういう正規表現で削除すればいいのかわかりませんでした。文書には以下のようなタグが含まれているとします。 ```lang-html

``` この文書を ```lang-html

``` のようにngword-1とngword-2を削除したいと思っています。正規表現でやればよいと考えてはいますが、もしそれ以外の方法で可能であればそれを教えていただけると幸いです。またNGワードの削除が目的なので、最悪スペースが残っていてもかまいません。よろしくお願いします。

Accepted Answer

正規表現で手を付けようとしましたが、諦めました。非常に面倒だからです。正規表現を作る方針をこのページの HTML を例にしてみます。このようなタグがありました。 ```lang-HTML ``` というタグがありました。正規表現を作る方針ですが、「タグ内の class 属性内の NG ワードを削除する」ので、まずタグを見つける正規表現を作ります。そしてその中で class 属性を見つけます。さらに class 属性の内容を抜き出します。 HTML ですから class 属性の位置はタグ内のどこでも任意に決められますのでそれまでの部分の属性名・属性値は飛ばさなきゃいけませんし、その部分には漢字を含めハイフン・コロン・セミコロン・ピリオドなどを含め色々な文字が含まれています。また class 属性の属性値を指定する文字はシングルクオートであったりダブルクオートであったりする可能性があります。そしてシングルクオートやダブルクオートがエスケープされていたりしたら、もう目も当てられません。つまり、 HTML の自由度のせいで、正規表現が非常に面倒になります。そして、場合によっては上記の例のようにタグ途中で改行されていたりすることもあります。結論としては「書けますが面倒」です。 nokogiri などの HTML/XML パーサを使ってください。もちろん、前提条件がお示しのタグぐらい統一されていて簡略であれば簡単ですけどね。（もしも、対象となるタグの前提条件が明確になっているならば、それに合わせた程度で書くこともできますので、ご連絡ください。ただし、結果として正規表現が面倒になりそうであれば、その旨ご返答します。） --- nokogiri でのパース方法を追記します。タグが一つだけであることを前提としています（修正すれば複数タグでも扱えますので、必要があればやってみてください）。 ```lang-ruby ng_words = %w[ngword-1 ngword-2] str = %[

] elem = Nokogiri::HTML.parse(str).xpath('/html/body/*').first classes = elem[:class].split classes -= ng_words elem[:class] = classes.join(" ") tag = elem.to_html puts tag #=>

``` NG ワードは配列に入れておきます。タグは `Nokogiri::HTML.parse` すると html タグと body タグにラップされるので、 `xpath('/html/body/*')` メソッドでラップを剥がして目的とするタグのみを含むインスタンス elem を抜き出します（div タグに限らず、どのようなタグでも使えるように書いています）。続いて class 属性値を抜き出して文字列そして配列にし、 NG ワードを取り除いてから文字列に戻し、再度 class 属性値に設定しています。あとは `to_html` メソッドで戻せばいいだけです。

Answer

HTMLを正規表現で処理するのは面倒ですし、イレギュラーなケースでおかしな挙動をすることも考えられます。

[Nokogiri](http://www.nokogiri.org/)のような、HTMLを処理するライブラリがありますので、そういうのを使ったほうがいいでしょう。