html内で正規表現にて抽出・置換を行う。

Question

既存のhtmlファイルからタイトルタグ内の文字列である文字列Ａを抽出してそれをｈ1タグとして置換するにはどうしたらいいでしょうか。 bashのsedでワンライナーが理想ですがシェルスプリクトでもphpでもokです。初歩的なことなのかもしれませんがどなたか教えてください。 --- わかっていること（文章での理解） 1.文字列Ａを抽出。 2.改行して

を設置 3.

内に文字列Ａを挿入。 ```bash sed 's|文字列Ａ|文字列Ａ

文字列Ａ

|g' ``` わかっていないこと任意の文字列である文字列Ａの正規表現。抽出した文字列Ａを格納し置換時に呼び出す表現。 ```html Before.html 文字列Ａ ``` ```html after.html 文字列Ａ ;文字列Ａを抽出

文字列Ａ

;ｈ1タグを追加して文字列Ａを置換 ``` 以上です。よろしくお願い致します。

Accepted Answer

# 概要移植性なら`sed`よりも`perl`の方が上で，しかも非常に高機能なので私はこれをおすすめしておきます． - [環境に依存しないワンライナーを書くならsedよりperlの方がいい - Qiita](http://qiita.com/takc923/items/8654d69008e921c9c9fb) 何通りか書いておきます． ```bash perl -0pe 's/(.*?)\K/

$1

/s' < before.html > after.html ``` ```bash perl -0pe 's/([^<]*)\K/

$1

/' < before.html > after.html ``` ```bash perl -0pe 's/([^<]*+)\K/

$1

/' < before.html > after.html ``` # 解説 `-0`オプション: 行単位ではなくEOFがくるまでの入力全体に一気にマッチさせる `-p`オプション: 結果を`print`する `-e`オプション: 引数をコードとして評価 `\K`言明: **サブパターンは保持しつつ**，マッチング開始位置をそこにリセットする．これを末尾に持ってくると**「マッチした場所に挿入」**という処理が無駄な置換をすることなく実現できる． `(.*?)`: 任意の文字の0回以上の繰り返しに対する最短マッチ． `s`フラグを入れないと改行文字が対象にならない点に注意してください． 1文字マッチさせるごとに「後ろに``があるか？」をチェックするのであまり効率は良くないです． `[^<]*`: `<`以外の0回以上の繰り返しに対する**最長**マッチ．文字種を限定することで最長マッチに安心してかけられます．ただしこれはまだ不必要にバックトラッキングを起こす可能性があります． (Perlの正規表現エンジンはかなり賢いので最適化でうまいことやってくれる可能性もあります) `[^<]*+`: `<`以外の0回以上の繰り返しに対する**最長**マッチ．文字種を限定することで最長マッチに安心してかけられます．こちらは**バックトラッキングの抑制**を明示しており，無駄が全く無いことが保証されます．また普通はあり得ませんが，もし``が複数回現れる場合は`g`フラグを有効にすることで対処します．

Answer

PHPを使えるなら、以下のparserを利用すれば、TITLEタグだけじゃなく、どんなタグにも対応可能です。
[PHP Simple HTML DOM Parser Manual](http://simplehtmldom.sourceforge.net/manual.htm)

Answer

こんな感じでどうでしょう？ ```PHP $html=<< 文字列Ａ eof; $pattern="/<(title)>(.*?)/i"; if(preg_match($pattern,$html,$m)){ $html=str_replace($m[0],$m[0].PHP_EOL."

".$m[2]."

",$html); } print nl2br(htmlspecialchars($html)); ``` #修正 preg_replace()で十分でした ```php $html=<< 文字列Ａ eof; $pattern="/<(title)>(.*?)/i"; $replacement="\0".PHP_EOL."

\2

"; $html=preg_replace($pattern,$replacement,$html); print nl2br(htmlspecialchars($html)); ```

Answer

こんな感じでどうでしょう？ ```bash $ cat Before.html 文字列Ａ $ $ sed 's|$[^<]*$|\0\n

\1

|' Before.html >after.html $ $ cat after.html 文字列Ａ

文字列Ａ

$ ``` ポイントは以下の３点 0. `$[^<]*$` は、次のタグが開始する「<」以外の全ての文字列にマッチし、後方参照可能にする 0. `\1` は、上記でマッチした文字列を後方参照する 0. `\0` は、一致した文字列全体を表す（つまり「文字列Ａ」）

概要

解説

関連した質問