質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
bash

bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

sed

sedとは、POSIX環境のために作られたコマンドラインエディタです。sedは編集スクリプトの指示のもとに複数のファイルを編集し、標準出力にその結果を出力します。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

4回答

4185閲覧

html内で正規表現にて抽出・置換を行う。

seel

総合スコア25

bash

bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

sed

sedとは、POSIX環境のために作られたコマンドラインエディタです。sedは編集スクリプトの指示のもとに複数のファイルを編集し、標準出力にその結果を出力します。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

1グッド

0クリップ

投稿2016/08/31 19:52

編集2016/08/31 20:47

既存のhtmlファイルから
タイトルタグ内の文字列である 文字列A を抽出して
それをh1タグとして置換するにはどうしたらいいでしょうか。

bashのsedでワンライナーが理想ですが
シェルスプリクトでもphpでもokです。

初歩的なことなのかもしれませんが
どなたか教えてください。


わかっていること(文章での理解)

1.文字列Aを抽出。
2.改行して<h1></h1>を設置
3.<h1></h1>内に文字列Aを挿入。

bash

1sed 's|<title>文字列A</title>|<title>文字列A</title>\n<h1>文字列A</h1>|g' 2

わかっていないこと

任意の文字列である文字列Aの正規表現。
抽出した文字列Aを格納し置換時に呼び出す表現。

html

1Before.html 2 3<html> 4<title>文字列A</title> 5</html> 6

html

1after.html 2 3<html> 4<title>文字列A</title> ;文字列Aを抽出 5<h1>文字列A</h1> ;h1タグを追加して文字列Aを置換 6</html>

以上です。
よろしくお願い致します。

mpyw👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

PHPを使えるなら、以下のparserを利用すれば、TITLEタグだけじゃなく、どんなタグにも対応可能です。
PHP Simple HTML DOM Parser Manual

投稿2016/09/01 03:09

JinwonKim

総合スコア312

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

こんな感じでどうでしょう?

PHP

1$html=<<<eof 2<html> 3<test> 4<title>文字列A</title> 5<test> 6</html> 7 8eof; 9$pattern="/<(title)>(.*?)<\/\\1>/i"; 10if(preg_match($pattern,$html,$m)){ 11 $html=str_replace($m[0],$m[0].PHP_EOL."<h1>".$m[2]."</h1>",$html); 12} 13print nl2br(htmlspecialchars($html)); 14

#修正
preg_replace()で十分でした

php

1$html=<<<eof 2<html> 3<test> 4<title>文字列A</title> 5<test> 6</html> 7 8eof; 9$pattern="/<(title)>(.*?)<\/\\1>/i"; 10$replacement="\\0".PHP_EOL."<h1>\\2</h1>"; 11$html=preg_replace($pattern,$replacement,$html); 12print nl2br(htmlspecialchars($html));

投稿2016/09/01 00:38

編集2016/09/01 02:02
yambejp

総合スコア114747

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

概要

移植性ならsedよりもperlの方が上で,しかも非常に高機能なので私はこれをおすすめしておきます.

何通りか書いておきます.

bash

1perl -0pe 's/<title>(.*?)<\/title>\K/\n<h1>$1<\/h1>/s' < before.html > after.html

bash

1perl -0pe 's/<title>([^<]*)<\/title>\K/\n<h1>$1<\/h1>/' < before.html > after.html

bash

1perl -0pe 's/<title>([^<]*+)<\/title>\K/\n<h1>$1<\/h1>/' < before.html > after.html

解説

-0オプション: 行単位ではなくEOFがくるまでの入力全体に一気にマッチさせる
-pオプション: 結果をprintする
-eオプション: 引数をコードとして評価

\K言明:
サブパターンは保持しつつ,マッチング開始位置をそこにリセットする.
これを末尾に持ってくると**「マッチした場所に挿入」**という処理が無駄な置換をすることなく実現できる.

(.*?):
任意の文字の0回以上の繰り返しに対する最短マッチ.
sフラグを入れないと改行文字が対象にならない点に注意してください.
1文字マッチさせるごとに「後ろに</title>があるか?」をチェックするのであまり効率は良くないです.

[^<]*:
<以外の0回以上の繰り返しに対する最長マッチ.
文字種を限定することで最長マッチに安心してかけられます.
ただしこれはまだ不必要にバックトラッキングを起こす可能性があります.
(Perlの正規表現エンジンはかなり賢いので最適化でうまいことやってくれる可能性もあります)

[^<]*+:
<以外の0回以上の繰り返しに対する最長マッチ.
文字種を限定することで最長マッチに安心してかけられます.
こちらはバックトラッキングの抑制を明示しており,無駄が全く無いことが保証されます.

また普通はあり得ませんが,もし<title></title>が複数回現れる場合はgフラグを有効にすることで対処します.

投稿2016/08/31 22:59

編集2016/09/01 02:39
mpyw

総合スコア5223

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mpyw

2016/08/31 23:15

無駄がどうこうあるといえども,HTMLが少量であれば人間で確認できる時間差は現れないので,見やすいものを採用してもらって構いません(適当)
mpyw

2016/09/01 02:46

ちなみに今回使ったPerl正規表現に特徴的な機能は,PHPが持つPCRE正規表現でも全く同じように使えます. php -r 'echo preg_replace(     "@<title>([^<]*+)</title>\K@",     "\n<h1>$1</h1>",     stream_get_contents(STDIN) );' < before.html > after.html
mpyw

2016/09/01 07:02

Simple HTML DOM Parser が紹介されていますが,これは全てがユーザランドの実装であり,それらは正規表現を使いまくっているので効率があまり良くないです.この程度ならネイティブDOMで十分だと思います. http://qiita.com/mpyw/items/c0312271819baee09132
seel

2016/09/03 16:14

詳しくわかりやすく教えていただき、ありがとうございました。
guest

0

こんな感じでどうでしょう?

bash

1$ cat Before.html 2<html> 3<title>文字列A</title> 4</html> 5$ 6$ sed 's|<title>\([^<]*\)</title>|\0\n<h1>\1</h1>|' Before.html >after.html 7$ 8$ cat after.html 9<html> 10<title>文字列A</title> 11<h1>文字列A</h1> 12</html> 13$

ポイントは以下の3点
0. \([^<]*\) は、次のタグが開始する「<」以外の全ての文字列にマッチし、後方参照可能にする
0. \1 は、上記でマッチした文字列を後方参照する
0. \0 は、一致した文字列全体を表す(つまり「<title>文字列A</title>」)

投稿2016/08/31 22:33

pi-chan

総合スコア5936

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

seel

2016/09/03 16:15

アスタリスクの使い方や後方参照など大変勉強になりました。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問