### 実現したいこと - [ ] grepコマンドでタグに囲まれていない「こちら」という文言を抽出する ### 前提「こちら」で抽出した後にaタグを除外してあげれば大まかには抽出できます。 ```bash grep こちら | grep -v ' こちらをクリックしてください ```

HTMLパーサーを使わないでやるとすると、まずaタグとその中味を削除するのでしょうか。 `-z`でファイル全体を1行と見なすようにしているので、メモリーに乗り切らない巨大なファイルだと駄目でしょうね。 ` `だけでなく、例に挙げられている` `みたいなタグもあり得るとして、 ```sh sed -z -r 's: ].*? ::g' input.html | grep こちら ``` yambejpさんの挙げられているようなaタグのネストまで想定すると、正規表現では難しいかと。「部分式呼び出し」機能のある正規表現だと、ネストも対応できそうですが。 https://docs.ruby-lang.org/ja/latest/doc/spec=2fregexp.html#subexp

grepコマンドで<a>タグに囲まれていない「こちら」という文言を抽出する正規表現

実現したいこと

grepコマンドで<a>タグに囲まれていない「こちら」という文言を抽出する

前提

「こちら」で抽出した後にaタグを除外してあげれば大まかには抽出できます。

bash
1 grep こちら | grep -v '<a'

発生している問題

ただし上記方法では以下のようにaタグ開始～終了が複数行になっている場合に、
Aタグに囲まれていない箇所として抽出してしまいます。

html
1<a>
2  <img src="image.png">
3  <div>こちらをクリックしてください</div>
4</a>

行動規範の内容に同意します

回答2件

入れ子を前提とした文書構造の場合正規表現は有効な手段ではありません
なにをしようとしているかわかりかねますが別の手段を模索されたほうがよいでしょう

たとえば実際のHTMLではありえませんがこんな場合だって想定しないといけません

HTML
1<a>
2<a></a>
3<a></a>
4<a></a>
5</a>
6こちら
7<a></a>

投稿2023/06/20 04:08

編集2023/06/20 04:11

yambejp

総合スコア118398

maisumakun

2023/06/20 05:59

> たとえば実際のHTMLではありえませんがこんな場合だって想定しないといけません幸い、<a>タグのネストは禁止されていますので、そこを気にする必要性は高くありません（invalidなHTMLとも格闘したい、というなら別ですが）。 https://html.spec.whatwg.org/#the-a-element

yambejp

2023/06/20 06:29

> そこを気にする必要性は高くありません aタグならその通りなのですが、質問の傾向を見る限り他のタグも想定しているように感じた次第です。HTMLを文字列として扱う限り入れ子問題は避けて通れないので。また、HTML5から必須ではなくなったようですがhref属性のないaタグを例示されている時点でちょっと仕様がぶれているように見えますし。

行動規範の内容に同意します

ベストアンサー

HTMLパーサーを使わないでやるとすると、まずaタグとその中味を削除するのでしょうか。
-zでファイル全体を1行と見なすようにしているので、メモリーに乗り切らない巨大なファイルだと駄目でしょうね。
<a ～～>だけでなく、例に挙げられている<a>みたいなタグもあり得るとして、

sh
1sed -z -r 's:<a[ >].*?</a>::g' input.html |
2grep こちら

yambejpさんの挙げられているようなaタグのネストまで想定すると、正規表現では難しいかと。
「部分式呼び出し」機能のある正規表現だと、ネストも対応できそうですが。
https://docs.ruby-lang.org/ja/latest/doc/spec=2fregexp.html#subexp

投稿2023/06/20 04:38