質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

sed

sedとは、POSIX環境のために作られたコマンドラインエディタです。sedは編集スクリプトの指示のもとに複数のファイルを編集し、標準出力にその結果を出力します。

UNIX

UNIXとは、AT&Tのベル研究所で開発されたコンピューター用のマルチユーザー・マルチタスクのオペレーションシステム(OS)です。政府や教育機関や研究所で広範囲に採用されています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Q&A

解決済

3回答

2474閲覧

Unixコマンドsedの振る舞いがよくわからない

Len

総合スコア11

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

sed

sedとは、POSIX環境のために作られたコマンドラインエディタです。sedは編集スクリプトの指示のもとに複数のファイルを編集し、標準出力にその結果を出力します。

UNIX

UNIXとは、AT&Tのベル研究所で開発されたコンピューター用のマルチユーザー・マルチタスクのオペレーションシステム(OS)です。政府や教育機関や研究所で広範囲に採用されています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

0グッド

0クリップ

投稿2018/01/21 15:37

編集2018/01/21 15:38

###実行結果がどのようにしてdeになるのか解らない

echo abcdefgh | sed -E 's/.*(d.).*/\1/' de

特に**.***がどういう振る舞いをしているのかよくわかりません。

メタ文字として

.が任意の1文字にマッチする 例:a.c ⇨aac abc accなどにマッチ

が直前のパターンを0回以上繰り返す 例:abc ⇨ ac abc abbc abbbcなどにマッチ
()が()で囲まれたパターンをグループ化する 例:(ab)+ ⇨ ab abab abababなどにマッチ

と理解しています。

###コマンドをいろいろ変えて見た結果

echo abcddddeeefgh | sed -E 's/(d.).*/\1/' abcdd ```なんかddから後ろが消えた ```実行2 echo abcddddeeefgh | sed -E 's/(d.)/\1/' abcddddeeefgh ```すべての文字にマッチした? ```実行3 echo abcddddeeefgh | sed -E 's/.*d/ /' eeefgh ```最後のdが空白になりd以下のeeefghもでる。最後のd以前は消えた ```実行4 echo abcddddeeefgh | sed -E 's/.*/ /' ```すべての文字が空白になった

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

特に.*がどういう振る舞いをしているのかよくわかりません。

「任意の文字の0個以上の連なり」なので、どんな文字列にもマッチします。そのため

echo abcddddeeefgh | sed -E 's/.*/ /'

は、行全体(abcddddeeefgh)を1つの空白に置換します。

echo abcddddeeefgh | sed -E 's/.*d/ /'

は、dで終わる文字列(abcdddd)を1つの空白に置換します。
abcdもdで終わる文字列ですが、*は出来るだけたくさんの繰り返しにマッチするので、より長いabcddddが選ばれます。

ここまでは簡単ですが、ここからは、括弧に囲まれた部分が\1で参照する事になるので、わかりにくいかも知れません。

echo abcddddeeefgh | sed -E 's/(d.)/\1/'

は、dとその後の1文字(dd)を、それ自体(dd)に置換します。なので、元と同じです。

echo abcddddeeefgh | sed -E 's/(d.).*/\1/'

は、dで始まる文字列(ddddeeefgh)を、その先頭のdとその次の文字(dd)に置換します。

echo abcdefgh | sed -E 's/.*(d.).*/\1/'

は、dを含む文字(abcdefgh)を、dとその次の文字(de)に置換します。

どうも、「置換する」ということがまだ理解できていないようなので、
echo abcdefg | sed -E 's/de/xy/'
echo abcdefg | sed -E 's/de//'
あたりから、始めるのがいいかと思います。

投稿2018/01/21 16:04

編集2018/01/21 16:06
otn

総合スコア84553

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Len

2018/01/23 22:44

>echo abcddddeeefgh | sed -E 's/(d.)/\1/' >は、dとその後の1文字(dd)を、それ自体(dd)に置換します。 最左・最長一致の原則に従って、(de)はマッチせず、最左の3文字目からの(dd)がマッチしたんでしょうか
otn

2018/01/23 23:53

あまり、「最左・最長一致の原則」という言葉だけにとらわれるのは良くないです。 順次処理なので、文字列先頭から順に注目する点をずらしながら探していきます。 その注目する点以降の文字列が、正規表現と一致すれば、マッチ成功だし、 一致しなければ、注目する点を1つ後ろにずらして、また、正規表現との一致を調べます。 複数マッチ(グローバルマッチ)の場合は、その前のマッチ対象文字列の次の文字に注目して、処理を続けます。 このように、「マッチがどのように行われるか」を理解するのが大事です。 また、繰り返しの指定の、* や + や ? や {m,n} は、可能な限り長くマッチしますが、 処理言語(ツール)によっては、後ろに?を付けた、*? +? ?? {m,n}? は、出来るだけ短くマッチします。
guest

0

ベストアンサー

最左・最長一致の原則というのを覚えましょう。

なんかddから後ろが消えた

まず(d.)には最左の法則に従って4文字目からのddがマッチします。
次に.*は最長一致の法則に従って6文字目のdから最後までの文字がマッチします。
これを\1=ddに置き換えるので、結果として3文字まで+\1の二文字が残ることになります。

すべての文字にマッチした?

(d.)にマッチした部分を(d.)にマッチした部分で置き換えるというのですから、結果として何も変わりません。

最後のdが空白になりd以下のeeefghもでる。最後のd以前は消えた

最長一致の法則にしたがい.*dはabcdddにマッチします。次にdが続く.*としてはそれが最長になります。

すべての文字が空白になった

最長一致の法則にしたがい、.*は全部の文字列にマッチします。

本題に行くと、
s/.(d.)./\1/
最初の.*は上記法則にしたがい、一番長い文字列をとろうとします。次の(d.)が制約となり、abcがマッチします。これに従い、(d.)は4-5文字目のdeがマッチします。最後の.*は最長一致で文字列の最後までつまりfghにマッチします。このすべてを(d.)=deで置き換えるので、お示しの結果になります。

投稿2018/01/21 15:54

編集2018/01/21 16:00
KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Len

2018/01/23 22:26

「最左・最長一致の原則」というのがあったのですね。最短でマッチしたものだけと思っていました。 わかり易い回答ありがとうございました。
guest

0

sedのふるまいを学習したいのなら

s/パターン/\1/

はよくないと思いますよ。何がどうなった結果なのかがわかりにくい。

s/パターン/XXX/ (ただしXXXはパターンに含まれない文字

としたほうがどの部分がマッチしたかわかりやすくなるでしょう。

投稿2018/01/22 05:52

a_saitoh

総合スコア702

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問