質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.52%

  • 正規表現

    788questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

  • UNIX

    383questions

    UNIXとは、AT&Tのベル研究所で開発されたコンピューター用のマルチユーザー・マルチタスクのオペレーションシステム(OS)です。政府や教育機関や研究所で広範囲に採用されています。

  • スクレイピング

    328questions

  • sed

    59questions

    sedとは、POSIX環境のために作られたコマンドラインエディタです。sedは編集スクリプトの指示のもとに複数のファイルを編集し、標準出力にその結果を出力します。

Unixコマンドsedの振る舞いがよくわからない

解決済

回答 3

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 419

Len

score 2

実行結果がどのようにしてdeになるのか解らない

echo abcdefgh | sed -E 's/.*(d.).*/\1/'
de


特に.*がどういう振る舞いをしているのかよくわかりません。

メタ文字として

.が任意の1文字にマッチする 例:a.c ⇨aac abc accなどにマッチ
*が直前のパターンを0回以上繰り返す 例:ab*c ⇨ ac abc abbc abbbcなどにマッチ
()が()で囲まれたパターンをグループ化する 例:(ab)+ ⇨ ab abab abababなどにマッチ

と理解しています。

コマンドをいろいろ変えて見た結果

echo abcddddeeefgh | sed -E 's/(d.).*/\1/'
abcdd

なんかddから後ろが消えた

echo abcddddeeefgh | sed -E 's/(d.)/\1/'
abcddddeeefgh

すべての文字にマッチした?

echo abcddddeeefgh | sed -E 's/.*d/ /'
 eeefgh

最後のdが空白になりd以下のeeefghもでる。最後のd以前は消えた

echo abcddddeeefgh | sed -E 's/.*/ /'

すべての文字が空白になった

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 3

checkベストアンサー

+1

最左・最長一致の原則というのを覚えましょう。

なんかddから後ろが消えた

まず(d.)には最左の法則に従って4文字目からのddがマッチします。
次に.*は最長一致の法則に従って6文字目のdから最後までの文字がマッチします。
これを\1=ddに置き換えるので、結果として3文字まで+\1の二文字が残ることになります。

すべての文字にマッチした?

(d.)にマッチした部分を(d.)にマッチした部分で置き換えるというのですから、結果として何も変わりません。

最後のdが空白になりd以下のeeefghもでる。最後のd以前は消えた

最長一致の法則にしたがい.*dはabcdddにマッチします。次にdが続く.*としてはそれが最長になります。

すべての文字が空白になった

最長一致の法則にしたがい、.*は全部の文字列にマッチします。

本題に行くと、
s/.*(d.).*/\1/
最初の.*は上記法則にしたがい、一番長い文字列をとろうとします。次の(d.)が制約となり、abcがマッチします。これに従い、(d.)は4-5文字目のdeがマッチします。最後の.*は最長一致で文字列の最後までつまりfghにマッチします。このすべてを(d.)=deで置き換えるので、お示しの結果になります。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/24 07:26

    「最左・最長一致の原則」というのがあったのですね。最短でマッチしたものだけと思っていました。
    わかり易い回答ありがとうございました。

    キャンセル

+1

特に.*がどういう振る舞いをしているのかよくわかりません。 

「任意の文字の0個以上の連なり」なので、どんな文字列にもマッチします。そのため

echo abcddddeeefgh | sed -E 's/.*/ /'

は、行全体(abcddddeeefgh)を1つの空白に置換します。

echo abcddddeeefgh | sed -E 's/.*d/ /'

は、dで終わる文字列(abcdddd)を1つの空白に置換します。
abcdもdで終わる文字列ですが、*は出来るだけたくさんの繰り返しにマッチするので、より長いabcddddが選ばれます。

ここまでは簡単ですが、ここからは、括弧に囲まれた部分が\1で参照する事になるので、わかりにくいかも知れません。

echo abcddddeeefgh | sed -E 's/(d.)/\1/'

は、dとその後の1文字(dd)を、それ自体(dd)に置換します。なので、元と同じです。

echo abcddddeeefgh | sed -E 's/(d.).*/\1/'

は、dで始まる文字列(ddddeeefgh)を、その先頭のdとその次の文字(dd)に置換します。

echo abcdefgh | sed -E 's/.*(d.).*/\1/'

は、dを含む文字(abcdefgh)を、dとその次の文字(de)に置換します。

どうも、「置換する」ということがまだ理解できていないようなので、
echo abcdefg | sed -E 's/de/xy/'
echo abcdefg | sed -E 's/de//'
あたりから、始めるのがいいかと思います。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/01/24 07:44

    >echo abcddddeeefgh | sed -E 's/(d.)/\1/'
    >は、dとその後の1文字(dd)を、それ自体(dd)に置換します。

    最左・最長一致の原則に従って、(de)はマッチせず、最左の3文字目からの(dd)がマッチしたんでしょうか

    キャンセル

  • 2018/01/24 08:53

    あまり、「最左・最長一致の原則」という言葉だけにとらわれるのは良くないです。
    順次処理なので、文字列先頭から順に注目する点をずらしながら探していきます。
    その注目する点以降の文字列が、正規表現と一致すれば、マッチ成功だし、
    一致しなければ、注目する点を1つ後ろにずらして、また、正規表現との一致を調べます。

    複数マッチ(グローバルマッチ)の場合は、その前のマッチ対象文字列の次の文字に注目して、処理を続けます。

    このように、「マッチがどのように行われるか」を理解するのが大事です。

    また、繰り返しの指定の、* や + や ? や {m,n} は、可能な限り長くマッチしますが、
    処理言語(ツール)によっては、後ろに?を付けた、*? +? ?? {m,n}? は、出来るだけ短くマッチします。

    キャンセル

0

sedのふるまいを学習したいのなら

s/パターン/\1/


はよくないと思いますよ。何がどうなった結果なのかがわかりにくい。

s/パターン/XXX/ (ただしXXXはパターンに含まれない文字

としたほうがどの部分がマッチしたかわかりやすくなるでしょう。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • 正規表現

    788questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

  • UNIX

    383questions

    UNIXとは、AT&Tのベル研究所で開発されたコンピューター用のマルチユーザー・マルチタスクのオペレーションシステム(OS)です。政府や教育機関や研究所で広範囲に採用されています。

  • スクレイピング

    328questions

  • sed

    59questions

    sedとは、POSIX環境のために作られたコマンドラインエディタです。sedは編集スクリプトの指示のもとに複数のファイルを編集し、標準出力にその結果を出力します。