質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Q&A

解決済

2回答

1353閲覧

Linuxの正規表現について

guitar-guitar

総合スコア42

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

0グッド

0クリップ

投稿2016/12/16 08:28

例えば以下の内容が記載されたテキストファイルがあったとします。

$ cat TEST.txt
TEST<YA><A>TEST<TA>
TEST<YA><A>TEST<TANE>

このファイルから
<>と<>内の文字のみを抽出する場合どのような正規表現を使えばよいでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

「Linuxの」という表現だけではシェルなのか vim なのか、perl なのか回答に困ります。
また「抽出」をどの様にしたいかが指定されていないので、こちらも回答し辛いのですが、入力のテキストから <xxx> の中身だけを抜き取って CSV 形式にするという回答にしてみました。

cat input.txt | sed 's/^[^<]*<//' | sed 's/>[^<]*</,/g' | sed 's/>[^<]*$//'

このコマンドは2つの sed コマンドで成り立っていて、最初の sed は先頭から初めての < までを、2番目の sed は > から < までを、最後の sed は > から終わりまでを削除しています。

[^>]> でない文字を表すので、最初の sed は「< でない文字を全て削除」、2番目は「> で始まって < でない文字が0個以上続き < までを削除」、最後は「> で始まって < でない文字が終わりまで続く(0個以上)」となります。

投稿2016/12/16 08:48

編集2016/12/16 08:49
mattn

総合スコア5030

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guitar-guitar

2016/12/16 09:04

ご親切に解説いただきありがとうございました。 目的を果たせました。 大変感謝します。
guest

0

ベストアンサー

sed 's/>[^<>]*</></g; s/^[^<]*</</; s/>[^>]*$/>/' TEST.txtでどうでしょう。

投稿2016/12/16 08:42

yunano

総合スコア841

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guitar-guitar

2016/12/16 08:53

なるほど。;で区切って実行するやりかたは思いつかなかったです。 ありがとうございます。 ですがこの場合だと TEST<YA><A>TEST<TA>TEST の場合に変換されずに残ってしまいますね・・・。
yunano

2016/12/16 08:55

手元で実行した限りではTEST<YA><A>TEST<TA>TESTの場合でも、<YA><A><TA>になり問題なかったです。
yunano

2016/12/16 08:56

もしかしたら私が意図を読み間違っているのかもしれませんが。
guitar-guitar

2016/12/16 09:03

申し訳ございません。コマンドミスでした。 画期的な方法を教えていただいて大変勉強になりました。
mattn

2016/12/16 09:18

この正規表現だと入力データが TEST<YA><A>TEST<TA> TEST<YA><A>TEST<TANE>> だと失敗するかもしれません。
yunano

2016/12/16 09:31

囲いになってない単品の<や>があったり、入れ子になっている場合は、どういう処理にすべきかは別途決めないとなりませんね。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問