質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Linux

    4440questions

    Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

  • 正規表現

    924questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

  • 自然言語処理

    153questions

    自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

文章から記号を削除したい

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 517

kokeman

score 4

タスクとしては以下のようなテキストファイル

'TIS
'TIS
'TWERE
'TWERE
&
&
&
(A
(AND
(AND
AGAIN,


から記号を削除して以下のようなテキストファイル

TIS
TIS
TWERE
TWERE
AMP
AMP
AMP
A
AND
AND
AGAIN

にしたいです。
macのターミナルからコマンドでこの処理をしたいです。

sedを使って処理しようと色々考えましたがどれもうまく行きません

sed -e 's/\W//g' text.txt


またtrを使って以下のように

cat text.txt | tr -d -c [:alnum:] > text_.txt


と打ちましたが、改行文字も削除されてしまって

TISTISTWERETWEREAMPAMPAMPAANDANDAGAIN


以下のような形になってしまいます。
どうすれば良いでしょうか。
ご教授宜しくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

sedで行けます。オプションとしてはsed -e "s/['&;(,]//g" のように指定します。
macOS Sierra 10.12.6 のターミナルでの実行結果を示します。

bash-3.2$ cat data.txt
'TIS
'TIS
'TWERE
'TWERE
&
&
&
(A
(AND
(AND
AGAIN,

bash-3.2$ sed -e "s/['&;(,]//g" data.txt
TIS
TIS
TWERE
TWERE
AMP
AMP
AMP
A
AND
AND
AGAIN
bash-3.2$ 

追記 - perl5 での代替策の提案
macOS のターミナルではperl(perl5)も使えるので、こちらの方が簡単かもしれません。sedの代わりとしてawkも選択肢のひとつですが、perlの方が正規表現を含めて強力です。

以下は、\W (単語構成文字(「a~z」「A~Z」「0~9」 アンダーバー「_」))以外を除去するperl5でのワンライナーでのmacOSターミナルでの実行結果です。

$ perl -ne 's/\W//g;print $_ . "\n"' data.txt
TIS
TIS
TWERE
TWERE
AMP
AMP
AMP
A
AND
AND
AGAIN

$

コマンド部分 's/\W//g;print $_ . "\n"' で、「1行ごとに」「単語構成文字以外を」「全部」「除去して」「プリントし」「最後に改行文字をプリント」します。


コメントにて追加でいただいた質問と確認事項ですが、

自分がやった/Wでうまくいかない理由

macOSのターミナルで使えるsed は、GNU版のsedではなく、BSD版(BSDオリジナルかは分かりませんが)のもので、メタ文字の\W\wが使えない為です。GNU版のsedであれば、質問者様のやろうとしていた\Wが使えます。以下はCygwin上でGNU版のsed(4.4)にて実行した結果です。

$ sed --version
sed (GNU sed) 4.4
Packaged by Cygwin (4.4-1)
Copyright (C) 2017 Free Software Foundation, Inc.
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Jay Fenlason, Tom Lord, Ken Pizzini,
and Paolo Bonzini.
GNU sed home page: <http://www.gnu.org/software/sed/>.
General help using GNU software: <http://www.gnu.org/gethelp/>.
E-mail bug reports to: <bug-sed@gnu.org>.

$ sed -e 's/\W//g' data.txt
TIS
TIS
TWERE
TWERE
AMP
AMP
AMP
A
AND
AND
AGAIN

上記を踏まえて、

ほかにも - や ) や :などがあるのですがその場合も全部書き出してやるのがよいのでしょうか?

macOSのターミナルでBSD版sedを実行するのであれば、全部書き出す必要があります。文字によっては必要に応じてエスケープしなければならないので煩雑かと。以下は、私の最初の回答例に")" と"""(ダブルクォーテーション)を加えた例です。

bash-3.2$ cat data2.txt
'TIS
'TIS
"TIS"
("TIS")
((""TIS""))
'TWERE
'TWERE
&AMP;
&AMP;
&AMP;
(A
(AND
(AND
AGAIN,

bash-3.2$ sed -e "s/['&;(,)\"]//g" data2.txt
TIS
TIS
TIS
TIS
TIS
TWERE
TWERE
AMP
AMP
AMP
A
AND
AND
AGAIN
bash-3.2$ 

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/11/12 09:55

    これはこの文章のほんの一部でほかにも - や ) や :などがあるのですがその場合も全部書き出してやるのがよいのでしょうか? また自分がやった/Wでうまくいかない理由がわかれば教えてください。

    キャンセル

  • 2017/11/12 11:53

    perlでの代替策の提案と、質問事項について追記しましたのでご覧ください。

    キャンセル

同じタグがついた質問を見る

  • Linux

    4440questions

    Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

  • 正規表現

    924questions

    正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

  • 自然言語処理

    153questions

    自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。