質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.83%

  • bash

    578questions

    bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

  • Perl

    435questions

    Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

  • grep

    31questions

    grepはコマンドライン上でテキスト検索を可能にするユーティリティーです。元はUnixのために用意されたものです。

特定の要素を持つ行のみを抽出したい

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 79

shotaroh

score 4

 前提・実現したいこと

以下のような、ファイルから、指定した特定の要素(gene_name)をもつ行だけを抽出して保存したいです。

$ head -3 fantom_cat_stringent_kd.gtf| sort -f -k 6 -t ";" |awk -F\" '{print $0}'| less

chr8    FANTOM  gene    144623796       144624570       .       +       .       gene_id "ENSG00000254144.2"; geneSuperClass "all_lncRNA";  geneClass "lncRNA_divergent";  geneSubClass "divergent_promoters"; gene_type "antisense"; gene_name "7SK"; coding_status "nonCoding"; cumulative_support "FANTOM:GENCODE"; geneCategory "p_lncRNA_divergent"; DHS_type "DHS_promoter";
chr21   FANTOM  gene    26473444        26475653        .       +       .       gene_id "ENSG00000232512.2"; geneSuperClass "all_lncRNA";  geneClass "lncRNA_intergenic";  geneSubClass "far_from_coding_genes"; gene_type "lincRNA"; gene_name "7SK"; coding_status "nonCoding"; cumulative_support "GENCODE:HUBDMAP"; geneCategory "__na"; DHS_type "not_DHS";
chr19   FANTOM  gene    58856544        58864858        .       -       .       gene_id "ENSG00000121410.7"; geneSuperClass "all_mRNA";  geneClass "coding_mRNA";  geneSubClass "protein_coding"; gene_type "protein_coding"; gene_name "A1BG"; coding_status "coding"; cumulative_support "FANTOM:GENCODE"; geneCategory "coding_mRNA"; DHS_type "DHS_promoter";

抽出したい要素のリストを、例えば以下のように用意した時の方法をご教授いただけると幸いです。

$ cat gene_list.txt
EXOC1
NOC2L
BCKDK
NPEPPS
SNX5
DNAJC30
CCR2
AP2A1
LIPA
PNKP

 試したこと

grep -fを用いてやってみたのですが検索元、クエリ共に行数が多いために時間がかかることなどから他の方法があれば、教えていただきたいです。

$ grep -f gene_list.txt fantom_cat_stringent_kd.gtf
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

試してないけど、こんな感じで行ける筈。 

perl -F"\t" -ane '$F[8]=~/gene_name/ and print' fantom_cat_stringent_kd.gtf

抽出したい要素のリストを、例えば以下のように用意した時の方法

perl -F"\t" -ane '$F[8]=~/gene_name/ and print' fantom_cat_stringent_kd.gtf |egrep -f <(sed 's/^/gene_name "/; s/$/"/' gene_list.txt) - 

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/21 12:41

    ご回答ありがとうございます。

    キャンセル

+1

grep -fで済むなら、それ以上速い方法は無いと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/19 18:55

    grep -F -f の方が多少速いかも。あまり変わらないかも。

    キャンセル

  • 2018/06/21 12:41

    ご回答ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.83%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • bash

    578questions

    bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

  • Perl

    435questions

    Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

  • grep

    31questions

    grepはコマンドライン上でテキスト検索を可能にするユーティリティーです。元はUnixのために用意されたものです。