質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Perl

Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

Q&A

解決済

1回答

1888閲覧

バイオインフォマティクス関連のプログラム

退会済みユーザー

退会済みユーザー

総合スコア0

Perl

Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

0グッド

0クリップ

投稿2016/07/16 03:27

編集2016/07/16 05:02

###前提・実現したいこと
ダウンロードしたmultifastaを一行ずつのものに分割し、NGSによるreadのようなものを作成したい。
御教授頂けたら幸いです。

fastaとは生物の核酸あるいはタンパク質の配列を文字列で示したもので、
multifastaは1つのファイルに複数の配列情報を含むもの。
'>'で始まる行はその配列の名称やIDで、その次の行からそれに対応する実際の配列である。
次の'>'で始まる行からは別の配列情報となる。

multifastaの例(今回の配列部分は、A,G,C,Tの4文字のみから成る)

gi|1035248882|ref|XM_017038806.1|

GTCGCAACCTTTTGAATCTCCTCGATAAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT

gi|1035248881|ref|XM_008324367.2|

TTCCCGGCACTCAGCCCGGACTTCCTGATTACTTCTTCTTTCTTCCAGCCGGGCGGCAGAGCGGCACATTCCGTCCTCTTCCTCTCCATCACCATACAAGAAGCGATTGGCGTAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT

gi|1035248878|ref|XM_008324364.2|

GTGAGTCGCAACCTTTTGAATCTCCTCGATAAACTGGTACTATTCCGATTCCATTTTTTAAAATACTCGATGCGCAGTTTATTTGTTTTCGAGTTTTATTAATTTTTAAAAAGGTCGGTTATGTTTTAAGGACACAACAGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT


・ (今回は1つのファイルにfastaが約2000存在)

これを次のように分割したい。ID行部分は連番をふって出力したい

gi|1035248882|ref|XM_017038806.1|-1

GTCGCAACCTTTTGAATCTCCTCGATAAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTC(80文字ずつ)

gi|1035248882|ref|XM_017038806.1|-2

AGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAG(80文字ずつ)

gi|1035248882|ref|XM_017038806.1|-3

CGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTA(80文字ずつ)


gi|1035248878|ref|XM_008324364.2|-9

TTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT (80文字ない行はそのまま出力)

コマンドは、"$0 ファイル名 80 20"と入力

###発生している問題・エラーメッセージ

gi|664708653|ref|XM_008513042.1|-47

TGTTCAGCATCAGCTCCTATTTACGCAACTAAATAAACGATCAAATAAAGTTTA

gi|742122539|ref|XM_010840600.1|-8

TTCAATCCCTGGGTCAGGAAGATCCTCTGGAGAAAGGAATGGCAATCCACTCCAGTATTCTTGCT

gi|1016637223|ref|XM_016210042.1|-14

TATAACTGCTTTGTGGAGAGATAATAAAAATAATAATTCTTGAATGAGAAAA

gi|742122543|ref|XM_010840601.1|-9

GGATGGGGGGACACATGTATACCTGTGACTGATTCATGTTGATGTATGAAAAAACA



1つのfastaから1行しか出力されておらず、その行がどのような基準で出力されているのか理解できない。
更にgrepコマンドで探しても対応するfastaにその配列が存在しているかが疑わしい。

エラーメッセージ 特になし ###該当のソースコード プログラムを御教授頂いた先生に感謝致します。頂いたプログラムを一部改変させて頂いたものが 本プログラムです。 #! /usr/bin/perl (@ARGV == 3) or die "usage: $0 file.fa bp_length min_contig_length\n"; $file = $ARGV[0]; $bp_len = $ARGV[1]; $min_len = $ARGV[2]; open($fh, $file) or die "cannot open\n"; while (($name, $seq) = fasta_get($fh)) { @con = split(/[AGCT]{$bp_len}/, $seq); $name =~ /^(\S+)/; $name = $1; for (0..$#con) { if (length($con[$_]) >= $min_len) { print ">$name-$_\n"; $con_name = $name; print_seq($con[$_], 80); } } } sub print_seq { my $seq = shift; my $line_len = shift; my $seq_len = length $seq; unless ($line_len) { $line_len = 80; } for (my $i = 0; $i < $seq_len; $i += $line_len) { print(substr($seq, $i, $line_len) . "\n"); } } sub fasta_get { my $in = shift; my($l, $name, $seq); while ($l = <$in>) { if (substr($l, 0, 1) eq '>') { chomp $l; last; } } if ($l eq '') { return (); } $name = substr($l, 1); while ($l = <$in>) { if (substr($l, 0, 1) eq '>') { seek($in, -length($l), 1); return ($name, $seq); } chomp $l; $seq .= $l } return ($name, $seq); } ###試したこと sub fasta_getを本分野の参考書にあるような一般的なファイル全体を読み込むような ものに書き換えて実行(上記のものは1行ずつ処理するものであるはずので)したが、メモリの問題(?)で動かなかった。 ###補足情報(言語/FW/ツール等のバージョンなど) perl v5.18.2

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2016/07/16 03:43

俺らにもわかるような質問にしていただけませんでしょうか? multifastaもNGSもreadのようなものも 何のことかわからないのです。 プログラムが何をしてるのかはわかりますが、どんなデータをどうしたいのかさっぱりです。
退会済みユーザー

退会済みユーザー

2016/07/16 04:17

質問内容に詳細を追加したいと思います。有難う御座いました。
guest

回答1

0

ベストアンサー

perl

1@con = split(/[AGCT]{$bp_len}/, $seq);

perl

1@con = $seq =~ /[AGCT]{$bp_len}/g;

でどうでしょうか。

投稿2016/07/16 06:30

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2016/07/16 07:16

解決致しました。 なるほど、改変前のものがsplitを用いていたので、それにずっと拘っていたことがダメでした。 このプログラムではsplitを用いなくても分割されますね。 御多忙のところを有難う御座いました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問