質問編集履歴

1

fastaの概要及び実現したい事象を追加

2016/07/16 05:02

投稿

退会済みユーザー
test CHANGED
File without changes
test CHANGED
@@ -2,7 +2,69 @@
2
2
 
3
3
  ダウンロードしたmultifastaを一行ずつのものに分割し、NGSによるreadのようなものを作成したい。
4
4
 
5
-
5
+ 御教授頂けたら幸いです。
6
+
7
+
8
+
9
+ fastaとは生物の核酸あるいはタンパク質の配列を文字列で示したもので、
10
+
11
+ multifastaは1つのファイルに複数の配列情報を含むもの。
12
+
13
+ '>'で始まる行はその配列の名称やIDで、その次の行からそれに対応する実際の配列である。
14
+
15
+ 次の'>'で始まる行からは別の配列情報となる。
16
+
17
+
18
+
19
+ multifastaの例(今回の配列部分は、A,G,C,Tの4文字のみから成る)
20
+
21
+ >gi|1035248882|ref|XM_017038806.1|
22
+
23
+ GTCGCAACCTTTTGAATCTCCTCGATAAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT
24
+
25
+ >gi|1035248881|ref|XM_008324367.2|
26
+
27
+ TTCCCGGCACTCAGCCCGGACTTCCTGATTACTTCTTCTTTCTTCCAGCCGGGCGGCAGAGCGGCACATTCCGTCCTCTTCCTCTCCATCACCATACAAGAAGCGATTGGCGTAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT
28
+
29
+ >gi|1035248878|ref|XM_008324364.2|
30
+
31
+ GTGAGTCGCAACCTTTTGAATCTCCTCGATAAACTGGTACTATTCCGATTCCATTTTTTAAAATACTCGATGCGCAGTTTATTTGTTTTCGAGTTTTATTAATTTTTAAAAAGGTCGGTTATGTTTTAAGGACACAACAGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT
32
+
33
+
34
+
35
+
36
+
37
+ ・ (今回は1つのファイルにfastaが約2000存在)
38
+
39
+
40
+
41
+ これを次のように分割したい。ID行部分は連番をふって出力したい
42
+
43
+ >gi|1035248882|ref|XM_017038806.1|-1
44
+
45
+ GTCGCAACCTTTTGAATCTCCTCGATAAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTC(80文字ずつ)
46
+
47
+ >gi|1035248882|ref|XM_017038806.1|-2
48
+
49
+ AGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAG(80文字ずつ)
50
+
51
+ >gi|1035248882|ref|XM_017038806.1|-3
52
+
53
+ CGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTA(80文字ずつ)
54
+
55
+
56
+
57
+
58
+
59
+
60
+
61
+ >gi|1035248878|ref|XM_008324364.2|-9
62
+
63
+ TTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT (80文字ない行はそのまま出力)
64
+
65
+
66
+
67
+ コマンドは、"$0 ファイル名 80 20"と入力
6
68
 
7
69
 
8
70
 
@@ -30,9 +92,9 @@
30
92
 
31
93
 
32
94
 
33
- 1つのfastaから1行しか出力されていない。更にgrepコマンドで探しても対応するfastaに
95
+ 1つのfastaから1行しか出力されておらず、その行がどのような基準で出力されてるのか理解できない。
34
-
96
+
35
- その配列が存在しているかが疑わしい。
97
+ 更にgrepコマンドで探しても対応するfastaにその配列が存在しているかが疑わしい。
36
98
 
37
99
  ```
38
100
 
@@ -184,7 +246,7 @@
184
246
 
185
247
  sub fasta_getを本分野の参考書にあるような一般的なファイル全体を読み込むような
186
248
 
187
- ものに書き換えて実行したが、メモリの問題(?)で動かなかった。
249
+ ものに書き換えて実行(上記のものは1行ずつ処理するものであるはずので)したが、メモリの問題(?)で動かなかった。
188
250
 
189
251
 
190
252