質問編集履歴
1
fastaの概要及び実現したい事象を追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,69 @@
|
|
2
2
|
|
3
3
|
ダウンロードしたmultifastaを一行ずつのものに分割し、NGSによるreadのようなものを作成したい。
|
4
4
|
|
5
|
-
|
5
|
+
御教授頂けたら幸いです。
|
6
|
+
|
7
|
+
|
8
|
+
|
9
|
+
fastaとは生物の核酸あるいはタンパク質の配列を文字列で示したもので、
|
10
|
+
|
11
|
+
multifastaは1つのファイルに複数の配列情報を含むもの。
|
12
|
+
|
13
|
+
'>'で始まる行はその配列の名称やIDで、その次の行からそれに対応する実際の配列である。
|
14
|
+
|
15
|
+
次の'>'で始まる行からは別の配列情報となる。
|
16
|
+
|
17
|
+
|
18
|
+
|
19
|
+
multifastaの例(今回の配列部分は、A,G,C,Tの4文字のみから成る)
|
20
|
+
|
21
|
+
>gi|1035248882|ref|XM_017038806.1|
|
22
|
+
|
23
|
+
GTCGCAACCTTTTGAATCTCCTCGATAAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT
|
24
|
+
|
25
|
+
>gi|1035248881|ref|XM_008324367.2|
|
26
|
+
|
27
|
+
TTCCCGGCACTCAGCCCGGACTTCCTGATTACTTCTTCTTTCTTCCAGCCGGGCGGCAGAGCGGCACATTCCGTCCTCTTCCTCTCCATCACCATACAAGAAGCGATTGGCGTAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT
|
28
|
+
|
29
|
+
>gi|1035248878|ref|XM_008324364.2|
|
30
|
+
|
31
|
+
GTGAGTCGCAACCTTTTGAATCTCCTCGATAAACTGGTACTATTCCGATTCCATTTTTTAAAATACTCGATGCGCAGTTTATTTGTTTTCGAGTTTTATTAATTTTTAAAAAGGTCGGTTATGTTTTAAGGACACAACAGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTCAGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAGCGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTACCAGAAAAGCACAGACCTTTTGCTAAGGAAGGCACCATTCTCGCGTCTGGTTCGAGAAGTTTGTCAAAGTTTTTCCCGAGGAGCCTTAAAATGGCAGGTGTATGCTCTCCTGGCTGTGCAGGAGGCTGCAGAGGCTTTTCTTGTCAGACTGTTTGCGGACTCAAACCTGTGTGCCATCCACGCCAAGAGAGTGACCTTGTTCCCTCGTGACATCCAGTTGGCAAGGAGGATCCGTGGAGCAGAAAACCTTTAGAGACAGAGAAAAACACACTGTCTGACATGACGTGCAGCAATGCGAGAACTGTTTCTTTATTTGGTTGGTTACCTTTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT
|
32
|
+
|
33
|
+
・
|
34
|
+
|
35
|
+
・
|
36
|
+
|
37
|
+
・ (今回は1つのファイルにfastaが約2000存在)
|
38
|
+
|
39
|
+
|
40
|
+
|
41
|
+
これを次のように分割したい。ID行部分は連番をふって出力したい
|
42
|
+
|
43
|
+
>gi|1035248882|ref|XM_017038806.1|-1
|
44
|
+
|
45
|
+
GTCGCAACCTTTTGAATCTCCTCGATAAACTGTTACTGCAGAGACGTTTTCCCCAACCAGCCCAGACAGAATGCGCCATGATACCTC(80文字ずつ)
|
46
|
+
|
47
|
+
>gi|1035248882|ref|XM_017038806.1|-2
|
48
|
+
|
49
|
+
AGCTCACCGTCGTAAGGGAAAAGCCCCTCAGAGACGCTCACCGGTGCCAGGTCCGTCCACGTCGACACAACGTTCACCGAGACGCAG(80文字ずつ)
|
50
|
+
|
51
|
+
>gi|1035248882|ref|XM_017038806.1|-3
|
52
|
+
|
53
|
+
CGGGCCTTCAGGACTCCATCATCCAGCATCTACTAAGAAAAGGAAGTTTAGGCCAGGAACCAAGGCCTTGATGGAAATCCGAAAGTA(80文字ずつ)
|
54
|
+
|
55
|
+
・
|
56
|
+
|
57
|
+
・
|
58
|
+
|
59
|
+
・
|
60
|
+
|
61
|
+
>gi|1035248878|ref|XM_008324364.2|-9
|
62
|
+
|
63
|
+
TTTGACCTGTTTTCATAGCTGTTGTGTTCATGATGCCTCTCAGTTGTATTATGCAAATAAAGATTTATTTTT (80文字ない行はそのまま出力)
|
64
|
+
|
65
|
+
|
66
|
+
|
67
|
+
コマンドは、"$0 ファイル名 80 20"と入力
|
6
68
|
|
7
69
|
|
8
70
|
|
@@ -30,9 +92,9 @@
|
|
30
92
|
|
31
93
|
・
|
32
94
|
|
33
|
-
1つのfastaから1行しか出力されていない。
|
95
|
+
1つのfastaから1行しか出力されておらず、その行がどのような基準で出力されているのか理解できない。
|
34
|
-
|
96
|
+
|
35
|
-
その配列が存在しているかが疑わしい。
|
97
|
+
更にgrepコマンドで探しても対応するfastaにその配列が存在しているかが疑わしい。
|
36
98
|
|
37
99
|
```
|
38
100
|
|
@@ -184,7 +246,7 @@
|
|
184
246
|
|
185
247
|
sub fasta_getを本分野の参考書にあるような一般的なファイル全体を読み込むような
|
186
248
|
|
187
|
-
ものに書き換えて実行したが、メモリの問題(?)で動かなかった。
|
249
|
+
ものに書き換えて実行(上記のものは1行ずつ処理するものであるはずので)したが、メモリの問題(?)で動かなかった。
|
188
250
|
|
189
251
|
|
190
252
|
|