Python 文字列特定の行の前後の抽出について

文字列の特定の行の前後の抽出について、質問です。
例えば、

>~~~mRNA
atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttcc
ggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttcc
ccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttcc
ttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca
>~~~mRNA
atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttcc
ggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttcc
ccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttcc
ttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca
>~~~mRNA

のような塩基配列を処理したいときに、
＞
で始まる行の前後の部分だけ切り取って、別々に処理したいです。

そのときに、「forループを使って、＞の後ろを削って抽出するのを１つずつ行う」というところはイメージできるのですが、どのように書けばよいかわかりません。

他に良い方法があればそちらも教えて頂ければ幸いです。

ヒントだけでも構わないので、アドバイスを頂きたいです。
よろしくお願いします。

coco_bauer

2018/11/29 02:36

「＞で始まる行の前後の部分」のイメージが判りません。質問の例の中央(6行目）にある「>~~~mRNA」の前後の部分は、「ttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca」と「atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttcc」ですか？

行動規範の内容に同意します

回答2件

python限定でなくていいなら、egrepを使うのが一番簡単でしょう。

'>'がある行とその次の1行を抽出：

egrep -A1 '>' test.fasta

'>'がある行の次の行のみ抽出：

egrep -A1 '>' test.fasta | egrep -v '>'

'>'がある行とその前後3行を抽出：

egrep -C3 '>' test.fasta

投稿2018/11/29 04:40

KojiDoi

総合スコア13671

ykohki

2018/12/01 10:09

回答ありがとうございます。こちらの方法も勉強になりました、ありがとうございます。

行動規範の内容に同意します

ベストアンサー

以下のようにしてみてはどうでしょうか

行を1行ずつ読んでいき、変数 tmp に追加していく。
'>' で始まる行が見つかったら、変数 tmp をデータ一覧に追加し、tmp を空にする。
行の末尾まで繰り返す。

text.txt

>~~~mRNA
atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttcc
ggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttcc
ccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttcc
ttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca
>~~~mRNA
atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttcc
ggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttcc
ccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttcc
ttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca
>~~~mRNA
atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttcc
ggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttcc
ccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttcc
ttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca

python
1data = []
2
3with open('test.txt') as f:
4    next(f)  # 最初の行を読み飛ばす。
5    
6    tmp = ''
7    for line in f.read().splitlines():
8        if line.startswith('>'):  # '>' で始まる行が見つかった場合
9            data.append(tmp)
10            tmp = ''
11            continue
12        tmp += line
13    data.append(tmp)
14print(data)

['atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttccggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttccccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttccttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca', 'atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttccggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttccccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttccttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca', 'atgccccttggcccttggcccatccccattcgaggcggggcccatgcctcctcttcttccggagcccctgctgggggcccggggcatcttcgaggcggggcccatgcctcctcttcttccccagggggaaccttccagggccgagatcttcgaggcggggcccatgcctcctcttcttccttgaaccccatgccaccatcgcagctgcagctgcccacactgcccctagtcatggtggca']

投稿2018/11/29 02:37