Biopython GenBank形式のファイルを読込みその配列を翻訳後、他のファイル翻訳配列と同じか比べたい。

GenBank形式のファイルを読込みその配列を翻訳後、他のファイル翻訳配列と同じか比べたい。

ここに質問の内容を詳しく書いてください。
（例）PHP(CakePHP)で●●なシステムを作っています。
Biopythonで、GenBank形式ファイルをseqIOで読み込んで、翻訳しましたが、その後のステップがわかりません。
しかし、print実行で、翻訳が見られる状態で、実際の配列翻訳したデータだけはどこに保存されているのでしょうか？　Seq (MKFRP....)などの状態で表記されます。でも、他のファイルと比べるときは、Seqはいらなくて、MKFRP...の部分だけで比べたいです。また、比べるときは、MKFRPという部分は文字列にして、リスト化する必要があるのでしょうか？その場合は、numpyとか使うのですか？SeqIOだけで翻訳し、MKFRP部分を他の配列比べられるのでしょうか？初心者なのでどうしてよいかわかりません。結局は、GenBank形式から呼びだして、翻訳し、それを他のGenBank形式の配列と同じかどうか調べたい。（その際、文字列化やリスト形式にするのかなと他でも良い方法があれば。）
■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

GenBankファイルをSeqIOで読み込み後の処理がわからない。

該当のソースコード

python, biopython

試したこと

nuc_translate = nuc.seq[351:666].translate()と入力したが、Seq（MKFRP...）と出力される。prinにしたら、このSeqは消えるが。MKFRPを文字列としてどう設定するか、リスト化して、他の配列と同じか判定するやり方がわからない。初心者なのでnumpyやpandasとか使う方法しかわからない。

python
1!pip install biopython
2from Bio import SeqIO
3
4nuc = SeqIO.read("sequence1.gb", "genbank")
5nuc
6
7print(nuc)
8print(nuc.seq)
9len(nuc.seq)
10
11print(nuc.seq[351:666].translate())
12nuc_translate = nuc.seq[351.666].transalte()

補足情報（FW/ツールのバージョンなど）

JupyterLab, biopython ver 19.2.3

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答1件

ベストアンサー

Biopythonについては全く知らないので一般論です。

nuc_translateからその部分的な情報を取り出したいとのことですね。
部分的な情報は属性になっていることが多いです。
属性名を見てそれらしいものを見てみると見つかる場合が多いですね。

python
1print(dir(nuc_translate))

で、メソッド名を含む属性名の一覧が出てきます。
仮に属性名がabcなら、

python
1print(nuc_translate.abc)

で属性の値をみることができます。アンダーバーで始まる属性名は無関係の場合が多いでしょう。
nuc_translate.abcでメソッドだというような表示が出てきたときは、

python
1print(nuc_translate.abc.__doc__)

を行うとメソッドの使い方が出てきます。
これでだめな場合は、英語の公式ドキュメントを見るしかないでしょう。

投稿2021/05/04 10:11

編集2021/05/04 15:18

ppaul

総合スコア24670

saddananda

2021/05/04 12:38

['__add__', '__class__', '__contains__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__imul__', '__init__', '__init_subclass__', '__le__', '__len__', '__lt__', '__module__', '__mul__', '__ne__', '__new__', '__radd__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_data', 'back_transcribe', 'complement', 'complement_rna', 'count', 'count_overlap', 'encode', 'endswith', 'find', 'index', 'join', 'lower', 'lstrip', 'reverse_complement', 'reverse_complement_rna', 'rfind', 'rindex', 'rsplit', 'rstrip', 'split', 'startswith', 'strip', 'tomutable', 'transcribe', 'translate', 'ungap', 'upper'] dirで属性をプリントしてみたらこのようになりましたが、どう解釈してよいかわかりません。

ppaul

2021/05/04 15:18

すみません。 print(nuc_translate.abc.__dec__)はprint(nuc_translate.abc.__doc__)の打ち間違いでした。 Seq型の使い方は、 https://biopython.org/docs/1.75/api/Bio.Seq.html に書かれている通りです。 str(nuc_translate) は塩基配列やアミノ酸配列をPythonの文字列にする関数これの説明は、 print(nuc_translate.__str__.__doc__)で表示されるはずです。 nuc_translateはアミノ酸配列になっているはずなので、back_transcribe(逆転写)、complement(相補鎖)、complement_rna(相補RNA)、transcribe(転写)、translate(翻訳)は使えないでしょうね。他のメソッドは文字列に似ているので大体想像が付くでしょう。 encodeはたぶん属性なので、 print(nuc_translate.encode)で何かが表示されるはずです。

saddananda

2021/05/05 01:38

print(nuc_translate.encode)と入力したら、<bound method Seq.encode of Seq('MKFRPLHDRVVVKRIDAEEKTAGGIIIPDTVKEKPSQGEVIAVGPGGRDESGKL...AA*')> と出ました。これが使えるのですか？この後、どうやったら、リスト化でできますか？

saddananda

2021/05/05 04:34

nuc_list = list(range(0:10) としても、invalid syntax としかでません。

saddananda

2021/05/05 04:55

nuc_list = list("MKFRPLHDRVVVKRIDAEEKTAGGIIIPDTVKEKPSQGEVIAVGPGGRDESGKL...")とコピペしたらできますけど、コピペしない方法教えてください！

行動規範の内容に同意します