質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

配列

配列は、各データの要素(値または変数)が連続的に並べられたデータ構造です。各配列は添え字(INDEX)で識別されています。

Q&A

解決済

1回答

972閲覧

Biopython GenBank形式のファイルを読込みその配列を翻訳後、他のファイル翻訳配列と同じか比べたい。

saddananda

総合スコア2

ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

配列

配列は、各データの要素(値または変数)が連続的に並べられたデータ構造です。各配列は添え字(INDEX)で識別されています。

0グッド

0クリップ

投稿2021/05/04 03:06

GenBank形式のファイルを読込みその配列を翻訳後、他のファイル翻訳配列と同じか比べたい。

ここに質問の内容を詳しく書いてください。
(例)PHP(CakePHP)で●●なシステムを作っています。
Biopythonで、GenBank形式ファイルをseqIOで読み込んで、翻訳しましたが、その後のステップがわかりません。
しかし、print実行で、翻訳が見られる状態で、実際の配列翻訳したデータだけはどこに保存されているのでしょうか? Seq (MKFRP....)などの状態で表記されます。でも、他のファイルと比べるときは、Seqはいらなくて、MKFRP...の部分だけで比べたいです。また、比べるときは、MKFRPという部分は文字列にして、リスト化する必要があるのでしょうか?その場合は、numpyとか使うのですか?SeqIOだけで翻訳し、MKFRP部分を他の配列比べられるのでしょうか?初心者なのでどうしてよいかわかりません。結局は、GenBank形式から呼びだして、翻訳し、それを他のGenBank形式の配列と同じかどうか調べたい。(その際、文字列化やリスト形式にするのかなと他でも良い方法があれば。)
■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

GenBankファイルをSeqIOで読み込み後の処理がわからない。

該当のソースコード

python, biopython

試したこと

nuc_translate = nuc.seq[351:666].translate()と入力したが、Seq(MKFRP...)と出力される。prinにしたら、このSeqは消えるが。MKFRPを文字列としてどう設定するか、リスト化して、他の配列と同じか判定するやり方がわからない。初心者なのでnumpyやpandasとか使う方法しかわからない。

python

1!pip install biopython 2from Bio import SeqIO 3 4nuc = SeqIO.read("sequence1.gb", "genbank") 5nuc 6 7print(nuc) 8print(nuc.seq) 9len(nuc.seq) 10 11print(nuc.seq[351:666].translate()) 12nuc_translate = nuc.seq[351.666].transalte()

補足情報(FW/ツールのバージョンなど)

JupyterLab, biopython ver 19.2.3

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Biopythonについては全く知らないので一般論です。

nuc_translateからその部分的な情報を取り出したいとのことですね。
部分的な情報は属性になっていることが多いです。
属性名を見てそれらしいものを見てみると見つかる場合が多いですね。

python

1print(dir(nuc_translate))

で、メソッド名を含む属性名の一覧が出てきます。
仮に属性名がabcなら、

python

1print(nuc_translate.abc)

で属性の値をみることができます。アンダーバーで始まる属性名は無関係の場合が多いでしょう。
nuc_translate.abcでメソッドだというような表示が出てきたときは、

python

1print(nuc_translate.abc.__doc__)

を行うとメソッドの使い方が出てきます。
これでだめな場合は、英語の公式ドキュメントを見るしかないでしょう。

投稿2021/05/04 10:11

編集2021/05/04 15:18
ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

saddananda

2021/05/04 12:38

['__add__', '__class__', '__contains__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__imul__', '__init__', '__init_subclass__', '__le__', '__len__', '__lt__', '__module__', '__mul__', '__ne__', '__new__', '__radd__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_data', 'back_transcribe', 'complement', 'complement_rna', 'count', 'count_overlap', 'encode', 'endswith', 'find', 'index', 'join', 'lower', 'lstrip', 'reverse_complement', 'reverse_complement_rna', 'rfind', 'rindex', 'rsplit', 'rstrip', 'split', 'startswith', 'strip', 'tomutable', 'transcribe', 'translate', 'ungap', 'upper'] dirで属性をプリントしてみたらこのようになりましたが、どう解釈してよいかわかりません。
ppaul

2021/05/04 15:18

すみません。 print(nuc_translate.abc.__dec__)はprint(nuc_translate.abc.__doc__)の打ち間違いでした。 Seq型の使い方は、 https://biopython.org/docs/1.75/api/Bio.Seq.html に書かれている通りです。 str(nuc_translate) は塩基配列やアミノ酸配列をPythonの文字列にする関数 これの説明は、 print(nuc_translate.__str__.__doc__)で表示されるはずです。 nuc_translateはアミノ酸配列になっているはずなので、back_transcribe(逆転写)、complement(相補鎖)、complement_rna(相補RNA)、transcribe(転写)、translate(翻訳)は使えないでしょうね。 他のメソッドは文字列に似ているので大体想像が付くでしょう。 encodeはたぶん属性なので、 print(nuc_translate.encode)で何かが表示されるはずです。
saddananda

2021/05/05 01:38

print(nuc_translate.encode)と入力したら、<bound method Seq.encode of Seq('MKFRPLHDRVVVKRIDAEEKTAGGIIIPDTVKEKPSQGEVIAVGPGGRDESGKL...AA*')> と出ました。これが使えるのですか?この後、どうやったら、リスト化でできますか?
saddananda

2021/05/05 04:34

nuc_list = list(range(0:10) としても、invalid syntax としかでません。
saddananda

2021/05/05 04:55

nuc_list = list("MKFRPLHDRVVVKRIDAEEKTAGGIIIPDTVKEKPSQGEVIAVGPGGRDESGKL...")とコピペしたらできますけど、コピペしない方法教えてください!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問