質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Q&A

解決済

1回答

574閲覧

for inで処理後1行ずつファイルに出力

tkgene

総合スコア13

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

0グッド

0クリップ

投稿2020/12/02 04:30

pythonでゲノム解析をしている、python初心者です。

以下のスクリプトをを作成し、統計的な計算をしています。
スクリプトそのものは問題なく動きますが、大きなファイル(数百万行)を
計算した場合数時間以上かかることがあります。
普段はlinuxターミナル上で
script.py input.txt > result.txt
の様に出力させているのですが、この方法だと結果がある程度たまってからの出力となるようで
リアルタイムで1行ずつの結果の確認ができません。
今、どこまで進んでいるのか等をその都度確認したいので
スクリプト上でファイルに一行ずつ出力できるように完結させたいです。
改良したスクリプトでは行末に次の行が追加され、またタブを認識してくれない
状況となっています。オリジナルのスクリプトと全く同じ出力を1行ずつ出力させるには
どうしたらいいでしょうか。
どなたかご教授よろしくお願いいたします。

*スクリプト上の2081等の実数は計算に必要な固定値でここでは特に意味はありません。

input.txtの中身例 AAAAAA 3846 231 AAAAAC 4406 264 AAAAAG 4796 287 AAAAAT 2497 166 AAAACA 3426 183 AAAACC 2276 125 AAAACG 4087 209 AAAACT 2393 149
#上のデータを以下のコマンドで計算、出力 # script.py input.txt > result.txt import sys from sys import argv import pandas as pd import scipy.stats as st data = sys.argv[1] lst = [] with open(data, 'r',) as c: for line in c: lst.append(line.split()) for c in lst: df = pd.DataFrame([[int(c[2]),int(c[1])],[2081-int(c[2]),36892-int(c[1])]]) #print(df) oddsratio, p = st.fisher_exact(df) print(c[0], "\t",c[1], "\t",c[2], "\t", p, "\t", oddsratio) #出力 AAAAAA 3846 231 0.3204463665946933 1.0728768393979002 AAAAAC 4406 264 0.31434358314046873 1.0712744491363781 AAAAAG 4796 287 0.29968379487508934 1.0706097519021331 AAAAAT 2497 166 0.03579730913537198 1.1940323165866926 AAAACA 3426 183 0.48411384449369754 0.9418274190363531 AAAACC 2276 125 0.8147318042803129 0.9719541692273964
#スクリプト内で出力できるように改良してみたもの import sys from sys import argv import pandas as pd import scipy.stats as st data = sys.argv[1] lst = [] with open(data, 'r',) as c: for line in c: lst.append(line.split()) for c in lst: df = pd.DataFrame([[int(c[2]),int(c[1])],[2081-int(c[2]),36892-int(c[1])]]) #print(df) oddsratio, p = st.fisher_exact(df) s = c[0], "\t",c[1], "\t",c[2], "\t", p, "\t", oddsratio f = open('result.txt','a') f.write(str(s)) #出力 ('AAAAAA', '\t', '3846', '\t', '231', '\t', 0.3204463665946933, '\t', 1.0728768393979002)('AAAAAC', '\t', '4406', '\t', '264', '\t', 0.31434358314046873, '\t', 1.0712744491363781)('AAAAAG', '\t', '4796', '\t', '287', '\t', 0.29968379487508934, '\t', 1.0706097519021331)('AAAAAT', '\t', '2497', '\t', '166', '\t', 0.03579730913537198, '\t', 1.1940323165866926)('AAAACA', '\t', '3426', '\t', '183', '\t', 0.48411384449369754, '\t', 0.9418274190363531)('AAAACC', '\t', '2276', '\t', '125', '\t', 0.8147318042803129, '\t', 0.9719541692273964)('AAAACG', '\t', '4087', '\t', '209', '\t', 0.15010252876242494, '\t', 0.8961399653686172)('AAAACT', '\t', '2393', '\t', '149', '\t', 0.23528418325511075, '\t', 1.1118416897455397)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Python

1with open('result.txt', 'w',) as f: 2 for c in lst: 3 df = pd.DataFrame([[int(c[2]),int(c[1])],[2081-int(c[2]),36892-int(c[1])]]) 4 #print(df) 5 oddsratio, p = st.fisher_exact(df) 6#誤り s = "\t".join(c[0], c[1], c[2], p, oddsratio)+"\n" 7 s = "\t".join((c[0], c[1], c[2], p, oddsratio))+"\n" 8 f.write(s) 9 f.flush()

でしょうか。
・都度オープンせず、flushを使う
・ちゃんと出力文字列を組み立てる

投稿2020/12/02 05:14

編集2020/12/02 06:40
otn

総合スコア84798

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tkgene

2020/12/02 05:59

ご回答ありがとうございます。 ご指摘の通り修正したところ以下のようなエラーが帰ってきました。 TypeError: join() takes exactly one argument (5 given) join()の中身を1つにするためs = "\t".join(c[0], c[1], c[2], p, oddsratio)+"\n"を以下に置き換えてみました。 k = c[0], c[1], c[2], p, oddsratio s = "\t".join(str(k))+"\n" 結果スクリプトは回りましたが一文字ごとの間にtabが入って帰ってきました。 このjoin() takes exactly one argument (5 given)というエラーが なぜ起きているのかわかりません。 よろしくお願いいたします。
otn

2020/12/02 06:48 編集

失礼しました。括弧が一重足りず。 s = "\t".join((c[0], c[1], c[2], p, oddsratio))+"\n" それぞれの値はstrであることが前提ですので、違う場合は、ちょっとごちゃごちゃしますが、 s = f"{c[0]}\t{c[1]}\t{c[2]}\t{p}\t{oddsratio}\n" のほうが良いかと思います。
tkgene

2020/12/02 06:47

ご丁寧な回答ありがとうございます。 今回の出力はintとstrが混合していますので後者の方で修正し、完璧に出力でき、 現在発生しているエラーは全て解決できました。 ありがとうございました。
otn

2020/12/02 06:49

よかったです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問