intとstrが混合する行の結合と操作

Python3を使ってゲノム解析をしている初心者です。

2ファイルの1列目を比較して、一致したら結合するという作業をしています。
単純な一致と結合だけなら簡単なのですが、結合した後に引き算をしたり、
listにあってdataにない場合でも0埋めして出力したいです。
また、各行にはゲノム配列（str)と数字(int）混合しています。
listとdataの中の行の順番はばらばらです。ここでは見やすいように数行だけソートしてのせてあります。
append()を使っていろいろやってみたのですがうまく進まなくて困っています。
どなたかご教授お願いします。
以下に試したスクリプトを乗せております。

list_file.txt'''
TTTTCTC 2219
TGCATGC 2143
GCATGCA 2140
TTTTTCT 2098
TTTTTTC 2098
TTTCTCT 1821
'''

data_file.txt'''
TTTTCTC 40
TGCATGC 21
GCATGCA 20
TTTTTCT 98
'''

やりたいこと
1列目を元に一致したら結合し、dataの2列目はそのまま出力、listの2列目はdataの2列目を引いた値を出力。さらに、listにあってdataにない場合は0で埋めて出力。

#期待する出力
TTTTCTC	40	2279
TGCATGC	21	2122
GCATGCA	20	2120
TTTTTCT	98	2000
TTTTTTC	0	2098
TTTCTCT	0	1821

試したスクリプト

list = []
data = []
 
with open('list_file.txt', 'r') as c:
    for line in c:
        if type(line) == str:
            list.append(int(line.split()))
        else:
            list.append(line.split())                                
                              
with open('data_file.txt', 'r') as f:
    for line in f:
        if type(line) == str:
            data.append(int(line.split()))
        else:
            data.append(line.split())

for c in tss_list:
    for f in gene_list:
        if c[0] == f[0]:
            #print(f[0])
            print(c[0],"\t",c[1],"\t",c[1] - c[2],)
        elif c[0] in f[0]:
            print(c[0],"\t",c[1],"\t", 0 )

エラー

TypeError Traceback (most recent call last)
<ipython-input-48-553a02782dd4> in <module>
9 for line in c:
10 if type(line) == str:
---> 11 list.append(int(line.split()))
12 else:
13 list.append(line.split())

TypeError: int() argument must be a string, a bytes-like object or a number, not 'list'

これはそもそもappendを使うのが間違っているのでしょうか。
よろしくお願いします。

meg_

2020/10/01 04:17

質問のコードは別の箇所でエラーが出ますが、実際に試されたコードと同じものですか？質問のエラーが再現するコードの提示をお願いします。

nto

2020/10/01 04:20

specific_list、list_nonspec、tss_list、gene_list　これらはどこでどの様に定義されているのでしょうか？

行動規範の内容に同意します

回答3件

pandasのmerge使うと大分楽ができるケースではあるので載せておきます。

python
1import pandas as pd
2from io import StringIO
3
4s1 = '''TTTTCTC      2219
5TGCATGC      2143
6GCATGCA      2140
7TTTTTCT      2098
8TTTTTTC      2098
9TTTCTCT      1821
10'''
11
12list_df = pd.read_csv(StringIO(s1), header=None, sep='\s+').rename(columns={1:2})
13
14s2 = '''TTTTCTC      40
15TGCATGC      21
16GCATGCA      20
17TTTTTCT      98
18'''
19
20data_df = pd.read_csv(StringIO(s2), header=None, sep='\s+')
21
22# list_dfとdata_dfのマージ
23dfr = pd.merge(list_df, data_df, on=0, how='outer').reindex(columns=[0, 1, 2]).fillna(0).astype({1: 'int8'})
24# 列2から列1の値を引く
25dfr[2] = dfr[2] - dfr[1]
26
27buffer = StringIO()
28dfr.to_csv(buffer, header=False, index=False, sep='\t')
29print(buffer.getvalue())
30'''
31TTTTCTC 40      2179
32TGCATGC 21      2122
33GCATGCA 20      2120
34TTTTTCT 98      2000
35TTTTTTC 0       2098
36TTTCTCT 0       1821
37'''

投稿2020/10/01 04:51

yureighost

総合スコア2183

tkgene

2020/10/01 23:02

ありがとうございます。Pandasで各行を操作するときはこのように書くのですね。勉強になります。

行動規範の内容に同意します

ベストアンサー

lstやdataの形がどういった形なのかわからないので推測した形でのデータとなってしまいますが
以下の様にし、if文で文字列が含まれているかどうかを判定し処理を分ける事で目的の形に出力出来ます。

python
1lst = ['TTTTCTC 2219',
2		'TGCATGC 2143',
3		'GCATGCA 2140',
4		'TTTTTCT 2098',
5		'TTTTTTC 2098',
6		'TTTCTCT 1821']
7data = ['TTTTCTC 40',
8		'TGCATGC 21',
9		'GCATGCA 20',
10		'TTTTTCT 98']
11
12mold = {}
13for d in data:		# data内容を分割し辞書型に
14	key, value = d.split()
15	mold[key] = int(value)
16for l in lst:
17	string, digit = l.split()	# 文字列と数字列を分割
18	if string in [key for key in mold.keys()]:	# 辞書のkeysの中にstringが含まれている場合
19		result = int(digit) - mold[string]
20		value = mold[string]
21	else:
22		value = 0
23		result = int(digit)
24	print(string, value, result)

質問内容の修正に伴い、コード修正

python
1lst = []
2with open('list_file.txt', 'r') as c:
3	for line in c:
4		string, digit = line.split()
5		lst.append([string, int(digit)])
6
7data = {}
8with open('data_file.txt', 'r') as f:
9	for line in f:
10		string, digit = line.split()
11		data[string] = int(digit)
12
13for l in lst:
14	string = l[0]	# 可読性をよくする為だけにわざと代入しています
15	digit = l[1]	# 可読性をよくする為だけにわざと代入しています
16	if string in [key for key in data.keys()]:
17		value = data[string]
18		result = digit - data[string]
19	else:
20		value = 0
21		result = digit
22	print(string, value, result, sep='\t')