質問編集履歴

6

最終的に得たい結果の例を追記しました。

2020/09/02 02:10

投稿

minus222
minus222

スコア1

test CHANGED
File without changes
test CHANGED
@@ -64,7 +64,7 @@
64
64
 
65
65
 
66
66
 
67
- ### 結果
67
+ ### 結果
68
68
 
69
69
  ```Python
70
70
 
@@ -74,7 +74,7 @@
74
74
 
75
75
 
76
76
 
77
- ### 扱いたいデータの例
77
+ ### 扱いたいデータの例
78
78
 
79
79
  ```text
80
80
 
@@ -257,3 +257,35 @@
257
257
  AAATGG
258
258
 
259
259
  ```
260
+
261
+
262
+
263
+ ### 最終的に得たい結果の例
264
+
265
+ 字数制限の都合上ATCG列は途中省略しました。
266
+
267
+ ```text
268
+
269
+ Homo_sapiens
270
+
271
+ AT(省略)GA
272
+
273
+
274
+
275
+ Mus_musculus
276
+
277
+ GA(省略)AA
278
+
279
+
280
+
281
+ Rattus_norvegicus
282
+
283
+ CA(省略)TA
284
+
285
+
286
+
287
+ Drosophila_melanogaster
288
+
289
+ AG(省略)GG
290
+
291
+ ```

5

np.nanをNaNに訂正しました。

2020/09/02 02:10

投稿

minus222
minus222

スコア1

test CHANGED
File without changes
test CHANGED
@@ -1,12 +1,12 @@
1
1
  ### 前提・実現したいこと
2
2
 
3
- Pythonのpandasを用いてテキストファイルを読み込み作成したデータフレームのカラムから、正規表現で[]が含まれるカラム要素(カラムの要素のうちどれか1つ、そしてその1つのみに[]が含まれることは判明している)の[]内の文字列のみを抽出し、それを第0列のカラム要素として再インデックス付与した上で他のカラム要素をnp.nanにしたいです。
3
+ Pythonのpandasを用いてテキストファイルを読み込み作成したデータフレームのカラムから、正規表現で[]が含まれるカラム要素(カラムの要素のうちどれか1つ、そしてその1つのみに[]が含まれることは判明している)の[]内の文字列のみを抽出し、それを第0列のカラム要素として再インデックス付与した上で他のカラム要素をNaNにしたいです。
4
4
 
5
5
 
6
6
 
7
7
  ### 詳細
8
8
 
9
- コマンドラインで入力したテキストファイルをPythonのArgparse、pandasで読み込んで第0列のカラム要素をカラムのある要素に含まれる[]の中の文字列に置き換えて他のカラム要素を全てnp.nanにし、さらにある列の要素に[]を含む行全ての第0列の要素をその行の[]内の文字列のみに置き換えて他の列の要素をnp.nanとするテキスト編集プログラムを作ろうとしています。そこでインターネットで調べたのですが、データフレームの要素を正規表現で検索、抽出する方法は分かったのですが、カラムのある要素を正規表現で検索、抽出する方法が分からないので教えて欲しいです。
9
+ コマンドラインで入力したテキストファイルをPythonのArgparse、pandasで読み込んで第0列のカラム要素をカラムのある要素に含まれる[]の中の文字列に置き換えて他のカラム要素を全てNaNにし、さらにある列の要素に[]を含む行全ての第0列の要素をその行の[]内の文字列のみに置き換えて他の列の要素をNaNとするテキスト編集プログラムを作ろうとしています。そこでインターネットで調べたのですが、データフレームの要素を正規表現で検索、抽出する方法は分かったのですが、カラムのある要素を正規表現で検索、抽出する方法が分からないので教えて欲しいです。
10
10
 
11
11
 
12
12
 

4

微修正しました。内容に変更はありません。

2020/09/02 01:37

投稿

minus222
minus222

スコア1

test CHANGED
File without changes
test CHANGED
@@ -1,8 +1,4 @@
1
- ```ここに言語を入力
2
-
3
- コード
4
-
5
- ```### 前提・実現したいこと
1
+ ### 前提・実現したいこと
6
2
 
7
3
  Pythonのpandasを用いてテキストファイルを読み込み作成したデータフレームのカラムから、正規表現で[]が含まれるカラム要素(カラムの要素のうちどれか1つ、そしてその1つのみに[]が含まれることは判明している)の[]内の文字列のみを抽出し、それを第0列のカラム要素として再インデックス付与した上で他のカラム要素をnp.nanにしたいです。
8
4
 

3

コード、結果、データをマークダウンで整形しました。

2020/09/02 01:03

投稿

minus222
minus222

スコア1

test CHANGED
File without changes
test CHANGED
@@ -1,4 +1,8 @@
1
+ ```ここに言語を入力
2
+
3
+ コード
4
+
1
- ### 前提・実現したいこと
5
+ ```### 前提・実現したいこと
2
6
 
3
7
  Pythonのpandasを用いてテキストファイルを読み込み作成したデータフレームのカラムから、正規表現で[]が含まれるカラム要素(カラムの要素のうちどれか1つ、そしてその1つのみに[]が含まれることは判明している)の[]内の文字列のみを抽出し、それを第0列のカラム要素として再インデックス付与した上で他のカラム要素をnp.nanにしたいです。
4
8
 
@@ -24,6 +28,8 @@
24
28
 
25
29
  ### コード(未完成)
26
30
 
31
+ ```Python
32
+
27
33
  import argparse
28
34
 
29
35
  import numpy as np
@@ -58,19 +64,23 @@
58
64
 
59
65
  main()
60
66
 
67
+ ```
68
+
61
69
 
62
70
 
63
71
  ### 結果
64
72
 
73
+ ```Python
74
+
65
75
  TypeError: expected string or bytes-like object
66
76
 
77
+ ```
78
+
67
79
 
68
80
 
69
81
  ### 扱いたいデータの例
70
82
 
71
- 以下のような内容のテキストファイル
83
+ ```text
72
-
73
-
74
84
 
75
85
  >NEU2 neuraminidase 2[Homo sapiens] Gene ID: 4759, updated on 22-Aug-2020 NM_005383.2
76
86
 
@@ -249,3 +259,5 @@
249
259
  AAGGCACTTAAGTGTGTTTTGGTACGGGAATGACAACTTGTGAATTTTTGTTCTCAGTTTTGCTAATTGT
250
260
 
251
261
  AAATGG
262
+
263
+ ```

2

扱いたいデータの例を追記しました。

2020/09/02 01:01

投稿

minus222
minus222

スコア1

test CHANGED
File without changes
test CHANGED
@@ -63,3 +63,189 @@
63
63
  ### 結果
64
64
 
65
65
  TypeError: expected string or bytes-like object
66
+
67
+
68
+
69
+ ### 扱いたいデータの例
70
+
71
+ 以下のような内容のテキストファイル
72
+
73
+
74
+
75
+ >NEU2 neuraminidase 2[Homo sapiens] Gene ID: 4759, updated on 22-Aug-2020 NM_005383.2
76
+
77
+ ATGGCGTCCCTTCCTGTCCTGCAGAAGGAGAGCGTGTTCCAGTCGGGAGCCCATGCCTACAGAATCCCTG
78
+
79
+ CCCTGCTCTACCTGCCTGGGCAGCAGTCCCTGCTGGCCTTCGCGGAACAGCGGGCAAGCAAGAAGGATGA
80
+
81
+ GCACGCAGAGCTGATTGTCCTGCGCAGAGGAGACTACGACGCACCCACCCACCAGGTTCAGTGGCAAGCT
82
+
83
+ CAGGAGGTGGTGGCCCAGGCCCGGCTGGATGGCCACCGGTCCATGAACCCATGCCCCTTGTATGACGCGC
84
+
85
+ AGACGGGGACCCTCTTCCTCTTCTTCATTGCCATCCCTGGGCAAGTCACGGAGCAACAGCAGCTGCAGAC
86
+
87
+ CAGGGCCAATGTGACGCGGCTGTGCCAAGTCACCAGCACTGACCACGGGAGGACCTGGAGCTCCCCCAGA
88
+
89
+ GACCTCACTGATGCGGCCATCGGCCCAGCCTACCGGGAGTGGTCCACCTTTGCAGTGGGCCCGGGGCATT
90
+
91
+ GTTTGCAGCTTCACGACAGGGCCCGGAGCCTGGTGGTGCCCGCCTACGCCTACCGGAAACTTCACCCCAT
92
+
93
+ CCAAAGGCCGATCCCCTCTGCCTTCTGCTTCCTCAGCCATGACCATGGGCGCACGTGGGCGCGAGGGCAC
94
+
95
+ TTTGTGGCCCAGGACACCCTGGAGTGCCAGGTGGCCGAAGTCGAGACTGGGGAGCAGAGGGTGGTGACCC
96
+
97
+ TCAACGCGAGAAGCCACCTCCGAGCCAGGGTCCAGGCCCAGAGCACCAATGACGGGCTTGATTTCCAGGA
98
+
99
+ GTCTCAGCTGGTGAAGAAGCTGGTGGAGCCGCCGCCCCAGGGCTGCCAGGGGAGCGTCATCAGCTTCCCC
100
+
101
+ AGCCCCCGCTCGGGGCCTGGCTCCCCAGCCCAGTGGCTGCTCTACACTCACCCCACACACTCCTGGCAGA
102
+
103
+ GGGCCGACCTGGGTGCCTACCTCAACCCGCGACCTCCAGCCCCTGAGGCCTGGTCAGAGCCGGTACTGCT
104
+
105
+ GGCCAAGGGCAGCTGTGCCTACTCAGACCTCCAGAGCATGGGCACCGGCCCTGATGGGTCCCCCTTGTTT
106
+
107
+ GGGTGTCTGTACGAAGCCAATGATTACGAGGAGATTGTCTTTCTCATGTTCACCCTGAAGCAAGCCTTCC
108
+
109
+ CAGCTGAGTACCTGCCTCAGTGA
110
+
111
+
112
+
113
+ >Neu2 neuraminidase 2[Mus musculus] Gene ID: 23956, updated on 25-Aug-2020 NM_001160163.1
114
+
115
+ GACATGACCCAAACGGCCCCTGGCTGCAAGGTAATATCGGAAGTTGACTAAGAATGGACGCCCCACCACT
116
+
117
+ GACTGACCCGCCCCCTGAGTCTGAGATTGGACTTGTCTCTGGATACAGTCATACTTTGAGGTACTACAAG
118
+
119
+ TTAGAAACTGTTAGGTTACTCAGTTCAGTCCATGACAGTCCAACCTTCTCCATGGTTTTCCGATCTCAGG
120
+
121
+ CCCATGGCGACCTGCCCTGTCCTGCAGAAGGAGACACTGTTCCGCACAGGCGTCCATGCTTACAGAATCC
122
+
123
+ CTGCTCTGCTCTACCTGAAGAAGCAGAAGACCCTGCTGGCCTTTGCGGAAAAGCGAGCCAGCAAGACGGA
124
+
125
+ TGAGCACGCAGAGTTGATTGTCCTGAGAAGAGGAAGCTACAACGAAGCCACCAACCGTGTCAAGTGGCAG
126
+
127
+ CCTGAGGAAGTGGTGACCCAAGCCCAGCTGGAAGGCCACCGCTCCATGAATCCATGTCCCTTGTATGACA
128
+
129
+ AGCAAACAAAGACCCTCTTCCTTTTCTTCATCGCTGTCCCTGGGCGTGTATCAGAACATCATCAGCTCCA
130
+
131
+ CACTAAGGTTAATGTCACACGGCTGTGCTGTGTCAGCAGCACTGACCATGGGAGGACCTGGAGCCCCATC
132
+
133
+ CAGGACCTCACAGAGACCACCATTGGCAGCACTCATCAGGAATGGGCCACATTTGCTGTGGGTCCTGGGC
134
+
135
+ ATTGTCTGCAGCTGCGGAACCCAGCTGGGAGCCTGCTGGTACCTGCTTATGCCTACCGGAAACTGCACCC
136
+
137
+ TGCTCAGAAGCCTACCCCCTTTGCCTTCTGCTTCATCAGCCTTGACCATGGGCACACATGGAAACTAGGC
138
+
139
+ AACTTTGTGGCTGAAAACTCACTGGAGTGCCAGGTGGCTGAGGTTGGCACTGGAGCTCAGAGGATGGTAT
140
+
141
+ ATCTCAATGCTAGGAGCTTCCTGGGAGCCAGGGTCCAGGCACAAAGTCCTAATGATGGTCTGGATTTCCA
142
+
143
+ GGACAACCGGGTAGTGAGTAAGCTTGTAGAGCCCCCCCACGGGTGTCATGGAAGTGTGGTTGCCTTCCAC
144
+
145
+ AACCCCATCTCTAAGCCACATGCCTTAGACACATGGCTTCTTTATACACACCCTACAGACTCCAGGAATA
146
+
147
+ GAACCAACCTGGGTGTGTACCTAAACCAGATGCCACTAGATCCCACAGCCTGGTCAGAGCCCACCCTGCT
148
+
149
+ GGCCATGGGCATCTGTGCCTACTCAGACTTACAGAACATGGGGCAAGGCCCTGATGGCTCCCCACAGTTT
150
+
151
+ GGGTGTCTGTATGAATCAGGTAACTATGAAGAGATCATTTTCCTCATATTCACCCTGAAGCAAGCTTTCC
152
+
153
+ CCACTGTATTTGATGCCCAGTGATCTCAGTGCACGTGGCCCAAAGGGCTTCCTTGTGCTTCAAAACACCC
154
+
155
+ ATCTCTCTTTGCTTCCAGCATCCTCTGGACTCTTGAGTCCAGCTCTTGGGTAACTTCCTCAGGAGGATGC
156
+
157
+ AGAGAATTTGGTCTCTTGACTCTCTGCAGGCCTTATTGTTTCAGCCTCTGGTTCTCTTTTCAGCCCAGAA
158
+
159
+ ATCAAAGGAGCCTGGCTTTCCTCAGCCTGTTGGCAGGGCAGGTGGGGACAGTATATATAGAGGCTGCCAT
160
+
161
+ TCTGCATGTCGGTTGTCACTATGCTAGTTTAACCTGCCTGTTTCCCCATGCCTAGTGTTTGAATGAGTAT
162
+
163
+ TAATAAAATATCCAACCCAGCCCATTTCTTCCTGGAAAAAAA
164
+
165
+
166
+
167
+ >Neu2 neuraminidase 2[Rattus norvegicus] Gene ID: 29204, updated on 4-Jun-2020 XM_006245364.1
168
+
169
+ CACACACCTTCCTAGAAGCCAGGCAAGAGGGGAGGTGCCACTGAGGTGCAGGTTGACATGACCAGAACAG
170
+
171
+ TTCCTGGCTACAAGATCTCAGGCCCATGGAGACCTGCCCCGTCCTCCAGAAAGAGACGCTGTTCCACACA
172
+
173
+ GAAGTCTATGCTTACAGAATCCCTGCTCTGCTCTACCTGAAGAAGCAGAAGACCCTGCTGGCCTTTGCAG
174
+
175
+ AAAAGCGAGCCAGCAGGACGGATGAGCATGCTGAGTTGATTGTCCTGCGAAGAGGGAGCTACAATGGAGC
176
+
177
+ CACCAACCATGTCAAGTGGCAACCTGAGGAAGTGGTGACCCAAGCCCAGCTGGAGGGCCACCGCTCCATG
178
+
179
+ AATCCATGTCCCTTGTATGACAAGCAAACAAAGACCCTCTTCCTTTTCTTCATTGCTGTCCCTGGGCGTG
180
+
181
+ TATCAGAACAGCATCAGCTCCAAACTAGGGTTAATGTCACACGGCTATGCCGTGTCACCAGCACCGATTA
182
+
183
+ TGGGATGAACTGGAGCCCCGTCCAGGACCTCACAGAGACCACCATTGGCAGCACCCACCAGGACTGGGCC
184
+
185
+ ACATTTGCTGTGGGTCCAGGGCACTGTCTGCAGCTGCGGAACAGAGCTGGGAGCCTGCTGGTACCTGCTT
186
+
187
+ ATGCCTACCAGAAGCTGCACCCTGTCCATAAACCTACCCCCTTTGCCTTCTGCTTCATCAGCCTTGACCA
188
+
189
+ CGGGCACACGTGGGAACTAGGGAACTTTGTGTCTGAGAACTCACTGGAGTGTCAGGTGGCTGAGGTTGGC
190
+
191
+ ACTGGTGCTCATAGGGTGGTATATCTCAATGCTAGGAGCTTCATAGGAGCTAGAGTCCAGGCACAAAGTC
192
+
193
+ CTAACGATGGCCTGGATTTCCAGGACAACCAGGTAGTAAGTAAGCTTGTAGAGCCCCCCCACGGGTGTCA
194
+
195
+ TGGAAGTGTGGTCGCCTTCCACAGCCCCACCTCTAAGCCAGATGCCTTAGACATGTGGCTGCTTTATACC
196
+
197
+ CACCCTACGGACTCCAGGAATAGAACCAACCTGGGCGTGTACCTCAACCAGACGCCACTAGATCCCACAG
198
+
199
+ CCTGGTCAGAGCCCACCCTGCTAGCCACGGGCACCTGTGCCTACTCAGACTTGCAGAATATGGGGCGTGG
200
+
201
+ CCCTGATGGGTCCCCACAGTTTGGGTGCCTGTATGAATCAGGTAACTATGACGAGATCATTTTCCTCATG
202
+
203
+ TTCACCCTGAAGCAAGCTTTTCCCACAGTACATGGTGCTCAGTGACCTCATTGCATGTGGCTTCCAAAGG
204
+
205
+ GCTTCCTGTGCTTCAGAACACCCGTCTCTCTTTCCTTCCAGCATCCTCTGGACTCTTGAATCCAGCTCTT
206
+
207
+ GGGTCTGTTCCTTGGGAGTATACAGAGAGTTTGGTCTCTTGACTCTTAGCAAGTTTTGTTCTTTCAGCCT
208
+
209
+ CCGAAAGTGGGTTCTATTTTCAGCCCAGAAATCAAAGGAGCCTGACTTTCCTCAGCCTGTATGTATAAAG
210
+
211
+ GCTGCCACTCTGCATGTTGGCTGTCACTATGTTAGCTTAACCTGCCTGTTTCCCCATGCCTAGTTTTTGG
212
+
213
+ ATGAATATTAATAAATTAATTATCCTACTCAGCCTA
214
+
215
+
216
+
217
+ >Neu2 Neuroectoderm-expressed 2[Drosophila melanogaster] Gene ID: 40375, created on 31-Jul-2003 NM_001275231.1
218
+
219
+ AGAAGGAGTACAACCCTTGTCATAGCAACATCTTTACAGATTGCCAATTCCTGTGCTTATTGCCACATTT
220
+
221
+ TAAATACGCATTCGCCGTGAACAAACACGAAAATAAGATCGATGGAATCGTCAATATGCCGAGTTTGCCT
222
+
223
+ GGTCAGTTACGAAAATATGGCCAGTGTTTTCGATGAGTCTCATGAACCGGGCCTATCCATTGCGTACATA
224
+
225
+ ATATACAAGTGCACCGGCTGGCAAGTTGAGAAGCACGATCCACTGTCCAACACCATATGCAAGTCCTGTC
226
+
227
+ TGGAGGATGCGCAGAATGCATTCGATATCATAGAAACGTACGAGAGAAGTCACCAGTTTTACCGCTTCCT
228
+
229
+ CAAGGATGTACGGGAGGAGGAGAGTGAAAATGATGGATCCGGATGCTCAGAAGAAGTGGAGGCAGCTGAG
230
+
231
+ AGGGATCTCCAGGATGGTGCCGACGACGTCGATTCCGGCAATGAACCTGATATTAACGAATGTGATATCA
232
+
233
+ AGGCCAAGGAGAAACCAGGCTTTAGCTGTTCTCACTGCCCTAAATCTTTTCAAGTAAAATCAAATCTGAA
234
+
235
+ GGTACACATGCGTTCACACACAGGAGAACGTCCCTTCACGTGTTCCCTCTGCCCCAAGTCCTTTGGCTAT
236
+
237
+ AGCTCTGGTCTTCAGAATCACATGCGAACCCACACAGGAGAACGACCCTTCCAGTGCTCGCATTGCCCAA
238
+
239
+ GGTCCTTTACAGCTGGGCACCACCTCAAGGCCCACATACAGATGCACGAAAGAAGAGGATCGTTAAGGTG
240
+
241
+ CCCATACTGCCAAAAGTGCTTTCTAACTTCTTTAATTCTCAAGCAGCATTTGGCCACGCACACTGATGAA
242
+
243
+ ACGCAGTTCAAGTGTTCCCAGTGCTCGAAGTCCTTTCAAGTCGAACATGAACTTTGGATGCACATGCGAG
244
+
245
+ TGCACCAAGAACGCCTCTTTACTTGTGGCCATTGCTCAAAGGACTTTGCGCTACATGCGTATCTCAAGCG
246
+
247
+ ACACCTGTCAAGGAACGCGAGATGCTCTCAAAGCTCAAAAGCATCTGCTCACAAAACACTAGGCCACTCA
248
+
249
+ AAGGCACTTAAGTGTGTTTTGGTACGGGAATGACAACTTGTGAATTTTTGTTCTCAGTTTTGCTAATTGT
250
+
251
+ AAATGG

1

コードと結果を追記しました。

2020/09/01 07:31

投稿

minus222
minus222

スコア1

test CHANGED
File without changes
test CHANGED
@@ -19,3 +19,47 @@
19
19
  ### 使用ライブラリ
20
20
 
21
21
  pandas, NumPy, Argparse
22
+
23
+
24
+
25
+ ### コード(未完成)
26
+
27
+ import argparse
28
+
29
+ import numpy as np
30
+
31
+ import pandas as pd
32
+
33
+ import re
34
+
35
+
36
+
37
+ def main():
38
+
39
+ parser = argparse.ArgumentParser(description="")
40
+
41
+ parser.add_argument("importfile", type=str, help="TSV file input")
42
+
43
+ args = parser.parse_args()
44
+
45
+ df = pd.read_table(args.importfile)
46
+
47
+ df_column_list=list(df.columns)
48
+
49
+ df_column_list_2=re.findall('(?<=[).*?(?=])',df_column_list)
50
+
51
+ df.columns=df_column_list_2
52
+
53
+ print(df)
54
+
55
+
56
+
57
+ if __name__ == "__main__":
58
+
59
+ main()
60
+
61
+
62
+
63
+ ### 結果
64
+
65
+ TypeError: expected string or bytes-like object