質問編集履歴
5
混乱のないように、文章を修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、下方のXMLファイルがあり、私の手元には以下の「参照用のID listファイル」があります。ID を
|
5
|
+
例えば、下方のXMLファイルがあり、私の手元には以下の「参照用のID listファイル」があります。inputファイルとしてこのID list を使い、xml ファイル内の<Ids>に必ず記載されているIDと照合し、もし一致した場合に、その子要素として必ず一緒に記述されている特定の要素(<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>)の</Attribute>の前のキーワード(ここではsurface water)を抽出し、元のIDとともに出力するにはどのようにすればよろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加1】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして試行錯誤中ですが、子要素内のIDやキーワードを抽出することもできておらず、引き続き勉強中です。【追加2】XMLファイルをソースからそのままコピーしました。
|
6
6
|
|
7
7
|
|
8
8
|
|
4
疑問点を絞り、書式全体を修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、下方の
|
5
|
+
例えば、下方のXMLファイルがあり、私の手元には以下の「参照用のID listファイル」があります。ID を照合しながら、xml ファイル内に必ずあるIDを検索し、その子要素として一緒に必ず記述されている特定の要素(<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>)の</Attribute>の前のキーワード(ここではsurface water)を抽出し、元のIDとともに出力するにはどのようにすればよろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加1】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして試行錯誤中ですが、子要素内のIDやキーワードを抽出することもできておらず、引き続き勉強中です。【追加2】XMLファイルをソースからそのままコピーしました。
|
6
6
|
|
7
7
|
|
8
8
|
|
@@ -10,19 +10,21 @@
|
|
10
10
|
|
11
11
|
|
12
12
|
|
13
|
+
SAMN03741962
|
14
|
+
|
13
15
|
SAMN03741963
|
14
16
|
|
15
|
-
SAMN03741964
|
16
|
-
|
17
17
|
|
18
18
|
|
19
19
|
●XMLファイルと照合後に出力したいlist ファイル
|
20
20
|
|
21
21
|
|
22
22
|
|
23
|
+
SAMN03741962^ surface water
|
24
|
+
|
23
|
-
SAMN03741963^ surface water
|
25
|
+
SAMN03741963^ surface water
|
24
|
-
|
25
|
-
|
26
|
+
|
27
|
+
|
26
28
|
|
27
29
|
*ここで「^」はタブ区切りを示しています。
|
28
30
|
|
@@ -32,20 +34,124 @@
|
|
32
34
|
|
33
35
|
|
34
36
|
|
37
|
+
```XML
|
38
|
+
|
35
39
|
<?xml version="1.0" encoding="UTF-8"?>
|
36
40
|
|
37
41
|
<BioSampleSet>
|
38
42
|
|
39
|
-
<BioSample access="public" publication_date="2015-11-08T06:
|
43
|
+
<BioSample access="public" publication_date="2015-11-08T00:00:00.000" last_update="2019-06-20T17:16:02.371" submission_date="2015-05-28T09:58:39.000" id="3741962" accession="SAMN03741962">
|
40
|
-
|
41
|
-
last_update="2015-11-08T06:44:46.060"
|
42
|
-
|
43
|
-
submission_date="2015-05-28T09:58:39.470" id="3741963"
|
44
|
-
|
45
|
-
accession="SAMN03741963">
|
46
44
|
|
47
45
|
<Ids>
|
48
46
|
|
47
|
+
<Id db="BioSample" is_primary="1">SAMN03741962</Id>
|
48
|
+
|
49
|
+
<Id db_label="Sample name">BACL4 MAG-120507-bin80</Id>
|
50
|
+
|
51
|
+
</Ids>
|
52
|
+
|
53
|
+
<Description>
|
54
|
+
|
55
|
+
<Title>Microbe sample from OM182 bacterium BACL3 MAG-120507-bin80</Title>
|
56
|
+
|
57
|
+
<Organism taxonomy_id="1655577" taxonomy_name="OM182 bacterium BACL3 MAG-120507-bin80">
|
58
|
+
|
59
|
+
<OrganismName>OM182 bacterium BACL3 MAG-120507-bin80</OrganismName>
|
60
|
+
|
61
|
+
</Organism>
|
62
|
+
|
63
|
+
<Comment>
|
64
|
+
|
65
|
+
<Paragraph>Genome assembled from metagenome sample SAMN03351369</Paragraph>
|
66
|
+
|
67
|
+
</Comment>
|
68
|
+
|
69
|
+
</Description>
|
70
|
+
|
71
|
+
<Owner>
|
72
|
+
|
73
|
+
<Name>Kungliga Tekniska Hogskolan, Science for Life Laboratory</Name>
|
74
|
+
|
75
|
+
<Contacts>
|
76
|
+
|
77
|
+
<Contact email="luisa.hugerth@scilifelab.se">
|
78
|
+
|
79
|
+
<Name>
|
80
|
+
|
81
|
+
<First>Luisa</First>
|
82
|
+
|
83
|
+
<Last>Hugerth</Last>
|
84
|
+
|
85
|
+
<Middle>W</Middle>
|
86
|
+
|
87
|
+
</Name>
|
88
|
+
|
89
|
+
</Contact>
|
90
|
+
|
91
|
+
</Contacts>
|
92
|
+
|
93
|
+
</Owner>
|
94
|
+
|
95
|
+
<Models>
|
96
|
+
|
97
|
+
<Model>Microbe, viral or environmental</Model>
|
98
|
+
|
99
|
+
</Models>
|
100
|
+
|
101
|
+
<Package display_name="Microbe; version 1.0">Microbe.1.0</Package>
|
102
|
+
|
103
|
+
<Attributes>
|
104
|
+
|
105
|
+
<Attribute attribute_name="strain" harmonized_name="strain" display_name="strain">not applicable</Attribute>
|
106
|
+
|
107
|
+
<Attribute attribute_name="Salinity (PSU)">6.6</Attribute>
|
108
|
+
|
109
|
+
<Attribute attribute_name="depth" harmonized_name="depth" display_name="depth">2</Attribute>
|
110
|
+
|
111
|
+
<Attribute attribute_name="env_biome" harmonized_name="env_broad_scale" display_name="broad-scale environmental context">Brackish water</Attribute>
|
112
|
+
|
113
|
+
<Attribute attribute_name="collection_date" harmonized_name="collection_date" display_name="collection date">07-May-2012</Attribute>
|
114
|
+
|
115
|
+
<Attribute attribute_name="temp" harmonized_name="temp" display_name="temperature">5.6</Attribute>
|
116
|
+
|
117
|
+
<Attribute attribute_name="environmental-sample">TRUE</Attribute>
|
118
|
+
|
119
|
+
<Attribute attribute_name="sample_type" harmonized_name="sample_type" display_name="sample type">Metagenomic Assembly</Attribute>
|
120
|
+
|
121
|
+
<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>
|
122
|
+
|
123
|
+
<Attribute attribute_name="geo_loc_name" harmonized_name="geo_loc_name" display_name="geographic location">Baltic Sea</Attribute>
|
124
|
+
|
125
|
+
<Attribute attribute_name="lat_lon" harmonized_name="lat_lon" display_name="latitude and longitude">56.930850 N 17.060667 E</Attribute>
|
126
|
+
|
127
|
+
<Attribute attribute_name="metagenomic">TRUE</Attribute>
|
128
|
+
|
129
|
+
<Attribute attribute_name="metagenome-source">marine metagenome</Attribute>
|
130
|
+
|
131
|
+
<Attribute attribute_name="isolation-source" harmonized_name="isolation_source" display_name="isolation source">brackish water collected from the surface of the Baltic Sea</Attribute>
|
132
|
+
|
133
|
+
<Attribute attribute_name="isolate" harmonized_name="isolate" display_name="isolate">BACL4 MAG-120507-bin80</Attribute>
|
134
|
+
|
135
|
+
</Attributes>
|
136
|
+
|
137
|
+
<Links>
|
138
|
+
|
139
|
+
<Link target="bioproject" type="entrez" label="PRJNA273799">273799</Link>
|
140
|
+
|
141
|
+
</Links>
|
142
|
+
|
143
|
+
<Status status="live" when="2015-11-08T06:44:46.013"/>
|
144
|
+
|
145
|
+
</BioSample>
|
146
|
+
|
147
|
+
<BioSample access="public" publication_date="2015-11-08T06:44:46.060" last_update="2015-11-08T06:44:46.060" submission_date="2015-05-28T09:58:39.470" id="3741963" accession="SAMN03741963">
|
148
|
+
|
149
|
+
<Ids>
|
150
|
+
|
151
|
+
--
|
152
|
+
|
153
|
+
<Ids>
|
154
|
+
|
49
155
|
<Id db="BioSample" is_primary="1">SAMN03741963</Id>
|
50
156
|
|
51
157
|
<Id db_label="Sample name">BACL4 MAG-120813-bin39</Id>
|
@@ -54,25 +160,17 @@
|
|
54
160
|
|
55
161
|
<Description>
|
56
162
|
|
57
|
-
<Title>Microbe sample from Actinobacteria bacterium BACL4
|
163
|
+
<Title>Microbe sample from Actinobacteria bacterium BACL4 MAG-120813-bin39</Title>
|
58
|
-
|
59
|
-
|
164
|
+
|
60
|
-
|
61
|
-
<Organism taxonomy_id="1655578" taxonomy_name="Actinobacteria
|
165
|
+
<Organism taxonomy_id="1655578" taxonomy_name="Actinobacteria bacterium BACL4 MAG-120813-bin39">
|
62
|
-
|
63
|
-
|
166
|
+
|
64
|
-
|
65
|
-
<OrganismName>Actinobacteria bacterium BACL4
|
167
|
+
<OrganismName>Actinobacteria bacterium BACL4 MAG-120813-bin39</OrganismName>
|
66
|
-
|
67
|
-
MAG-120813-bin39</OrganismName>
|
68
168
|
|
69
169
|
</Organism>
|
70
170
|
|
71
171
|
<Comment>
|
72
172
|
|
73
|
-
<Paragraph>Genome assembled from metagenome sample
|
173
|
+
<Paragraph>Genome assembled from metagenome sample SAMN03351393</Paragraph>
|
74
|
-
|
75
|
-
SAMN03351393</Paragraph>
|
76
174
|
|
77
175
|
</Comment>
|
78
176
|
|
@@ -84,7 +182,7 @@
|
|
84
182
|
|
85
183
|
<Contacts>
|
86
184
|
|
87
|
-
<Contact email="aa
|
185
|
+
<Contact email="luisa.hugerth@scilifelab.se">
|
88
186
|
|
89
187
|
<Name>
|
90
188
|
|
@@ -112,73 +210,35 @@
|
|
112
210
|
|
113
211
|
<Attributes>
|
114
212
|
|
115
|
-
<Attribute attribute_name="strain" harmonized_name="strain"
|
213
|
+
<Attribute attribute_name="strain" harmonized_name="strain" display_name="strain">not applicable</Attribute>
|
116
|
-
|
117
|
-
display_name="strain">not applicable</Attribute>
|
118
214
|
|
119
215
|
<Attribute attribute_name="Salinity (PSU)">6.2</Attribute>
|
120
216
|
|
121
|
-
<Attribute attribute_name="depth" harmonized_name="depth"
|
217
|
+
<Attribute attribute_name="depth" harmonized_name="depth" display_name="depth">2</Attribute>
|
122
|
-
|
123
|
-
|
218
|
+
|
124
|
-
|
125
|
-
<Attribute attribute_name="env_biome"
|
126
|
-
|
127
|
-
harmonized_name="env_broad_scale" display_name="broad-scale
|
219
|
+
<Attribute attribute_name="env_biome" harmonized_name="env_broad_scale" display_name="broad-scale environmental context">Brackish water</Attribute>
|
128
|
-
|
129
|
-
|
220
|
+
|
130
|
-
|
131
|
-
<Attribute attribute_name="collection_date"
|
132
|
-
|
133
|
-
harmonized_name="collection_date" display_name="collection
|
221
|
+
<Attribute attribute_name="collection_date" harmonized_name="collection_date" display_name="collection date">13-Aug-2012</Attribute>
|
134
|
-
|
135
|
-
|
222
|
+
|
136
|
-
|
137
|
-
<Attribute attribute_name="temp" harmonized_name="temp"
|
223
|
+
<Attribute attribute_name="temp" harmonized_name="temp" display_name="temperature">18.2</Attribute>
|
138
|
-
|
139
|
-
display_name="temperature">18.2</Attribute>
|
140
224
|
|
141
225
|
<Attribute attribute_name="environmental-sample">TRUE</Attribute>
|
142
226
|
|
143
|
-
<Attribute attribute_name="sample_type"
|
144
|
-
|
145
|
-
harmonized_name="sample_type" display_name="sample type">Metagenomic
|
227
|
+
<Attribute attribute_name="sample_type" harmonized_name="sample_type" display_name="sample type">Metagenomic Assembly</Attribute>
|
146
|
-
|
147
|
-
|
228
|
+
|
148
|
-
|
149
|
-
<Attribute attribute_name="isolation_source"
|
150
|
-
|
151
|
-
harmonized_name="isolation_source" display_name="isolation
|
229
|
+
<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>
|
152
|
-
|
153
|
-
|
230
|
+
|
154
|
-
|
155
|
-
<Attribute attribute_name="geo_loc_name"
|
156
|
-
|
157
|
-
harmonized_name="geo_loc_name" display_name="geographic
|
158
|
-
|
159
|
-
location">Baltic Sea</Attribute>
|
160
|
-
|
161
|
-
<Attribute attribute_name="
|
231
|
+
<Attribute attribute_name="geo_loc_name" harmonized_name="geo_loc_name" display_name="geographic location">Baltic Sea</Attribute>
|
162
|
-
|
232
|
+
|
163
|
-
display_name="latitude and longitude">56.930850 N 17.060667
|
233
|
+
<Attribute attribute_name="lat_lon" harmonized_name="lat_lon" display_name="latitude and longitude">56.930850 N 17.060667 E</Attribute>
|
164
|
-
|
165
|
-
E</Attribute>
|
166
234
|
|
167
235
|
<Attribute attribute_name="metagenomic">TRUE</Attribute>
|
168
236
|
|
169
237
|
<Attribute attribute_name="metagenome-source">marine metagenome</Attribute>
|
170
238
|
|
171
|
-
<Attribute attribute_name="isolation-source"
|
172
|
-
|
173
|
-
harmonized_name="isolation_source" display_name="isolation
|
239
|
+
<Attribute attribute_name="isolation-source" harmonized_name="isolation_source" display_name="isolation source">brackish water collected from the surface of the Baltic Sea</Attribute>
|
174
|
-
|
175
|
-
|
240
|
+
|
176
|
-
|
177
|
-
Sea</Attribute>
|
178
|
-
|
179
|
-
<Attribute attribute_name="isolate" harmonized_name="isolate"
|
241
|
+
<Attribute attribute_name="isolate" harmonized_name="isolate" display_name="isolate">BACL4 MAG-120813-bin39</Attribute>
|
180
|
-
|
181
|
-
display_name="isolate">BACL4 MAG-120813-bin39</Attribute>
|
182
242
|
|
183
243
|
</Attributes>
|
184
244
|
|
@@ -192,163 +252,9 @@
|
|
192
252
|
|
193
253
|
</BioSample>
|
194
254
|
|
195
|
-
<BioSample access="public" publication_date="2015-11-08T06:44:46.120"
|
196
|
-
|
197
|
-
last_update="2015-11-08T06:44:46.120"
|
198
|
-
|
199
|
-
submission_date="2015-05-28T09:58:39.527" id="3741964"
|
200
|
-
|
201
|
-
accession="SAMN03741964">
|
202
|
-
|
203
|
-
|
255
|
+
```
|
204
|
-
|
205
|
-
|
256
|
+
|
206
|
-
|
207
|
-
|
257
|
+
|
208
|
-
|
209
|
-
<Id db_label="Sample name">BACL4 MAG-120820-bin23</Id>
|
210
|
-
|
211
|
-
</Ids>
|
212
|
-
|
213
|
-
<Description>
|
214
|
-
|
215
|
-
<Title>Microbe sample from Actinobacteria bacterium BACL4
|
216
|
-
|
217
|
-
MAG-120820-bin23</Title>
|
218
|
-
|
219
|
-
<Organism taxonomy_id="1655579" taxonomy_name="Actinobacteria
|
220
|
-
|
221
|
-
bacterium BACL4 MAG-120820-bin23">
|
222
|
-
|
223
|
-
<OrganismName>Actinobacteria bacterium BACL4
|
224
|
-
|
225
|
-
MAG-120820-bin23</OrganismName>
|
226
|
-
|
227
|
-
</Organism>
|
228
|
-
|
229
|
-
<Comment>
|
230
|
-
|
231
|
-
<Paragraph>Genome assembled from metagenome sample
|
232
|
-
|
233
|
-
SAMN03351395</Paragraph>
|
234
|
-
|
235
|
-
</Comment>
|
236
|
-
|
237
|
-
</Description>
|
238
|
-
|
239
|
-
<Owner>
|
240
|
-
|
241
|
-
<Name>Kungliga Tekniska Hogskolan, Science for Life Laboratory</Name>
|
242
|
-
|
243
|
-
<Contacts>
|
244
|
-
|
245
|
-
<Contact email="aaa">
|
246
|
-
|
247
|
-
<Name>
|
248
|
-
|
249
|
-
<First>Luisa</First>
|
250
|
-
|
251
|
-
<Last>Hugerth</Last>
|
252
|
-
|
253
|
-
<Middle>W</Middle>
|
254
|
-
|
255
|
-
</Name>
|
256
|
-
|
257
|
-
</Contact>
|
258
|
-
|
259
|
-
</Contacts>
|
260
|
-
|
261
|
-
</Owner>
|
262
|
-
|
263
|
-
<Models>
|
264
|
-
|
265
|
-
<Model>Microbe, viral or environmental</Model>
|
266
|
-
|
267
|
-
</Models>
|
268
|
-
|
269
|
-
<Package display_name="Microbe; version 1.0">Microbe.1.0</Package>
|
270
|
-
|
271
|
-
<Attributes>
|
272
|
-
|
273
|
-
<Attribute attribute_name="strain" harmonized_name="strain"
|
274
|
-
|
275
|
-
display_name="strain">not applicable</Attribute>
|
276
|
-
|
277
|
-
<Attribute attribute_name="Salinity (PSU)">6.2</Attribute>
|
278
|
-
|
279
|
-
<Attribute attribute_name="depth" harmonized_name="depth"
|
280
|
-
|
281
|
-
display_name="depth">2</Attribute>
|
282
|
-
|
283
|
-
<Attribute attribute_name="env_biome"
|
284
|
-
|
285
|
-
harmonized_name="env_broad_scale" display_name="broad-scale
|
286
|
-
|
287
|
-
environmental context">Brackish water</Attribute>
|
288
|
-
|
289
|
-
<Attribute attribute_name="collection_date"
|
290
|
-
|
291
|
-
harmonized_name="collection_date" display_name="collection
|
292
|
-
|
293
|
-
date">20-Aug-2012</Attribute>
|
294
|
-
|
295
|
-
<Attribute attribute_name="temp" harmonized_name="temp"
|
296
|
-
|
297
|
-
display_name="temperature">18.4</Attribute>
|
298
|
-
|
299
|
-
<Attribute attribute_name="environmental-sample">TRUE</Attribute>
|
300
|
-
|
301
|
-
<Attribute attribute_name="sample_type"
|
302
|
-
|
303
|
-
harmonized_name="sample_type" display_name="sample type">Metagenomic
|
304
|
-
|
305
|
-
Assembly</Attribute>
|
306
|
-
|
307
|
-
<Attribute attribute_name="isolation_source"
|
308
|
-
|
309
|
-
harmonized_name="isolation_source" display_name="isolation
|
310
|
-
|
311
|
-
source">surface water</Attribute>
|
312
|
-
|
313
|
-
<Attribute attribute_name="geo_loc_name"
|
314
|
-
|
315
|
-
harmonized_name="geo_loc_name" display_name="geographic
|
316
|
-
|
317
|
-
location">Baltic Sea</Attribute>
|
318
|
-
|
319
|
-
<Attribute attribute_name="lat_lon" harmonized_name="lat_lon"
|
320
|
-
|
321
|
-
display_name="latitude and longitude">56.930850 N 17.060667
|
322
|
-
|
323
|
-
E</Attribute>
|
324
|
-
|
325
|
-
<Attribute attribute_name="metagenomic">TRUE</Attribute>
|
326
|
-
|
327
|
-
<Attribute attribute_name="metagenome-source">marine metagenome</Attribute>
|
328
|
-
|
329
|
-
<Attribute attribute_name="isolation-source"
|
330
|
-
|
331
|
-
harmonized_name="isolation_source" display_name="isolation
|
332
|
-
|
333
|
-
source">brackish water collected from the surface of the Baltic
|
334
|
-
|
335
|
-
Sea</Attribute>
|
336
|
-
|
337
|
-
<Attribute attribute_name="isolate" harmonized_name="isolate"
|
338
|
-
|
339
|
-
display_name="isolate">BACL4 MAG-120820-bin23</Attribute>
|
340
|
-
|
341
|
-
</Attributes>
|
342
|
-
|
343
|
-
<Links>
|
344
|
-
|
345
|
-
<Link target="bioproject" type="entrez" label="PRJNA273799">273799</Link>
|
346
|
-
|
347
|
-
</Links>
|
348
|
-
|
349
|
-
<Status status="live" when="2015-11-08T06:44:46.120"/>
|
350
|
-
|
351
|
-
</BioSample>
|
352
258
|
|
353
259
|
|
354
260
|
|
@@ -356,4 +262,4 @@
|
|
356
262
|
|
357
263
|
|
358
264
|
|
359
|
-
grep
|
265
|
+
grep、sed、xpath による抽出
|
3
xmllint の使用について追加しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,9 +2,9 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute> と <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>)の情報をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません
|
6
|
-
|
7
|
-
|
5
|
+
例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute> と <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>)の情報をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして、これでの処理方法をご教示いただけましたら幸いです。
|
6
|
+
|
7
|
+
|
8
8
|
|
9
9
|
●参照するID のlist ファイル
|
10
10
|
|
2
抽出したい要素を明確にしました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある isolation
|
5
|
+
例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute> と <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>)の情報をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
|
6
6
|
|
7
7
|
|
8
8
|
|
1
質問事項の isolation source を isolation-source に修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある isolation
|
5
|
+
例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある isolation-source と metagenome-source)をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
|
6
6
|
|
7
7
|
|
8
8
|
|