質問編集履歴

5

混乱のないように、文章を修正しました。

2020/06/20 09:06

投稿

kakuko
kakuko

スコア2

test CHANGED
File without changes
test CHANGED
@@ -2,7 +2,7 @@
2
2
 
3
3
 
4
4
 
5
- 例えば、下方のXMLファイルがあり、私の手元には以下の「参照用のID listファイル」があります。ID を照合しながら、xml ファイル内に必ずるIDを検索し、その子要素として一緒に必ず記述されている特定の要素(<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>)の</Attribute>の前のキーワード(ここではsurface water)を抽出し、元のIDとともに出力するにはどのようにすればよろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加1】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして試行錯誤中ですが、子要素内のIDやキーワードを抽出することもできておらず、引き続き勉強中です。【追加2】XMLファイルをソースからそのままコピーしました。
5
+ 例えば、下方のXMLファイルがあり、私の手元には以下の「参照用のID listファイル」があります。inputファイルとしてこのID list 使い、xml ファイル内の<Ids>に必ず記載されているIDと照合し、もし一致した場合に、その子要素として必ず一緒に記述されている特定の要素(<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>)の</Attribute>の前のキーワード(ここではsurface water)を抽出し、元のIDとともに出力するにはどのようにすればよろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加1】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして試行錯誤中ですが、子要素内のIDやキーワードを抽出することもできておらず、引き続き勉強中です。【追加2】XMLファイルをソースからそのままコピーしました。
6
6
 
7
7
 
8
8
 

4

疑問点を絞り、書式全体を修正しました。

2020/06/20 09:06

投稿

kakuko
kakuko

スコア2

test CHANGED
File without changes
test CHANGED
@@ -2,7 +2,7 @@
2
2
 
3
3
 
4
4
 
5
- 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているためそれを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通りaccession IDだけの情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute><Attribute attribute_name="metagenome-source">marine metagenome</Attribute>の情報タブ区切りで付与出力するにはどのようにすればよろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして、こでの処理方法をご教示いただけましたら幸いです
5
+ 例えば、下方のXMLファイルがあり、私の手元には以下の「参照用のID listファイル」があります。ID を照合しながら、xml ファイル内に必ずあるIDを検索し、その子要素として一緒に必ず記述されている特定の要素(<Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>)の</Attribute>の前のキーワード(ここではsurface water)を抽出、元のIDとともに出力するにはどのようにすればよろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして試行錯誤中ですが子要素内のIDやキーワードを抽出するともきておらず、引き続き勉強中です。【追加2】XMLファイルをソースからそのままコピーました。
6
6
 
7
7
 
8
8
 
@@ -10,19 +10,21 @@
10
10
 
11
11
 
12
12
 
13
+ SAMN03741962
14
+
13
15
  SAMN03741963
14
16
 
15
- SAMN03741964
16
-
17
17
 
18
18
 
19
19
  ●XMLファイルと照合後に出力したいlist ファイル
20
20
 
21
21
 
22
22
 
23
+ SAMN03741962^ surface water
24
+
23
- SAMN03741963^ surface water^ marine metagenome
25
+ SAMN03741963^ surface water
24
-
25
- SAMN03741964^ surface water^ marine metagenome
26
+
27
+
26
28
 
27
29
  *ここで「^」はタブ区切りを示しています。
28
30
 
@@ -32,20 +34,124 @@
32
34
 
33
35
 
34
36
 
37
+ ```XML
38
+
35
39
  <?xml version="1.0" encoding="UTF-8"?>
36
40
 
37
41
  <BioSampleSet>
38
42
 
39
- <BioSample access="public" publication_date="2015-11-08T06:44:46.060"
43
+ <BioSample access="public" publication_date="2015-11-08T00:00:00.000" last_update="2019-06-20T17:16:02.371" submission_date="2015-05-28T09:58:39.000" id="3741962" accession="SAMN03741962">
40
-
41
- last_update="2015-11-08T06:44:46.060"
42
-
43
- submission_date="2015-05-28T09:58:39.470" id="3741963"
44
-
45
- accession="SAMN03741963">
46
44
 
47
45
  <Ids>
48
46
 
47
+ <Id db="BioSample" is_primary="1">SAMN03741962</Id>
48
+
49
+ <Id db_label="Sample name">BACL4 MAG-120507-bin80</Id>
50
+
51
+ </Ids>
52
+
53
+ <Description>
54
+
55
+ <Title>Microbe sample from OM182 bacterium BACL3 MAG-120507-bin80</Title>
56
+
57
+ <Organism taxonomy_id="1655577" taxonomy_name="OM182 bacterium BACL3 MAG-120507-bin80">
58
+
59
+ <OrganismName>OM182 bacterium BACL3 MAG-120507-bin80</OrganismName>
60
+
61
+ </Organism>
62
+
63
+ <Comment>
64
+
65
+ <Paragraph>Genome assembled from metagenome sample SAMN03351369</Paragraph>
66
+
67
+ </Comment>
68
+
69
+ </Description>
70
+
71
+ <Owner>
72
+
73
+ <Name>Kungliga Tekniska Hogskolan, Science for Life Laboratory</Name>
74
+
75
+ <Contacts>
76
+
77
+ <Contact email="luisa.hugerth@scilifelab.se">
78
+
79
+ <Name>
80
+
81
+ <First>Luisa</First>
82
+
83
+ <Last>Hugerth</Last>
84
+
85
+ <Middle>W</Middle>
86
+
87
+ </Name>
88
+
89
+ </Contact>
90
+
91
+ </Contacts>
92
+
93
+ </Owner>
94
+
95
+ <Models>
96
+
97
+ <Model>Microbe, viral or environmental</Model>
98
+
99
+ </Models>
100
+
101
+ <Package display_name="Microbe; version 1.0">Microbe.1.0</Package>
102
+
103
+ <Attributes>
104
+
105
+ <Attribute attribute_name="strain" harmonized_name="strain" display_name="strain">not applicable</Attribute>
106
+
107
+ <Attribute attribute_name="Salinity (PSU)">6.6</Attribute>
108
+
109
+ <Attribute attribute_name="depth" harmonized_name="depth" display_name="depth">2</Attribute>
110
+
111
+ <Attribute attribute_name="env_biome" harmonized_name="env_broad_scale" display_name="broad-scale environmental context">Brackish water</Attribute>
112
+
113
+ <Attribute attribute_name="collection_date" harmonized_name="collection_date" display_name="collection date">07-May-2012</Attribute>
114
+
115
+ <Attribute attribute_name="temp" harmonized_name="temp" display_name="temperature">5.6</Attribute>
116
+
117
+ <Attribute attribute_name="environmental-sample">TRUE</Attribute>
118
+
119
+ <Attribute attribute_name="sample_type" harmonized_name="sample_type" display_name="sample type">Metagenomic Assembly</Attribute>
120
+
121
+ <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>
122
+
123
+ <Attribute attribute_name="geo_loc_name" harmonized_name="geo_loc_name" display_name="geographic location">Baltic Sea</Attribute>
124
+
125
+ <Attribute attribute_name="lat_lon" harmonized_name="lat_lon" display_name="latitude and longitude">56.930850 N 17.060667 E</Attribute>
126
+
127
+ <Attribute attribute_name="metagenomic">TRUE</Attribute>
128
+
129
+ <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>
130
+
131
+ <Attribute attribute_name="isolation-source" harmonized_name="isolation_source" display_name="isolation source">brackish water collected from the surface of the Baltic Sea</Attribute>
132
+
133
+ <Attribute attribute_name="isolate" harmonized_name="isolate" display_name="isolate">BACL4 MAG-120507-bin80</Attribute>
134
+
135
+ </Attributes>
136
+
137
+ <Links>
138
+
139
+ <Link target="bioproject" type="entrez" label="PRJNA273799">273799</Link>
140
+
141
+ </Links>
142
+
143
+ <Status status="live" when="2015-11-08T06:44:46.013"/>
144
+
145
+ </BioSample>
146
+
147
+ <BioSample access="public" publication_date="2015-11-08T06:44:46.060" last_update="2015-11-08T06:44:46.060" submission_date="2015-05-28T09:58:39.470" id="3741963" accession="SAMN03741963">
148
+
149
+ <Ids>
150
+
151
+ --
152
+
153
+ <Ids>
154
+
49
155
  <Id db="BioSample" is_primary="1">SAMN03741963</Id>
50
156
 
51
157
  <Id db_label="Sample name">BACL4 MAG-120813-bin39</Id>
@@ -54,25 +160,17 @@
54
160
 
55
161
  <Description>
56
162
 
57
- <Title>Microbe sample from Actinobacteria bacterium BACL4
163
+ <Title>Microbe sample from Actinobacteria bacterium BACL4 MAG-120813-bin39</Title>
58
-
59
- MAG-120813-bin39</Title>
164
+
60
-
61
- <Organism taxonomy_id="1655578" taxonomy_name="Actinobacteria
165
+ <Organism taxonomy_id="1655578" taxonomy_name="Actinobacteria bacterium BACL4 MAG-120813-bin39">
62
-
63
- bacterium BACL4 MAG-120813-bin39">
166
+
64
-
65
- <OrganismName>Actinobacteria bacterium BACL4
167
+ <OrganismName>Actinobacteria bacterium BACL4 MAG-120813-bin39</OrganismName>
66
-
67
- MAG-120813-bin39</OrganismName>
68
168
 
69
169
  </Organism>
70
170
 
71
171
  <Comment>
72
172
 
73
- <Paragraph>Genome assembled from metagenome sample
173
+ <Paragraph>Genome assembled from metagenome sample SAMN03351393</Paragraph>
74
-
75
- SAMN03351393</Paragraph>
76
174
 
77
175
  </Comment>
78
176
 
@@ -84,7 +182,7 @@
84
182
 
85
183
  <Contacts>
86
184
 
87
- <Contact email="aaa">
185
+ <Contact email="luisa.hugerth@scilifelab.se">
88
186
 
89
187
  <Name>
90
188
 
@@ -112,73 +210,35 @@
112
210
 
113
211
  <Attributes>
114
212
 
115
- <Attribute attribute_name="strain" harmonized_name="strain"
213
+ <Attribute attribute_name="strain" harmonized_name="strain" display_name="strain">not applicable</Attribute>
116
-
117
- display_name="strain">not applicable</Attribute>
118
214
 
119
215
  <Attribute attribute_name="Salinity (PSU)">6.2</Attribute>
120
216
 
121
- <Attribute attribute_name="depth" harmonized_name="depth"
217
+ <Attribute attribute_name="depth" harmonized_name="depth" display_name="depth">2</Attribute>
122
-
123
- display_name="depth">2</Attribute>
218
+
124
-
125
- <Attribute attribute_name="env_biome"
126
-
127
- harmonized_name="env_broad_scale" display_name="broad-scale
219
+ <Attribute attribute_name="env_biome" harmonized_name="env_broad_scale" display_name="broad-scale environmental context">Brackish water</Attribute>
128
-
129
- environmental context">Brackish water</Attribute>
220
+
130
-
131
- <Attribute attribute_name="collection_date"
132
-
133
- harmonized_name="collection_date" display_name="collection
221
+ <Attribute attribute_name="collection_date" harmonized_name="collection_date" display_name="collection date">13-Aug-2012</Attribute>
134
-
135
- date">13-Aug-2012</Attribute>
222
+
136
-
137
- <Attribute attribute_name="temp" harmonized_name="temp"
223
+ <Attribute attribute_name="temp" harmonized_name="temp" display_name="temperature">18.2</Attribute>
138
-
139
- display_name="temperature">18.2</Attribute>
140
224
 
141
225
  <Attribute attribute_name="environmental-sample">TRUE</Attribute>
142
226
 
143
- <Attribute attribute_name="sample_type"
144
-
145
- harmonized_name="sample_type" display_name="sample type">Metagenomic
227
+ <Attribute attribute_name="sample_type" harmonized_name="sample_type" display_name="sample type">Metagenomic Assembly</Attribute>
146
-
147
- Assembly</Attribute>
228
+
148
-
149
- <Attribute attribute_name="isolation_source"
150
-
151
- harmonized_name="isolation_source" display_name="isolation
229
+ <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute>
152
-
153
- source">surface water</Attribute>
230
+
154
-
155
- <Attribute attribute_name="geo_loc_name"
156
-
157
- harmonized_name="geo_loc_name" display_name="geographic
158
-
159
- location">Baltic Sea</Attribute>
160
-
161
- <Attribute attribute_name="lat_lon" harmonized_name="lat_lon"
231
+ <Attribute attribute_name="geo_loc_name" harmonized_name="geo_loc_name" display_name="geographic location">Baltic Sea</Attribute>
162
-
232
+
163
- display_name="latitude and longitude">56.930850 N 17.060667
233
+ <Attribute attribute_name="lat_lon" harmonized_name="lat_lon" display_name="latitude and longitude">56.930850 N 17.060667 E</Attribute>
164
-
165
- E</Attribute>
166
234
 
167
235
  <Attribute attribute_name="metagenomic">TRUE</Attribute>
168
236
 
169
237
  <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>
170
238
 
171
- <Attribute attribute_name="isolation-source"
172
-
173
- harmonized_name="isolation_source" display_name="isolation
239
+ <Attribute attribute_name="isolation-source" harmonized_name="isolation_source" display_name="isolation source">brackish water collected from the surface of the Baltic Sea</Attribute>
174
-
175
- source">brackish water collected from the surface of the Baltic
240
+
176
-
177
- Sea</Attribute>
178
-
179
- <Attribute attribute_name="isolate" harmonized_name="isolate"
241
+ <Attribute attribute_name="isolate" harmonized_name="isolate" display_name="isolate">BACL4 MAG-120813-bin39</Attribute>
180
-
181
- display_name="isolate">BACL4 MAG-120813-bin39</Attribute>
182
242
 
183
243
  </Attributes>
184
244
 
@@ -192,163 +252,9 @@
192
252
 
193
253
  </BioSample>
194
254
 
195
- <BioSample access="public" publication_date="2015-11-08T06:44:46.120"
196
-
197
- last_update="2015-11-08T06:44:46.120"
198
-
199
- submission_date="2015-05-28T09:58:39.527" id="3741964"
200
-
201
- accession="SAMN03741964">
202
-
203
- <Ids>
255
+ ```
204
-
205
- <Ids>
256
+
206
-
207
- <Id db="BioSample" is_primary="1">SAMN03741964</Id>
257
+
208
-
209
- <Id db_label="Sample name">BACL4 MAG-120820-bin23</Id>
210
-
211
- </Ids>
212
-
213
- <Description>
214
-
215
- <Title>Microbe sample from Actinobacteria bacterium BACL4
216
-
217
- MAG-120820-bin23</Title>
218
-
219
- <Organism taxonomy_id="1655579" taxonomy_name="Actinobacteria
220
-
221
- bacterium BACL4 MAG-120820-bin23">
222
-
223
- <OrganismName>Actinobacteria bacterium BACL4
224
-
225
- MAG-120820-bin23</OrganismName>
226
-
227
- </Organism>
228
-
229
- <Comment>
230
-
231
- <Paragraph>Genome assembled from metagenome sample
232
-
233
- SAMN03351395</Paragraph>
234
-
235
- </Comment>
236
-
237
- </Description>
238
-
239
- <Owner>
240
-
241
- <Name>Kungliga Tekniska Hogskolan, Science for Life Laboratory</Name>
242
-
243
- <Contacts>
244
-
245
- <Contact email="aaa">
246
-
247
- <Name>
248
-
249
- <First>Luisa</First>
250
-
251
- <Last>Hugerth</Last>
252
-
253
- <Middle>W</Middle>
254
-
255
- </Name>
256
-
257
- </Contact>
258
-
259
- </Contacts>
260
-
261
- </Owner>
262
-
263
- <Models>
264
-
265
- <Model>Microbe, viral or environmental</Model>
266
-
267
- </Models>
268
-
269
- <Package display_name="Microbe; version 1.0">Microbe.1.0</Package>
270
-
271
- <Attributes>
272
-
273
- <Attribute attribute_name="strain" harmonized_name="strain"
274
-
275
- display_name="strain">not applicable</Attribute>
276
-
277
- <Attribute attribute_name="Salinity (PSU)">6.2</Attribute>
278
-
279
- <Attribute attribute_name="depth" harmonized_name="depth"
280
-
281
- display_name="depth">2</Attribute>
282
-
283
- <Attribute attribute_name="env_biome"
284
-
285
- harmonized_name="env_broad_scale" display_name="broad-scale
286
-
287
- environmental context">Brackish water</Attribute>
288
-
289
- <Attribute attribute_name="collection_date"
290
-
291
- harmonized_name="collection_date" display_name="collection
292
-
293
- date">20-Aug-2012</Attribute>
294
-
295
- <Attribute attribute_name="temp" harmonized_name="temp"
296
-
297
- display_name="temperature">18.4</Attribute>
298
-
299
- <Attribute attribute_name="environmental-sample">TRUE</Attribute>
300
-
301
- <Attribute attribute_name="sample_type"
302
-
303
- harmonized_name="sample_type" display_name="sample type">Metagenomic
304
-
305
- Assembly</Attribute>
306
-
307
- <Attribute attribute_name="isolation_source"
308
-
309
- harmonized_name="isolation_source" display_name="isolation
310
-
311
- source">surface water</Attribute>
312
-
313
- <Attribute attribute_name="geo_loc_name"
314
-
315
- harmonized_name="geo_loc_name" display_name="geographic
316
-
317
- location">Baltic Sea</Attribute>
318
-
319
- <Attribute attribute_name="lat_lon" harmonized_name="lat_lon"
320
-
321
- display_name="latitude and longitude">56.930850 N 17.060667
322
-
323
- E</Attribute>
324
-
325
- <Attribute attribute_name="metagenomic">TRUE</Attribute>
326
-
327
- <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>
328
-
329
- <Attribute attribute_name="isolation-source"
330
-
331
- harmonized_name="isolation_source" display_name="isolation
332
-
333
- source">brackish water collected from the surface of the Baltic
334
-
335
- Sea</Attribute>
336
-
337
- <Attribute attribute_name="isolate" harmonized_name="isolate"
338
-
339
- display_name="isolate">BACL4 MAG-120820-bin23</Attribute>
340
-
341
- </Attributes>
342
-
343
- <Links>
344
-
345
- <Link target="bioproject" type="entrez" label="PRJNA273799">273799</Link>
346
-
347
- </Links>
348
-
349
- <Status status="live" when="2015-11-08T06:44:46.120"/>
350
-
351
- </BioSample>
352
258
 
353
259
 
354
260
 
@@ -356,4 +262,4 @@
356
262
 
357
263
 
358
264
 
359
- grepsed による抽出
265
+ grepsed、xpath による抽出

3

xmllint の使用について追加しました。

2020/06/20 09:00

投稿

kakuko
kakuko

スコア2

test CHANGED
File without changes
test CHANGED
@@ -2,9 +2,9 @@
2
2
 
3
3
 
4
4
 
5
- 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute> と <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>)の情報をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
6
-
7
-
5
+ 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute> と <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>)の情報をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございません。記載事項に不備がございましたら、ご質問いただけましたら幸いです。【追加】XMLファイルを処理する場合、xmllint を有効活用すべきとコメントいただきまして、これでの処理方法をご教示いただけましたら幸いです。
6
+
7
+
8
8
 
9
9
  ●参照するID のlist ファイル
10
10
 

2

抽出したい要素を明確にしました。

2020/06/20 07:06

投稿

kakuko
kakuko

スコア2

test CHANGED
File without changes
test CHANGED
@@ -2,7 +2,7 @@
2
2
 
3
3
 
4
4
 
5
- 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある isolation-source と metagenome-source)をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
5
+ 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある <Attribute attribute_name="isolation_source" harmonized_name="isolation_source" display_name="isolation source">surface water</Attribute> <Attribute attribute_name="metagenome-source">marine metagenome</Attribute>の情報をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
6
6
 
7
7
 
8
8
 

1

質問事項の isolation source を isolation-source に修正しました。

2020/06/20 06:24

投稿

kakuko
kakuko

スコア2

test CHANGED
File without changes
test CHANGED
@@ -2,7 +2,7 @@
2
2
 
3
3
 
4
4
 
5
- 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある isolation source と metagenome-source)をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
5
+ 例えば、下方のような XMLファイルがあり(処理したいデータ形式が生物のDNA 情報の登録形式に非常に似ているため、それを活用)、ここで表示させている以降も同様の形式でデータが格納されているとします。私の手元には以下の通り「accession IDだけ」の情報がありますが、これを照合しながら、xml ファイル内にあるID を検索し、そのID がもつ特定の要素の二つ(例えばXML内のAttributes 内にある isolation-source と metagenome-source)をタブ区切りで付与して出力するにはどのようにすれば、よろしいでしょうか?linux 初心者で、またxml ファイルを扱うのも初めてで、素人の質問で申し訳ございませんが、まずは長くなってもlinux のコマンドで処理できればと思い、grep やsed を使いながら抽出を試みているものの、うまく実装できない状況が続いております。記載事項に不備がございましたら、ご質問いただけましたら幸いです。
6
6
 
7
7
 
8
8