回答編集履歴

2

Update

2022/06/12 00:21

投稿

melian
melian

スコア20574

test CHANGED
@@ -1,35 +1,8 @@
1
- > 欲しい出力は,,<page>~~</page>の中身です。
1
+ 削除
2
2
 
3
- C に拘りがなければ awk で処理してもよさそうです。
4
- ※ `jawiki-20211220-pages-articles-multistream2.xml` が入手できなかったので 20220601 版を使っています
5
- ```bash
6
- $ awk --version
7
- GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.1.0, GNU MP 6.2.1)
8
3
 
9
- $ awk '/^\s*<page>/,/^\s*<\/page>/' jawiki-20220601-pages-articles-multistream2.xml-p114795p390428 > get_text_all.txt
10
4
 
11
- $ head -n 150 get_text_all.txt
12
- <page>
13
- <title>遠山景晋</title>
14
- <ns>0</ns>
15
- <id>114795</id>
16
- <revision>
17
- <id>86493646</id>
18
- :
19
5
 
20
- [[Category:1764年生]]
21
- [[Category:1837年没]]</text>
22
- <sha1>chmmooepsrvwuo4n0ziki50nn5rvhj7</sha1>
23
- </revision>
24
- </page>
25
- <page>
26
- <title>双子 (映画)</title>
27
- <ns>0</ns>
28
- <id>114797</id>
29
- <revision>
30
- <id>59361456</id>
31
- <parentid>48302491</parentid>
32
- <timestamp>2016-04-15T14:38:26Z</timestamp>
33
- <contributor>
34
- ```
35
6
 
7
+
8
+

1

Update

2022/06/11 18:52

投稿

melian
melian

スコア20574

test CHANGED
@@ -7,5 +7,29 @@
7
7
  GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.1.0, GNU MP 6.2.1)
8
8
 
9
9
  $ awk '/^\s*<page>/,/^\s*<\/page>/' jawiki-20220601-pages-articles-multistream2.xml-p114795p390428 > get_text_all.txt
10
+
11
+ $ head -n 150 get_text_all.txt
12
+ <page>
13
+ <title>遠山景晋</title>
14
+ <ns>0</ns>
15
+ <id>114795</id>
16
+ <revision>
17
+ <id>86493646</id>
18
+ :
19
+
20
+ [[Category:1764年生]]
21
+ [[Category:1837年没]]</text>
22
+ <sha1>chmmooepsrvwuo4n0ziki50nn5rvhj7</sha1>
23
+ </revision>
24
+ </page>
25
+ <page>
26
+ <title>双子 (映画)</title>
27
+ <ns>0</ns>
28
+ <id>114797</id>
29
+ <revision>
30
+ <id>59361456</id>
31
+ <parentid>48302491</parentid>
32
+ <timestamp>2016-04-15T14:38:26Z</timestamp>
33
+ <contributor>
10
34
  ```
11
35