回答編集履歴
2
Update
test
CHANGED
@@ -1,35 +1,8 @@
|
|
1
|
-
|
1
|
+
※ 削除
|
2
2
|
|
3
|
-
C に拘りがなければ awk で処理してもよさそうです。
|
4
|
-
※ `jawiki-20211220-pages-articles-multistream2.xml` が入手できなかったので 20220601 版を使っています
|
5
|
-
```bash
|
6
|
-
$ awk --version
|
7
|
-
GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.1.0, GNU MP 6.2.1)
|
8
3
|
|
9
|
-
$ awk '/^\s*<page>/,/^\s*<\/page>/' jawiki-20220601-pages-articles-multistream2.xml-p114795p390428 > get_text_all.txt
|
10
4
|
|
11
|
-
$ head -n 150 get_text_all.txt
|
12
|
-
<page>
|
13
|
-
<title>遠山景晋</title>
|
14
|
-
<ns>0</ns>
|
15
|
-
<id>114795</id>
|
16
|
-
<revision>
|
17
|
-
<id>86493646</id>
|
18
|
-
:
|
19
5
|
|
20
|
-
[[Category:1764年生]]
|
21
|
-
[[Category:1837年没]]</text>
|
22
|
-
<sha1>chmmooepsrvwuo4n0ziki50nn5rvhj7</sha1>
|
23
|
-
</revision>
|
24
|
-
</page>
|
25
|
-
<page>
|
26
|
-
<title>双子 (映画)</title>
|
27
|
-
<ns>0</ns>
|
28
|
-
<id>114797</id>
|
29
|
-
<revision>
|
30
|
-
<id>59361456</id>
|
31
|
-
<parentid>48302491</parentid>
|
32
|
-
<timestamp>2016-04-15T14:38:26Z</timestamp>
|
33
|
-
<contributor>
|
34
|
-
```
|
35
6
|
|
7
|
+
|
8
|
+
|
1
Update
test
CHANGED
@@ -7,5 +7,29 @@
|
|
7
7
|
GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.1.0, GNU MP 6.2.1)
|
8
8
|
|
9
9
|
$ awk '/^\s*<page>/,/^\s*<\/page>/' jawiki-20220601-pages-articles-multistream2.xml-p114795p390428 > get_text_all.txt
|
10
|
+
|
11
|
+
$ head -n 150 get_text_all.txt
|
12
|
+
<page>
|
13
|
+
<title>遠山景晋</title>
|
14
|
+
<ns>0</ns>
|
15
|
+
<id>114795</id>
|
16
|
+
<revision>
|
17
|
+
<id>86493646</id>
|
18
|
+
:
|
19
|
+
|
20
|
+
[[Category:1764年生]]
|
21
|
+
[[Category:1837年没]]</text>
|
22
|
+
<sha1>chmmooepsrvwuo4n0ziki50nn5rvhj7</sha1>
|
23
|
+
</revision>
|
24
|
+
</page>
|
25
|
+
<page>
|
26
|
+
<title>双子 (映画)</title>
|
27
|
+
<ns>0</ns>
|
28
|
+
<id>114797</id>
|
29
|
+
<revision>
|
30
|
+
<id>59361456</id>
|
31
|
+
<parentid>48302491</parentid>
|
32
|
+
<timestamp>2016-04-15T14:38:26Z</timestamp>
|
33
|
+
<contributor>
|
10
34
|
```
|
11
35
|
|