回答編集履歴
2
Update
    
        answer	
    CHANGED
    
    | @@ -1,34 +1,7 @@ | |
| 1 | 
            -
             | 
| 1 | 
            +
            ※ 削除
         | 
| 2 2 |  | 
| 3 | 
            -
            C に拘りがなければ awk で処理してもよさそうです。
         | 
| 4 | 
            -
            ※ `jawiki-20211220-pages-articles-multistream2.xml` が入手できなかったので 20220601 版を使っています
         | 
| 5 | 
            -
            ```bash
         | 
| 6 | 
            -
            $ awk --version
         | 
| 7 | 
            -
            GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.1.0, GNU MP 6.2.1)
         | 
| 8 3 |  | 
| 9 | 
            -
            $ awk '/^\s*<page>/,/^\s*<\/page>/' jawiki-20220601-pages-articles-multistream2.xml-p114795p390428 > get_text_all.txt
         | 
| 10 4 |  | 
| 11 | 
            -
            $ head -n 150 get_text_all.txt
         | 
| 12 | 
            -
              <page>
         | 
| 13 | 
            -
                <title>遠山景晋</title>
         | 
| 14 | 
            -
                <ns>0</ns>
         | 
| 15 | 
            -
                <id>114795</id>
         | 
| 16 | 
            -
                <revision>
         | 
| 17 | 
            -
                  <id>86493646</id>
         | 
| 18 | 
            -
                      :
         | 
| 19 5 |  | 
| 20 | 
            -
             | 
| 6 | 
            +
             | 
| 21 | 
            -
             | 
| 7 | 
            +
             | 
| 22 | 
            -
                  <sha1>chmmooepsrvwuo4n0ziki50nn5rvhj7</sha1>
         | 
| 23 | 
            -
                </revision>
         | 
| 24 | 
            -
              </page>
         | 
| 25 | 
            -
              <page>
         | 
| 26 | 
            -
                <title>双子 (映画)</title>
         | 
| 27 | 
            -
                <ns>0</ns>
         | 
| 28 | 
            -
                <id>114797</id>
         | 
| 29 | 
            -
                <revision>
         | 
| 30 | 
            -
                  <id>59361456</id>
         | 
| 31 | 
            -
                  <parentid>48302491</parentid>
         | 
| 32 | 
            -
                  <timestamp>2016-04-15T14:38:26Z</timestamp>
         | 
| 33 | 
            -
                  <contributor>
         | 
| 34 | 
            -
            ```
         | 
1
Update
    
        answer	
    CHANGED
    
    | @@ -7,4 +7,28 @@ | |
| 7 7 | 
             
            GNU Awk 5.1.0, API: 3.0 (GNU MPFR 4.1.0, GNU MP 6.2.1)
         | 
| 8 8 |  | 
| 9 9 | 
             
            $ awk '/^\s*<page>/,/^\s*<\/page>/' jawiki-20220601-pages-articles-multistream2.xml-p114795p390428 > get_text_all.txt
         | 
| 10 | 
            +
             | 
| 11 | 
            +
            $ head -n 150 get_text_all.txt
         | 
| 12 | 
            +
              <page>
         | 
| 13 | 
            +
                <title>遠山景晋</title>
         | 
| 14 | 
            +
                <ns>0</ns>
         | 
| 15 | 
            +
                <id>114795</id>
         | 
| 16 | 
            +
                <revision>
         | 
| 17 | 
            +
                  <id>86493646</id>
         | 
| 18 | 
            +
                      :
         | 
| 19 | 
            +
             | 
| 20 | 
            +
            [[Category:1764年生]]
         | 
| 21 | 
            +
            [[Category:1837年没]]</text>
         | 
| 22 | 
            +
                  <sha1>chmmooepsrvwuo4n0ziki50nn5rvhj7</sha1>
         | 
| 23 | 
            +
                </revision>
         | 
| 24 | 
            +
              </page>
         | 
| 25 | 
            +
              <page>
         | 
| 26 | 
            +
                <title>双子 (映画)</title>
         | 
| 27 | 
            +
                <ns>0</ns>
         | 
| 28 | 
            +
                <id>114797</id>
         | 
| 29 | 
            +
                <revision>
         | 
| 30 | 
            +
                  <id>59361456</id>
         | 
| 31 | 
            +
                  <parentid>48302491</parentid>
         | 
| 32 | 
            +
                  <timestamp>2016-04-15T14:38:26Z</timestamp>
         | 
| 33 | 
            +
                  <contributor>
         | 
| 10 34 | 
             
            ```
         | 
