質問編集履歴

一部修正

2022/06/19 05:45

投稿

studyprg

スコア57

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,7 +4,7 @@
 Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
 xmlの処理について試しているのですが、難航しています．
-欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．
+欲しい出力は,,<text ~~</text>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．(同様に<title>,<id>も欲しい)
 シークポイントとバイト数さえわかれば後述の２つ目のプログラムを使って
 後述の実行結果のpb[0]部分が0と表示されていて困ってます．
@@ -15,7 +15,6 @@
 以下にソースコードを貼り付けます。
 ```ここに言語を入力
-コード
 #include <stdio.h>
 #include <stdlib.h>

Objective-C C XML

ソースコード修正

2022/06/19 05:43

投稿

studyprg

スコア57

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -42,9 +42,6 @@
       {
         pb[1] = p-pb[0];
       }
-      // fprintf(fw, "%zu\t%zu\n", pb[0], pb[1]); // ...
-      //  fprintf(fw, "%d\t%d\n", pb[0], pb[1]); ... テキスト形式で観察可能
     }
     printf("%d\t%d\n", pb[0], pb[1]);
   }

Objective-C C XML

ソースコード修正

2022/06/19 05:40

投稿

studyprg

スコア57

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,31 +1,19 @@
-**やりたいこと
+### やりたいこと
-**###
- ヘディングのテキスト自然言語処理について勉強しています。
+自然言語処理について勉強しています。
 Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
-xmlの処理について試しているのですが、
+xmlの処理について試しているのですが、難航しています．
 欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．
 シークポイントとバイト数さえわかれば後述の２つ目のプログラムを使って
 後述の実行結果のpb[0]部分が0と表示されていて困ってます．
-プログラミング構成
+### プログラミング構成
 jawiki-20211220-pages-articles-multistream2.xml（読み込み先のテキストファイル）
 Wiki_getter1_Byte.c(バイト数を算出するプログラム，<Page>〜〜</page>間は取得できている．)
 Wikigetter2_text.c(getter1の出力ファイル（get_text_Byte.txt系列）からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている．)
 以下にソースコードを貼り付けます。
-＝＝＝＝＝＝＝＝
-やりたいこと
-自然言語処理について勉強しています。
-Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
-xmlの処理について試しているのですが、
-欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです．
-シークポイントとバイト数さえわかれば後述の２つ目のプログラムを使って
-後述の実行結果のpb[0]部分が0と表示されていて困ってます．
-プログラミング構成
-jawiki-20211220-pages-articles-multistream2.xml（読み込み先のテキストファイル）
-Wiki_getter1_Byte.c(バイト数を算出するプログラム，，欲しいのは<text>~~</text>,<title>~~</title>,<id>~~</id>間のバイト．)
-Wikigetter2_text.c(getter1の出力ファイル（get_text_Byte.txt系列）からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できるプログラム．)
-以下にソースコードを貼り付けます。
 ```ここに言語を入力
 コード
@@ -37,35 +25,35 @@
 int main()
 {
-size_t p, pb[2];
+  int p, pb[2];
-char *line = malloc(SIZE);
+  char *line = malloc(SIZE);
-FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
+  FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
-FILE *fw = fopen("get_text_byte.txt", "w");
+  FILE *fw = fopen("get_text_byte.txt", "w");
+  // printf(fw,"startbyte\t記事のbyte \n");
+  if ((NULL == fp) || (NULL == fw))
+    abort();
+  while (p = ftell(fp), fgets(line, SIZE, fp))
+  {
+    if (strstr(line, "<text"))
+    {
+      pb[0] = p;
-if ((NULL == fp) || (NULL == fw))
-abort();
-while (p = ftell(fp), fgets(line, SIZE, fp))
+      if (strstr(line, "</text>"))
-{
+      {
-if (strstr(line, "<page>"))
-{
-pb[0] = p;
+        pb[1] = p-pb[0];
+      }
+      // fprintf(fw, "%zu\t%zu\n", pb[0], pb[1]); // ...
+      //  fprintf(fw, "%d\t%d\n", pb[0], pb[1]); ... テキスト形式で観察可能
+    }
+    printf("%d\t%d\n", pb[0], pb[1]);
+  }
-if (strstr(line, "</page>"))
+  printf("process ok");
-{
+  free(line);
+  fclose(fw);
-pb[1] = pーpb[0];
+  fclose(fp);
 }
-printf("%zu\t%zu\n", pb[0], pb[1]);
-}
-printf("process ok");
-free(line);
-fclose(fw);
-fclose(fp);
-}
 ```
 ＝＝＝＝＝＝＝＝

Objective-C C XML