やりたいこと
自然言語処理について勉強しています。
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
xmlの処理について試しているのですが、
欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです.
シークポイントとバイト数さえわかれば後述の2つ目のプログラムを使って
後述の実行結果のpb[0]部分が0と表示されていて困ってます.
プログラミング構成
jawiki-20211220-pages-articles-multistream2.xml(読み込み先のテキストファイル)
Wiki_getter1_Byte.c(バイト数を算出するプログラム,<Page>〜〜</page>間と<text>〜〜</text>間は取得できている.)
Wikigetter2_text.c(getter1の出力ファイル(get_text_Byte.txt系列)からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている.)
以下にソースコードを貼り付けます。
get_text_byte3_title.txt(出力先)
#include <stdio.h> #include <stdlib.h> #include <string.h> int main() { size_t p, pb[3]; char line[BUFSIZ]; char title[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte3_title.txt", "w"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { int *p1, *p2; p1 = strstr(line, "<title>"); pb[0] = p1; p2 = strstr(line, "</title>");//titleは1行に両方あるのでifで両方ある時に取得 if (p1 && p2) { // 1行に両方見つかった p1 += strlen("<title>"); // <title>の次の位置 int len = p2 - p1; int nowp = atoi(p1); if (len >= 0) { memcpy(title, p1, len); //出力 また考える title[len] = '\0'; // 終端記号を忘れずに追加 printf("%d\t%d\n", nowp, len); */ //fprintf(fw,) } } } fclose(fw); fclose(fp); }
Wiki_getter2_All.c
1#include <stdio.h> 2#include <stdlib.h> 3#include <string.h> 4#define SIZE 256 * 1024 * 1024 5int main() 6{ 7 8 int p, p1 = 0; 9 int pb[5] = {}; 10 char *line = malloc(SIZE); 11 char *title = malloc(SIZE); 12 FILE *fp = NULL; 13 FILE *fr = NULL; 14 FILE *gt = NULL; 15 fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); 16 fr = fopen("get_text_byte2_title.txt", "r"); 17 gt = fopen("get_text_all_title.txt", "w"); 18 while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF) 19 { 20 21 fseek(fp, pb[0], SEEK_SET); 22 pb[0] = p; 23 printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]); 24 fread(line, sizeof(char), pb[1], fp); 25 fprintf(gt, "%s\n", line); 26 line[pb[1]] = 0; 27 } 28 printf("process ok"); 29 free(line); 30 free(title); 31 fclose(fp); 32 fclose(fr); 33 fclose(gt); 34} 35
cmd(pb[0]が0(たまに2000が入る)pb[1]はいけてるっぽい)
10 9 20 30 30 12 40 12 50 34 60 18 70 12 80 12
次にうまく行った時の出力ファイル(15行ほど)です。
get_text_byte2_text.txt
12943 9615 213311 3426 318473 68352 487356 3468 591369 52210 6144129 2659 7147323 83293 8231108 1412 9233203 3196 10237063 3904 11242211 3516 12246355 2563 13250011 1236 14251828 2610 15254998 15624
そしてそget_Byte2を使って得たファイル
よほど重要でない限り、コメントアウトして無効なコードは質問文から削除してください。コードが読みにくいです。
回答3件