やりたいこと
自然言語処理について勉強しています。
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
xmlの処理について試しているのですが、
欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです.
シークポイントとバイト数さえわかれば後述の2つ目のプログラムを使って
後述の実行結果のpb[0]部分が0と表示されていて困ってます.
プログラミング構成
jawiki-20211220-pages-articles-multistream2.xml(読み込み先のテキストファイル)
Wiki_getter1_Byte.c(バイト数を算出するプログラム,<Page>〜〜</page>間と<text>〜〜</text>間は取得できている.)
Wikigetter2_text.c(getter1の出力ファイル(get_text_Byte.txt系列)からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている.)
以下にソースコードを貼り付けます。
get_text_byte3_title.txt(出力先)
#include <stdio.h> #include <stdlib.h> #include <string.h> int main() { size_t p, pb[3]; char line[BUFSIZ]; char title[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte3_title.txt", "w"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { int *p1, *p2; p1 = strstr(line, "<title>"); pb[0] = p1; p2 = strstr(line, "</title>");//titleは1行に両方あるのでifで両方ある時に取得 if (p1 && p2) { // 1行に両方見つかった p1 += strlen("<title>"); // <title>の次の位置 int len = p2 - p1; int nowp = atoi(p1); if (len >= 0) { memcpy(title, p1, len); //出力 また考える title[len] = '\0'; // 終端記号を忘れずに追加 printf("%d\t%d\n", nowp, len); */ //fprintf(fw,) } } } fclose(fw); fclose(fp); }
Wiki_getter2_All.c
#include <stdio.h> #include <stdlib.h> #include <string.h> #define SIZE 256 * 1024 * 1024 int main() { int p, p1 = 0; int pb[5] = {}; char *line = malloc(SIZE); char *title = malloc(SIZE); FILE *fp = NULL; FILE *fr = NULL; FILE *gt = NULL; fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); fr = fopen("get_text_byte2_title.txt", "r"); gt = fopen("get_text_all_title.txt", "w"); while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF) { fseek(fp, pb[0], SEEK_SET); pb[0] = p; printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]); fread(line, sizeof(char), pb[1], fp); fprintf(gt, "%s\n", line); line[pb[1]] = 0; } printf("process ok"); free(line); free(title); fclose(fp); fclose(fr); fclose(gt); }
cmd(pb[0]が0(たまに2000が入る)pb[1]はいけてるっぽい)
0 9 0 30 0 12 0 12 0 34 0 18 0 12 0 12
次にうまく行った時の出力ファイル(15行ほど)です。
get_text_byte2_text.txt
2943 9615 13311 3426 18473 68352 87356 3468 91369 52210 144129 2659 147323 83293 231108 1412 233203 3196 237063 3904 242211 3516 246355 2563 250011 1236 251828 2610 254998 15624
そしてそget_Byte2を使って得たファイル
よほど重要でない限り、コメントアウトして無効なコードは質問文から削除してください。コードが読みにくいです。
まだ回答がついていません
会員登録して回答してみよう