自然言語処理について勉強しています。
Wikipediaのdumpデータからタイトルと本文を抜き出して処理をしようと思ってます。(外部ライブラリ未使用で)
今は記事<page>~</page>間を全取得してtxtに書き込むプログラムを作りたいです。
ここからは求めた記事の開始地点のbyte(pb[0])から指定バイト(pb[1])分だけ読み込んでいく予定でしたが、
ファイルポインタが記事の終着点にあって読み込みがうまくいってません。
fprintfが上手いこと動くようにして欲しいです。
プログラミングはあまり得意ではないです。
get_wiki2_All.c
1#include <stdio.h> 2#include <stdlib.h> 3#include <string.h> 4 5int main (){ 6 7 8int p; 9char pb[5]; 10char line[BUFSIZ]; 11FILE *fp = fopen("jawiki-20211220-pages-articles-multistream1.xml", "r"); 12char title[BUFSIZ]; 13 14//FILE *gt=fopen("list_1.txt","r"); 15FILE *fw = fopen("get_text_c.txt", "w"); 16 17 while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { 18 if ((NULL == fp)||(NULL== fw )){ 19 abort(); 20 } 21 22 else if (strstr(line, "<page>")){ 23 p=pb[0]; 24 } 25 else if (strstr(line, "</page>")){ 26 pb[1] = p - pb[0]; 27 fseek(fp,-pb[1],SEEK_CUR); 28 fgets(line,pb[1],fp); 29 //fwrite(pb, sizeof(size_t), 2, fw); // ... 30 //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //読み込み時の名残 31 fprintf(fw,"%s \n",line);**//ここが動いてほしい** 32 } 33 } 34 35fclose(fw); 36fclose(fp); 37} 38
回答1件
あなたの回答
tips
プレビュー