質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%

解決済

【C】ファイルポインタが取得できない.

studyprg
studyprg

総合スコア41

3回答

0評価

0クリップ

347閲覧

投稿2022/06/13 13:07

編集2022/06/19 17:52

やりたいこと

自然言語処理について勉強しています。
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
xmlの処理について試しているのですが、
欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです.
シークポイントとバイト数さえわかれば後述の2つ目のプログラムを使って
後述の実行結果のpb[0]部分が0と表示されていて困ってます.

プログラミング構成

jawiki-20211220-pages-articles-multistream2.xml(読み込み先のテキストファイル)
Wiki_getter1_Byte.c(バイト数を算出するプログラム,<Page>〜〜</page>間と<text>〜〜</text>間は取得できている.)
Wikigetter2_text.c(getter1の出力ファイル(get_text_Byte.txt系列)からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている.)
以下にソースコードを貼り付けます。
get_text_byte3_title.txt(出力先)

#include <stdio.h> #include <stdlib.h> #include <string.h> int main() { size_t p, pb[3]; char line[BUFSIZ]; char title[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte3_title.txt", "w"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { int *p1, *p2; p1 = strstr(line, "<title>"); pb[0] = p1; p2 = strstr(line, "</title>");//titleは1行に両方あるのでifで両方ある時に取得 if (p1 && p2) { // 1行に両方見つかった p1 += strlen("<title>"); // <title>の次の位置 int len = p2 - p1; int nowp = atoi(p1); if (len >= 0) { memcpy(title, p1, len); //出力 また考える title[len] = '\0'; // 終端記号を忘れずに追加 printf("%d\t%d\n", nowp, len); */ //fprintf(fw,) } } } fclose(fw); fclose(fp); }

Wiki_getter2_All.c

#include <stdio.h> #include <stdlib.h> #include <string.h> #define SIZE 256 * 1024 * 1024 int main() { int p, p1 = 0; int pb[5] = {}; char *line = malloc(SIZE); char *title = malloc(SIZE); FILE *fp = NULL; FILE *fr = NULL; FILE *gt = NULL; fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); fr = fopen("get_text_byte2_title.txt", "r"); gt = fopen("get_text_all_title.txt", "w"); while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF) { fseek(fp, pb[0], SEEK_SET); pb[0] = p; printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]); fread(line, sizeof(char), pb[1], fp); fprintf(gt, "%s\n", line); line[pb[1]] = 0; } printf("process ok"); free(line); free(title); fclose(fp); fclose(fr); fclose(gt); }

cmd(pb[0]が0(たまに2000が入る)pb[1]はいけてるっぽい)

0 9 0 30 0 12 0 12 0 34 0 18 0 12 0 12

次にうまく行った時の出力ファイル(15行ほど)です。

get_text_byte2_text.txt

2943 9615 13311 3426 18473 68352 87356 3468 91369 52210 144129 2659 147323 83293 231108 1412 233203 3196 237063 3904 242211 3516 246355 2563 250011 1236 251828 2610 254998 15624

そしてそget_Byte2を使って得たファイル

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

int32_t

2022/06/13 13:30

よほど重要でない限り、コメントアウトして無効なコードは質問文から削除してください。コードが読みにくいです。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る