質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.02%

Q&A

解決済

【C】ファイルポインタが取得できない.

studyprg
studyprg

総合スコア57

3回答

0グッド

0クリップ

528閲覧

投稿2022/06/13 13:07

編集2022/06/13 14:05

やりたいこと

自然言語処理について勉強しています。
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
xmlの処理について試しているのですが、
欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです.
シークポイントとバイト数さえわかれば後述の2つ目のプログラムを使って
後述の実行結果のpb[0]部分が0と表示されていて困ってます.

プログラミング構成

jawiki-20211220-pages-articles-multistream2.xml(読み込み先のテキストファイル)
Wiki_getter1_Byte.c(バイト数を算出するプログラム,<Page>〜〜</page>間と<text>〜〜</text>間は取得できている.)
Wikigetter2_text.c(getter1の出力ファイル(get_text_Byte.txt系列)からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている.)
以下にソースコードを貼り付けます。
get_text_byte3_title.txt(出力先)

#include <stdio.h> #include <stdlib.h> #include <string.h> int main() { size_t p, pb[3]; char line[BUFSIZ]; char title[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte3_title.txt", "w"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { int *p1, *p2; p1 = strstr(line, "<title>"); pb[0] = p1; p2 = strstr(line, "</title>");//titleは1行に両方あるのでifで両方ある時に取得 if (p1 && p2) { // 1行に両方見つかった p1 += strlen("<title>"); // <title>の次の位置 int len = p2 - p1; int nowp = atoi(p1); if (len >= 0) { memcpy(title, p1, len); //出力 また考える title[len] = '\0'; // 終端記号を忘れずに追加 printf("%d\t%d\n", nowp, len); */ //fprintf(fw,) } } } fclose(fw); fclose(fp); }

Wiki_getter2_All.c

1#include <stdio.h> 2#include <stdlib.h> 3#include <string.h> 4#define SIZE 256 * 1024 * 1024 5int main() 6{ 7 8 int p, p1 = 0; 9 int pb[5] = {}; 10 char *line = malloc(SIZE); 11 char *title = malloc(SIZE); 12 FILE *fp = NULL; 13 FILE *fr = NULL; 14 FILE *gt = NULL; 15 fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); 16 fr = fopen("get_text_byte2_title.txt", "r"); 17 gt = fopen("get_text_all_title.txt", "w"); 18 while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF) 19 { 20 21 fseek(fp, pb[0], SEEK_SET); 22 pb[0] = p; 23 printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]); 24 fread(line, sizeof(char), pb[1], fp); 25 fprintf(gt, "%s\n", line); 26 line[pb[1]] = 0; 27 } 28 printf("process ok"); 29 free(line); 30 free(title); 31 fclose(fp); 32 fclose(fr); 33 fclose(gt); 34} 35

cmd(pb[0]が0(たまに2000が入る)pb[1]はいけてるっぽい)

10 9 20 30 30 12 40 12 50 34 60 18 70 12 80 12

次にうまく行った時の出力ファイル(15行ほど)です。

get_text_byte2_text.txt

12943 9615 213311 3426 318473 68352 487356 3468 591369 52210 6144129 2659 7147323 83293 8231108 1412 9233203 3196 10237063 3904 11242211 3516 12246355 2563 13250011 1236 14251828 2610 15254998 15624

そしてそget_Byte2を使って得たファイル

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

int32_t

2022/06/13 13:30

よほど重要でない限り、コメントアウトして無効なコードは質問文から削除してください。コードが読みにくいです。

回答3

1

c

1int *p1, *p2;

int を指していないので、char にしてください。コンパイルするときに -Wall を付けるよう心がけてください。

c

1 int nowp = atoi(p1);

読んだ行が "<title>あっちょんぷりけ</title>\n" のような文字列だったら、p1 が指しているのは "あっちょんぷりけ</title>\n" です。atoi() で変換できる整数の文字列ではないので、エラーである 0 が返ります。

やりたいことは int nowp = p + strlen("<title>"); でしょうか。

投稿2022/06/13 14:24

編集2022/06/13 14:27
int32_t

総合スコア17923

studyprg👍を押しています

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

studyprg

2022/06/13 15:30

わかりやすいっす!ありがとうございます!

0

自己解決

別の方向で質問します.

投稿2022/06/19 08:52

studyprg

総合スコア57

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

0

int *p1, *p2;
p1 = strstr(line, "<title>");

明らかにこれおかしいです
int ではなくてcharなんでは

投稿2022/06/13 13:17

y_waiwai

総合スコア86518

下記のような回答は推奨されていません。

  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

Zuishin

2022/06/13 13:47

それはコードではなくコメントです。
studyprg

2022/06/13 14:06

目的としてはファイルポインタの位置を入れたいです.
y_waiwai

2022/06/13 14:18

> p1 += strlen("<title>"); // <title>の次の位置 int* ではここでむちゃくちゃなりますな
Zuishin

2022/06/13 22:13

質問のコードが書き換えられてコメントではなくなったので低評価を解除します。

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.02%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る