質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%

Q&A

解決済

3回答

769閲覧

【C】ファイルポインタが取得できない.

studyprg

総合スコア57

0グッド

0クリップ

投稿2022/06/13 13:07

編集2022/06/13 14:05

やりたいこと

自然言語処理について勉強しています。
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
xmlの処理について試しているのですが、
欲しい出力は,,<title>~~</title>のシークポイント(pb[0])と〜〜部分のバイト数(pb[1])の記入されたファイルです.
シークポイントとバイト数さえわかれば後述の2つ目のプログラムを使って
後述の実行結果のpb[0]部分が0と表示されていて困ってます.

プログラミング構成

jawiki-20211220-pages-articles-multistream2.xml(読み込み先のテキストファイル)
Wiki_getter1_Byte.c(バイト数を算出するプログラム,<Page>〜〜</page>間と<text>〜〜</text>間は取得できている.)
Wikigetter2_text.c(getter1の出力ファイル(get_text_Byte.txt系列)からシークポイントまでfseekしてバイト数分freadしてテキストファイルに記入上と同じくページ全体とテキスト部分が取得できている.)
以下にソースコードを貼り付けます。
get_text_byte3_title.txt(出力先)

#include <stdio.h> #include <stdlib.h> #include <string.h> int main() { size_t p, pb[3]; char line[BUFSIZ]; char title[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); FILE *fw = fopen("get_text_byte3_title.txt", "w"); if ((NULL == fp) || (NULL == fw)) abort(); while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { int *p1, *p2; p1 = strstr(line, "<title>"); pb[0] = p1; p2 = strstr(line, "</title>");//titleは1行に両方あるのでifで両方ある時に取得 if (p1 && p2) { // 1行に両方見つかった p1 += strlen("<title>"); // <title>の次の位置 int len = p2 - p1; int nowp = atoi(p1); if (len >= 0) { memcpy(title, p1, len); //出力 また考える title[len] = '\0'; // 終端記号を忘れずに追加 printf("%d\t%d\n", nowp, len); */ //fprintf(fw,) } } } fclose(fw); fclose(fp); }

Wiki_getter2_All.c

1#include <stdio.h> 2#include <stdlib.h> 3#include <string.h> 4#define SIZE 256 * 1024 * 1024 5int main() 6{ 7 8 int p, p1 = 0; 9 int pb[5] = {}; 10 char *line = malloc(SIZE); 11 char *title = malloc(SIZE); 12 FILE *fp = NULL; 13 FILE *fr = NULL; 14 FILE *gt = NULL; 15 fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r"); 16 fr = fopen("get_text_byte2_title.txt", "r"); 17 gt = fopen("get_text_all_title.txt", "w"); 18 while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF) 19 { 20 21 fseek(fp, pb[0], SEEK_SET); 22 pb[0] = p; 23 printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]); 24 fread(line, sizeof(char), pb[1], fp); 25 fprintf(gt, "%s\n", line); 26 line[pb[1]] = 0; 27 } 28 printf("process ok"); 29 free(line); 30 free(title); 31 fclose(fp); 32 fclose(fr); 33 fclose(gt); 34} 35

cmd(pb[0]が0(たまに2000が入る)pb[1]はいけてるっぽい)

10 9 20 30 30 12 40 12 50 34 60 18 70 12 80 12

次にうまく行った時の出力ファイル(15行ほど)です。

get_text_byte2_text.txt

12943 9615 213311 3426 318473 68352 487356 3468 591369 52210 6144129 2659 7147323 83293 8231108 1412 9233203 3196 10237063 3904 11242211 3516 12246355 2563 13250011 1236 14251828 2610 15254998 15624

そしてそget_Byte2を使って得たファイル

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

int32_t

2022/06/13 13:30

よほど重要でない限り、コメントアウトして無効なコードは質問文から削除してください。コードが読みにくいです。
guest

回答3

0

c

1int *p1, *p2;

int を指していないので、char にしてください。コンパイルするときに -Wall を付けるよう心がけてください。

c

1 int nowp = atoi(p1);

読んだ行が "<title>あっちょんぷりけ</title>\n" のような文字列だったら、p1 が指しているのは "あっちょんぷりけ</title>\n" です。atoi() で変換できる整数の文字列ではないので、エラーである 0 が返ります。

やりたいことは int nowp = p + strlen("<title>"); でしょうか。

投稿2022/06/13 14:24

編集2022/06/13 14:27
int32_t

総合スコア20925

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

studyprg

2022/06/13 15:30

わかりやすいっす!ありがとうございます!
guest

0

自己解決

別の方向で質問します.

投稿2022/06/19 08:52

studyprg

総合スコア57

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

int *p1, *p2;
p1 = strstr(line, "<title>");

明らかにこれおかしいです
int ではなくてcharなんでは

投稿2022/06/13 13:17

y_waiwai

総合スコア87784

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Zuishin

2022/06/13 13:47

それはコードではなくコメントです。
studyprg

2022/06/13 14:06

目的としてはファイルポインタの位置を入れたいです.
y_waiwai

2022/06/13 14:18

> p1 += strlen("<title>"); // <title>の次の位置 int* ではここでむちゃくちゃなりますな
Zuishin

2022/06/13 22:13

質問のコードが書き換えられてコメントではなくなったので低評価を解除します。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問