質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Open XML

Open XMLは、マイクロソフト社が開発したオープンなXMLベースのオフィススイート用のファイル形式です。従来のバイナリ形式のフォーマットに代わって、XMLを用いた規格を標準ファイル形式として採用しています。

MediaWiki

MediaWikiは、Wikipediaを運営するウィキメディア財団が開発するコラボレーションツールです。複数ユーザーによるコンテンツ管理機能を備えるなど、Wikipediaと同じ操作性や編集機能を持ちます。PHPで記述されており、MySQLやPostgreSQLをデータベースに使用できます。

Q&A

解決済

1回答

398閲覧

Wikipediaのdumpデータから記事取得を目的としたプログラムの作成

studyprg

総合スコア57

C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Open XML

Open XMLは、マイクロソフト社が開発したオープンなXMLベースのオフィススイート用のファイル形式です。従来のバイナリ形式のフォーマットに代わって、XMLを用いた規格を標準ファイル形式として採用しています。

MediaWiki

MediaWikiは、Wikipediaを運営するウィキメディア財団が開発するコラボレーションツールです。複数ユーザーによるコンテンツ管理機能を備えるなど、Wikipediaと同じ操作性や編集機能を持ちます。PHPで記述されており、MySQLやPostgreSQLをデータベースに使用できます。

0グッド

0クリップ

投稿2022/06/09 08:55

編集2022/06/09 14:20

自然言語処理について勉強しています。
Wikipediaのdumpデータからタイトルと本文を抜き出して処理をしようと思ってます。(外部ライブラリ未使用で)
今は記事<page>~</page>間を全取得してtxtに書き込むプログラムを作りたいです。
ここからは求めた記事の開始地点のbyte(pb[0])から指定バイト(pb[1])分だけ読み込んでいく予定でしたが、
ファイルポインタが記事の終着点にあって読み込みがうまくいってません。
fprintfが上手いこと動くようにして欲しいです。
プログラミングはあまり得意ではないです。

get_wiki2_All.c

1#include <stdio.h> 2#include <stdlib.h> 3#include <string.h> 4 5int main (){ 6 7 8int p; 9char pb[5]; 10char line[BUFSIZ]; 11FILE *fp = fopen("jawiki-20211220-pages-articles-multistream1.xml", "r"); 12char title[BUFSIZ]; 13 14//FILE *gt=fopen("list_1.txt","r"); 15FILE *fw = fopen("get_text_c.txt", "w"); 16 17 while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { 18 if ((NULL == fp)||(NULL== fw )){ 19 abort(); 20 } 21 22 else if (strstr(line, "<page>")){ 23 p=pb[0]; 24 } 25 else if (strstr(line, "</page>")){ 26 pb[1] = p - pb[0]; 27 fseek(fp,-pb[1],SEEK_CUR); 28 fgets(line,pb[1],fp); 29 //fwrite(pb, sizeof(size_t), 2, fw); // ... 30 //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //読み込み時の名残 31 fprintf(fw,"%s \n",line);**//ここが動いてほしい** 32 } 33 } 34 35fclose(fw); 36fclose(fp); 37} 38

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

int32_t

2022/06/09 09:46

<page> と </page> に挟まれている箇所の開始オフセットとバイト数を pb[0] と pb[1] に入れたいということで合ってますか? <page> と </page> が同じ行に含まれることはありますか?
studyprg

2022/06/09 11:57

あってます。 <page></page>が1行はないと思います。
guest

回答1

0

ベストアンサー

ファイルポインタが記事の終着点にあって読み込みがうまくいってません。

ファイルポインタを操作するには、fseekを使います

投稿2022/06/09 09:38

y_waiwai

総合スコア87802

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

studyprg

2022/06/09 11:52

ありがとうございます。 fseekでの実行すると以下のエラーが起こります。 % gcc Wiki_getter2_All.c -o get_all % ./get_all zsh: segmentation fault ./get_all
y_waiwai

2022/06/09 11:58

なにかコードにバグが有る、ってことですね そのコードを提示しよう 質問文は編集できますんで、そっちの方に追記すればいいかと。
studyprg

2022/06/09 14:15

編集しました。 お願いします
y_waiwai

2022/06/09 14:20

pb[0]って何が入ってるんでしょう。 初期化さえしてないように見えますが(デタラメの値が入っている)
studyprg

2022/06/10 05:03

とりあえず初期化を試しましたが上のコメントのエラーが出ました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問