質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Open XML

Open XMLは、マイクロソフト社が開発したオープンなXMLベースのオフィススイート用のファイル形式です。従来のバイナリ形式のフォーマットに代わって、XMLを用いた規格を標準ファイル形式として採用しています。

MediaWiki

MediaWikiは、Wikipediaを運営するウィキメディア財団が開発するコラボレーションツールです。複数ユーザーによるコンテンツ管理機能を備えるなど、Wikipediaと同じ操作性や編集機能を持ちます。PHPで記述されており、MySQLやPostgreSQLをデータベースに使用できます。

解決済

Wikipediaのdumpデータから記事取得を目的としたプログラムの作成

studyprg
studyprg

総合スコア50

C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Open XML

Open XMLは、マイクロソフト社が開発したオープンなXMLベースのオフィススイート用のファイル形式です。従来のバイナリ形式のフォーマットに代わって、XMLを用いた規格を標準ファイル形式として採用しています。

MediaWiki

MediaWikiは、Wikipediaを運営するウィキメディア財団が開発するコラボレーションツールです。複数ユーザーによるコンテンツ管理機能を備えるなど、Wikipediaと同じ操作性や編集機能を持ちます。PHPで記述されており、MySQLやPostgreSQLをデータベースに使用できます。

1回答

0リアクション

0クリップ

258閲覧

投稿2022/06/09 08:55

編集2022/06/09 14:20

自然言語処理について勉強しています。
Wikipediaのdumpデータからタイトルと本文を抜き出して処理をしようと思ってます。(外部ライブラリ未使用で)
今は記事<page>~</page>間を全取得してtxtに書き込むプログラムを作りたいです。
ここからは求めた記事の開始地点のbyte(pb[0])から指定バイト(pb[1])分だけ読み込んでいく予定でしたが、
ファイルポインタが記事の終着点にあって読み込みがうまくいってません。
fprintfが上手いこと動くようにして欲しいです。
プログラミングはあまり得意ではないです。

get_wiki2_All.c

#include <stdio.h> #include <stdlib.h> #include <string.h> int main (){ int p; char pb[5]; char line[BUFSIZ]; FILE *fp = fopen("jawiki-20211220-pages-articles-multistream1.xml", "r"); char title[BUFSIZ]; //FILE *gt=fopen("list_1.txt","r"); FILE *fw = fopen("get_text_c.txt", "w"); while (p = ftell(fp), fgets(line, BUFSIZ, fp)) { if ((NULL == fp)||(NULL== fw )){ abort(); } else if (strstr(line, "<page>")){ p=pb[0]; } else if (strstr(line, "</page>")){ pb[1] = p - pb[0]; fseek(fp,-pb[1],SEEK_CUR); fgets(line,pb[1],fp); //fwrite(pb, sizeof(size_t), 2, fw); // ... //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //読み込み時の名残 fprintf(fw,"%s \n",line);**//ここが動いてほしい** } } fclose(fw); fclose(fp); }

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

int32_t

2022/06/09 09:46

<page> と </page> に挟まれている箇所の開始オフセットとバイト数を pb[0] と pb[1] に入れたいということで合ってますか? <page> と </page> が同じ行に含まれることはありますか?
studyprg

2022/06/09 11:57

あってます。 <page></page>が1行はないと思います。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

C

C言語は、1972年にAT&Tベル研究所の、デニス・リッチーが主体となって作成したプログラミング言語です。 B言語の後継言語として開発されたことからC言語と命名。そのため、表記法などはB言語やALGOLに近いとされています。 Cの拡張版であるC++言語とともに、現在世界中でもっとも普及されているプログラミング言語です。

Open XML

Open XMLは、マイクロソフト社が開発したオープンなXMLベースのオフィススイート用のファイル形式です。従来のバイナリ形式のフォーマットに代わって、XMLを用いた規格を標準ファイル形式として採用しています。

MediaWiki

MediaWikiは、Wikipediaを運営するウィキメディア財団が開発するコラボレーションツールです。複数ユーザーによるコンテンツ管理機能を備えるなど、Wikipediaと同じ操作性や編集機能を持ちます。PHPで記述されており、MySQLやPostgreSQLをデータベースに使用できます。