質問編集履歴
12
編集
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,11 +1,13 @@
|
|
1
1
|
やりたいこと
|
2
2
|
---
|
3
|
+
|
3
4
|
自然言語処理について勉強しています。
|
4
5
|
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
|
5
6
|
xmlの処理について試しているのですが、出力結果が想定とは全然違って困っています。
|
6
7
|
欲しい出力は,,<page>~~</page>の中身です。
|
7
8
|
後述の一例が取得できず困っています。
|
8
9
|
プログラミングはあまり得意ではないです。
|
10
|
+
|
9
11
|
|
10
12
|
実行環境
|
11
13
|
---
|
11
更新.
test
CHANGED
File without changes
|
test
CHANGED
@@ -53,7 +53,7 @@
|
|
53
53
|
FILE *fr = NULL;
|
54
54
|
FILE *gt = NULL;
|
55
55
|
fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
|
56
|
-
|
56
|
+
fr = fopen("get_text_byte.txt", "r");
|
57
57
|
gt = fopen("get_text_all.txt", "w"); //中身ないからNULL?
|
58
58
|
while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF)
|
59
59
|
{
|
@@ -61,7 +61,7 @@
|
|
61
61
|
if (strstr(line, "<page>"))
|
62
62
|
pb[0]=p;
|
63
63
|
else if (strstr(line, "</page>")){
|
64
|
-
pb[1] = p - pb[0]+1;
|
64
|
+
pb[1] = p - pb[0]+1;//readしたとき対策.
|
65
65
|
fseek(fp,-pb[1],SEEK_SET);
|
66
66
|
|
67
67
|
fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
|
@@ -73,8 +73,8 @@
|
|
73
73
|
}
|
74
74
|
*/
|
75
75
|
fseek(fp, pb[0], SEEK_SET);
|
76
|
-
p
|
76
|
+
pb[0] = p;
|
77
|
-
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", p
|
77
|
+
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]);
|
78
78
|
fread(line, sizeof(char), pb[1], fp);
|
79
79
|
fprintf(gt, "%s \n", line);
|
80
80
|
line[pb[1]] = 0;
|
@@ -87,34 +87,14 @@
|
|
87
87
|
fclose(gt);
|
88
88
|
}
|
89
89
|
|
90
|
-
}
|
91
90
|
```
|
92
91
|
**6/12AM2:00頃:追記のエラー。segmention fault発生。(答えの指摘でもありましたがUbuntsuではうまいこと動くっぽい)
|
93
|
-
|
92
|
+
|
94
93
|
問題は解決してない。。。**
|
95
|
-
|
94
|
+
追記:frのopen忘れてました...
|
96
|
-
(lldb) target create "./get_all"
|
97
|
-
Current executable set to '/***/get_all' (x86_64).
|
98
|
-
|
95
|
+
解決しました!
|
99
|
-
Process 2548 stopped
|
100
|
-
* thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
|
101
|
-
frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
|
102
|
-
libsystem_c.dylib`__svfscanf_l:
|
103
|
-
-> 0x7fff20456794 <+7527>: movl %eax, (%rcx)
|
104
|
-
0x7fff20456796 <+7529>: jmp 0x7fff204566ef ; <+7362>
|
105
|
-
0x7fff2045679b <+7534>: movzbl (%r14), %edi
|
106
|
-
0x7fff2045679f <+7538>: movq %r11, %rsi
|
107
|
-
Target 0: (get_all) stopped.
|
108
96
|
|
109
|
-
|
97
|
+
|
110
|
-
(lldb) bt
|
111
|
-
* thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
|
112
|
-
* frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
|
113
|
-
frame #1: 0x00007fff204496ad libsystem_c.dylib`fscanf + 188
|
114
|
-
frame #2: 0x0000000100003d74 get_all`main at Wiki_getter2_All.c:23:9
|
115
|
-
frame #3: 0x00007fff20554f3d libdyld.dylib`start + 1
|
116
|
-
frame #4: 0x00007fff20554f3d libdyld.dylib`start + 1
|
117
|
-
```
|
118
98
|
欲しい出力の一例です。これが大量に入ったファイルが欲しいです。
|
119
99
|
```sample
|
120
100
|
<page>
|
10
ソース修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -47,48 +47,46 @@
|
|
47
47
|
|
48
48
|
int p, p1 = 0;
|
49
49
|
int pb[5] = {};
|
50
|
-
char line
|
50
|
+
char *line = malloc(SIZE);
|
51
|
+
char *title = malloc(SIZE);
|
51
52
|
FILE *fp = NULL;
|
52
53
|
FILE *fr = NULL;
|
53
54
|
FILE *gt = NULL;
|
54
55
|
fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
|
55
|
-
char title[SIZE] = {};
|
56
56
|
|
57
|
-
gt = fopen("get_text_all.txt", "w");
|
57
|
+
gt = fopen("get_text_all.txt", "w"); //中身ないからNULL?
|
58
|
-
|
58
|
+
while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF)
|
59
|
-
if ((NULL == fp) || (NULL == fr) || (NULL == gt))
|
60
59
|
{
|
61
|
-
printf("abootしました。読み込みできてないよ");
|
62
|
-
|
60
|
+
/*
|
63
|
-
}
|
64
|
-
while (fscanf(fr, "%d \t %d \n ", &pb[0], &pb[1]) != EOF)
|
65
|
-
{
|
66
|
-
|
61
|
+
if (strstr(line, "<page>"))
|
67
|
-
|
62
|
+
pb[0]=p;
|
68
|
-
}
|
69
|
-
|
63
|
+
else if (strstr(line, "</page>")){
|
70
|
-
|
64
|
+
pb[1] = p - pb[0]+1;
|
71
|
-
|
65
|
+
fseek(fp,-pb[1],SEEK_SET);
|
72
66
|
|
73
|
-
|
67
|
+
fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
|
74
|
-
|
68
|
+
// printf("%d",fp);
|
75
|
-
|
69
|
+
fgets(line,pb[1],fp);
|
76
|
-
|
70
|
+
//fwrite(pb, sizeof(size_t), 2, fw); // ...
|
77
|
-
|
71
|
+
//fprintf(fw, "%hhd\t%hhd\n", pb[0], pb[1]); //... 名残
|
78
|
-
|
72
|
+
fprintf(fw,"%s \n",line);
|
73
|
+
}
|
79
|
-
|
74
|
+
*/
|
80
75
|
fseek(fp, pb[0], SEEK_SET);
|
81
76
|
p1 = p;
|
82
77
|
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", p1, pb[1]);
|
83
78
|
fread(line, sizeof(char), pb[1], fp);
|
79
|
+
fprintf(gt, "%s \n", line);
|
84
80
|
line[pb[1]] = 0;
|
85
|
-
fprintf(gt, "%s \n", line);
|
86
81
|
}
|
87
82
|
printf("process ok");
|
88
|
-
|
83
|
+
free(line);
|
84
|
+
free(title);
|
89
85
|
fclose(fp);
|
90
86
|
fclose(fr);
|
91
87
|
fclose(gt);
|
88
|
+
}
|
89
|
+
|
92
90
|
}
|
93
91
|
```
|
94
92
|
**6/12AM2:00頃:追記のエラー。segmention fault発生。(答えの指摘でもありましたがUbuntsuではうまいこと動くっぽい)
|
9
osについて記載
test
CHANGED
File without changes
|
test
CHANGED
@@ -9,8 +9,8 @@
|
|
9
9
|
|
10
10
|
実行環境
|
11
11
|
---
|
12
|
-
Macbook pro(2017)
|
12
|
+
**Macbook pro(2017)
|
13
|
-
OS:16.
|
13
|
+
OS:11.6.7**
|
14
14
|
|
15
15
|
以下に用意したファイル(記事の始点と記事の大きさのbyte数が入っている。)の一部とソースコードを貼り付けます。
|
16
16
|
```get_text_byte.txt
|
8
実行環境の記載
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,3 +1,5 @@
|
|
1
|
+
やりたいこと
|
2
|
+
---
|
1
3
|
自然言語処理について勉強しています。
|
2
4
|
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
|
3
5
|
xmlの処理について試しているのですが、出力結果が想定とは全然違って困っています。
|
@@ -5,6 +7,10 @@
|
|
5
7
|
後述の一例が取得できず困っています。
|
6
8
|
プログラミングはあまり得意ではないです。
|
7
9
|
|
10
|
+
実行環境
|
11
|
+
---
|
12
|
+
Macbook pro(2017)
|
13
|
+
OS:16.
|
8
14
|
|
9
15
|
以下に用意したファイル(記事の始点と記事の大きさのbyte数が入っている。)の一部とソースコードを貼り付けます。
|
10
16
|
```get_text_byte.txt
|
@@ -85,7 +91,7 @@
|
|
85
91
|
fclose(gt);
|
86
92
|
}
|
87
93
|
```
|
88
|
-
**6/12AM2:00頃:追記のエラー。segmention fault発生。
|
94
|
+
**6/12AM2:00頃:追記のエラー。segmention fault発生。(答えの指摘でもありましたがUbuntsuではうまいこと動くっぽい)
|
89
95
|
以下デバッガのコピペ。
|
90
96
|
問題は解決してない。。。**
|
91
97
|
```lldb_error_code
|
7
誤字など修正。
test
CHANGED
File without changes
|
test
CHANGED
@@ -7,7 +7,7 @@
|
|
7
7
|
|
8
8
|
|
9
9
|
以下に用意したファイル(記事の始点と記事の大きさのbyte数が入っている。)の一部とソースコードを貼り付けます。
|
10
|
-
```get_text_byte.txt
|
10
|
+
```get_text_byte.txt
|
11
11
|
607 10049
|
12
12
|
12666 4195
|
13
13
|
16871 483
|
@@ -111,10 +111,8 @@
|
|
111
111
|
frame #3: 0x00007fff20554f3d libdyld.dylib`start + 1
|
112
112
|
frame #4: 0x00007fff20554f3d libdyld.dylib`start + 1
|
113
113
|
```
|
114
|
-
|
115
|
-
```
|
116
114
|
欲しい出力の一例です。これが大量に入ったファイルが欲しいです。
|
117
|
-
```
|
115
|
+
```sample
|
118
116
|
<page>
|
119
117
|
<title>鳥取砂丘</title>
|
120
118
|
<ns>0</ns>
|
6
問題点について記述。
test
CHANGED
File without changes
|
test
CHANGED
@@ -28,8 +28,6 @@
|
|
28
28
|
251388 3170
|
29
29
|
...
|
30
30
|
...
|
31
|
-
|
32
|
-
|
33
31
|
```
|
34
32
|
|
35
33
|
|
@@ -37,54 +35,82 @@
|
|
37
35
|
#include <stdio.h>
|
38
36
|
#include <stdlib.h>
|
39
37
|
#include <string.h>
|
40
|
-
#define SIZE 256*1024*1024
|
38
|
+
#define SIZE 256 * 1024 * 1024
|
41
|
-
int main
|
39
|
+
int main()
|
40
|
+
{
|
42
41
|
|
42
|
+
int p, p1 = 0;
|
43
|
+
int pb[5] = {};
|
44
|
+
char line[SIZE] = {};
|
45
|
+
FILE *fp = NULL;
|
46
|
+
FILE *fr = NULL;
|
47
|
+
FILE *gt = NULL;
|
48
|
+
fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
|
49
|
+
char title[SIZE] = {};
|
43
50
|
|
44
|
-
int p,p1=0;
|
45
|
-
int pb[5]={};
|
46
|
-
char line[SIZE];
|
47
|
-
FILE *fp =NULL;
|
48
|
-
FILE *fr =NULL;
|
49
|
-
|
51
|
+
gt = fopen("get_text_all.txt", "w");
|
50
|
-
f
|
52
|
+
fr = fopen("get_text_byte.txt", "r");
|
53
|
+
if ((NULL == fp) || (NULL == fr) || (NULL == gt))
|
54
|
+
{
|
55
|
+
printf("abootしました。読み込みできてないよ");
|
56
|
+
abort(); //終了、ここがうまくいってない?
|
57
|
+
}
|
58
|
+
while (fscanf(fr, "%d \t %d \n ", &pb[0], &pb[1]) != EOF)
|
59
|
+
{
|
60
|
+
/* if (strstr(line, "<page>")){
|
61
|
+
pb[0]=p;
|
62
|
+
}
|
63
|
+
else if (strstr(line, "</page>")){
|
51
|
-
|
64
|
+
pb[1] = p - pb[0]+1;
|
65
|
+
fseek(fp,-pb[1],SEEK_SET);
|
52
66
|
|
67
|
+
fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
|
53
|
-
|
68
|
+
// printf("%d",fp);
|
69
|
+
fgets(line,pb[1],fp);
|
70
|
+
//fwrite(pb, sizeof(size_t), 2, fw); // ...
|
71
|
+
//fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //... 名残
|
72
|
+
fprintf(fw,"%s \n",line);
|
73
|
+
*/
|
74
|
+
fseek(fp, pb[0], SEEK_SET);
|
75
|
+
p1 = p;
|
76
|
+
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", p1, pb[1]);
|
77
|
+
fread(line, sizeof(char), pb[1], fp);
|
78
|
+
line[pb[1]] = 0;
|
54
|
-
|
79
|
+
fprintf(gt, "%s \n", line);
|
55
|
-
|
80
|
+
}
|
56
|
-
printf("
|
81
|
+
printf("process ok");
|
82
|
+
|
57
|
-
|
83
|
+
fclose(fp);
|
84
|
+
fclose(fr);
|
85
|
+
fclose(gt);
|
58
86
|
}
|
59
|
-
|
87
|
+
```
|
60
|
-
|
88
|
+
**6/12AM2:00頃:追記のエラー。segmention fault発生。
|
61
|
-
|
89
|
+
以下デバッガのコピペ。
|
62
|
-
|
90
|
+
問題は解決してない。。。**
|
91
|
+
```lldb_error_code
|
63
|
-
|
92
|
+
(lldb) target create "./get_all"
|
64
|
-
pb[1] = p - pb[0]+1;
|
65
|
-
fseek(fp,-pb[1],SEEK_SET);
|
66
|
-
|
67
|
-
fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
|
68
|
-
// printf("%d",fp);
|
69
|
-
fgets(line,pb[1],fp);
|
70
|
-
|
93
|
+
Current executable set to '/***/get_all' (x86_64).
|
94
|
+
(lldb) run
|
95
|
+
Process 2548 stopped
|
96
|
+
* thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
|
97
|
+
frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
|
98
|
+
libsystem_c.dylib`__svfscanf_l:
|
99
|
+
-> 0x7fff20456794 <+7527>: movl %eax, (%rcx)
|
71
|
-
|
100
|
+
0x7fff20456796 <+7529>: jmp 0x7fff204566ef ; <+7362>
|
72
|
-
|
101
|
+
0x7fff2045679b <+7534>: movzbl (%r14), %edi
|
73
|
-
*/
|
74
|
-
fseek(fp,pb[0],SEEK_SET);
|
75
|
-
p1= p;
|
76
|
-
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p1,&pb[1]);
|
77
|
-
fread(line,sizeof(size_t),pb[1],fp);
|
78
|
-
|
102
|
+
0x7fff2045679f <+7538>: movq %r11, %rsi
|
79
|
-
}
|
80
|
-
|
103
|
+
Target 0: (get_all) stopped.
|
81
104
|
|
82
|
-
|
83
|
-
|
105
|
+
Process 2548 launched: '***/get_all' (x86_64)
|
84
|
-
fclose(fr);
|
85
|
-
|
106
|
+
(lldb) bt
|
107
|
+
* thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
|
108
|
+
* frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
|
109
|
+
frame #1: 0x00007fff204496ad libsystem_c.dylib`fscanf + 188
|
110
|
+
frame #2: 0x0000000100003d74 get_all`main at Wiki_getter2_All.c:23:9
|
111
|
+
frame #3: 0x00007fff20554f3d libdyld.dylib`start + 1
|
112
|
+
frame #4: 0x00007fff20554f3d libdyld.dylib`start + 1
|
86
|
-
|
113
|
+
```
|
87
|
-
|
88
114
|
|
89
115
|
```
|
90
116
|
欲しい出力の一例です。これが大量に入ったファイルが欲しいです。
|
5
ソース修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -47,30 +47,44 @@
|
|
47
47
|
FILE *fp =NULL;
|
48
48
|
FILE *fr =NULL;
|
49
49
|
FILE *gt =NULL;
|
50
|
-
fp=fopen("jawiki
|
50
|
+
fp=fopen("jawiki-20211220-pages-articles-multistream2.xml" , "r");
|
51
51
|
char title[SIZE];
|
52
52
|
|
53
53
|
gt = fopen("get_text_all.txt","w");
|
54
54
|
fr = fopen("get_text_byte.txt", "r");
|
55
55
|
if ((NULL == fp)||(NULL== fr)||(NULL== gt)){
|
56
56
|
printf("abootしました。読み込みできてないよ");
|
57
|
-
abort();
|
57
|
+
abort();//終了、ここがうまくいってない?
|
58
|
+
}
|
58
59
|
while (fscanf(fr, "%d \t %d \n ", pb[0], &pb[1]) != EOF) {
|
60
|
+
/* if (strstr(line, "<page>")){
|
61
|
+
pb[0]=p;
|
62
|
+
}
|
63
|
+
else if (strstr(line, "</page>")){
|
64
|
+
pb[1] = p - pb[0]+1;
|
59
|
-
fseek(fp,pb[
|
65
|
+
fseek(fp,-pb[1],SEEK_SET);
|
60
|
-
|
66
|
+
|
61
|
-
printf("
|
67
|
+
fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
|
68
|
+
// printf("%d",fp);
|
62
|
-
fgets(line,pb[1],fp);
|
69
|
+
fgets(line,pb[1],fp);
|
70
|
+
//fwrite(pb, sizeof(size_t), 2, fw); // ...
|
71
|
+
//fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //... 名残
|
63
72
|
fprintf(fw,"%s \n",line);
|
64
|
-
|
73
|
+
*/
|
65
|
-
|
74
|
+
fseek(fp,pb[0],SEEK_SET);
|
75
|
+
p1= p;
|
76
|
+
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p1,&pb[1]);
|
77
|
+
fread(line,sizeof(size_t),pb[1],fp);
|
78
|
+
fprintf(gt,"%s \n",line);
|
66
79
|
}
|
67
|
-
printf("ok");
|
80
|
+
printf("ok");
|
68
81
|
|
69
82
|
|
70
83
|
fclose(fp);
|
71
84
|
fclose(fr);
|
72
85
|
fclose(gt);
|
73
86
|
}
|
87
|
+
|
74
88
|
|
75
89
|
```
|
76
90
|
欲しい出力の一例です。これが大量に入ったファイルが欲しいです。
|
4
修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -37,18 +37,18 @@
|
|
37
37
|
#include <stdio.h>
|
38
38
|
#include <stdlib.h>
|
39
39
|
#include <string.h>
|
40
|
-
|
40
|
+
#define SIZE 256*1024*1024
|
41
41
|
int main (){
|
42
42
|
|
43
43
|
|
44
44
|
int p,p1=0;
|
45
45
|
int pb[5]={};
|
46
|
-
char line[
|
46
|
+
char line[SIZE];
|
47
47
|
FILE *fp =NULL;
|
48
48
|
FILE *fr =NULL;
|
49
49
|
FILE *gt =NULL;
|
50
|
-
fp=fopen("jawikiの.xml" , "r");
|
50
|
+
fp=fopen("jawikiの分割ファイル.xml" , "r");
|
51
|
-
char title[
|
51
|
+
char title[SIZE];
|
52
52
|
|
53
53
|
gt = fopen("get_text_all.txt","w");
|
54
54
|
fr = fopen("get_text_byte.txt", "r");
|
3
ソースコード修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -41,7 +41,7 @@
|
|
41
41
|
int main (){
|
42
42
|
|
43
43
|
|
44
|
-
int p=0;
|
44
|
+
int p,p1=0;
|
45
45
|
int pb[5]={};
|
46
46
|
char line[BUFSIZ];
|
47
47
|
FILE *fp =NULL;
|
@@ -58,7 +58,7 @@
|
|
58
58
|
while (fscanf(fr, "%d \t %d \n ", pb[0], &pb[1]) != EOF) {
|
59
59
|
fseek(fp,pb[0],SEEK_CUR);
|
60
60
|
p = fp;
|
61
|
-
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p,&pb[1]);//現在位置と読み込むバイトの確認。
|
61
|
+
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p1,&pb[1]);//現在位置と読み込むバイトの確認。
|
62
62
|
fgets(line,pb[1],fp);
|
63
63
|
fprintf(fw,"%s \n",line);
|
64
64
|
|
2
ソースコード修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -59,6 +59,8 @@
|
|
59
59
|
fseek(fp,pb[0],SEEK_CUR);
|
60
60
|
p = fp;
|
61
61
|
printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p,&pb[1]);//現在位置と読み込むバイトの確認。
|
62
|
+
fgets(line,pb[1],fp);
|
63
|
+
fprintf(fw,"%s \n",line);
|
62
64
|
|
63
65
|
|
64
66
|
}
|
1
タグ修正
test
CHANGED
File without changes
|
test
CHANGED
File without changes
|