質問編集履歴

12

編集

2022/06/13 06:08

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -1,11 +1,13 @@
1
1
  やりたいこと
2
2
  ---
3
+
3
4
  自然言語処理について勉強しています。
4
5
  Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
5
6
  xmlの処理について試しているのですが、出力結果が想定とは全然違って困っています。
6
7
  欲しい出力は,,<page>~~</page>の中身です。
7
8
  後述の一例が取得できず困っています。
8
9
  プログラミングはあまり得意ではないです。
10
+  
9
11
 
10
12
  実行環境
11
13
  ---

11

更新.

2022/06/12 14:19

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -53,7 +53,7 @@
53
53
  FILE *fr = NULL;
54
54
  FILE *gt = NULL;
55
55
  fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
56
-
56
+ fr = fopen("get_text_byte.txt", "r");
57
57
  gt = fopen("get_text_all.txt", "w"); //中身ないからNULL?
58
58
  while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF)
59
59
  {
@@ -61,7 +61,7 @@
61
61
  if (strstr(line, "<page>"))
62
62
  pb[0]=p;
63
63
  else if (strstr(line, "</page>")){
64
- pb[1] = p - pb[0]+1;
64
+ pb[1] = p - pb[0]+1;//readしたとき対策.
65
65
  fseek(fp,-pb[1],SEEK_SET);
66
66
 
67
67
  fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
@@ -73,8 +73,8 @@
73
73
  }
74
74
  */
75
75
  fseek(fp, pb[0], SEEK_SET);
76
- p1 = p;
76
+ pb[0] = p;
77
- printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", p1, pb[1]);
77
+ printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", pb[0], pb[1]);
78
78
  fread(line, sizeof(char), pb[1], fp);
79
79
  fprintf(gt, "%s \n", line);
80
80
  line[pb[1]] = 0;
@@ -87,34 +87,14 @@
87
87
  fclose(gt);
88
88
  }
89
89
 
90
- }
91
90
  ```
92
91
  **6/12AM2:00頃:追記のエラー。segmention fault発生。(答えの指摘でもありましたがUbuntsuではうまいこと動くっぽい)
93
- 以下デバッガのコピペ。
92
+
94
93
  問題は解決してない。。。**
95
- ```lldb_error_code
94
+ 追記:fropen忘れてました...
96
- (lldb) target create "./get_all"
97
- Current executable set to '/***/get_all' (x86_64).
98
- (lldb) run
95
+ 解決しました!
99
- Process 2548 stopped
100
- * thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
101
- frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
102
- libsystem_c.dylib`__svfscanf_l:
103
- -> 0x7fff20456794 <+7527>: movl %eax, (%rcx)
104
- 0x7fff20456796 <+7529>: jmp 0x7fff204566ef ; <+7362>
105
- 0x7fff2045679b <+7534>: movzbl (%r14), %edi
106
- 0x7fff2045679f <+7538>: movq %r11, %rsi
107
- Target 0: (get_all) stopped.
108
96
 
109
- Process 2548 launched: '***/get_all' (x86_64)
97
+
110
- (lldb) bt
111
- * thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
112
- * frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
113
- frame #1: 0x00007fff204496ad libsystem_c.dylib`fscanf + 188
114
- frame #2: 0x0000000100003d74 get_all`main at Wiki_getter2_All.c:23:9
115
- frame #3: 0x00007fff20554f3d libdyld.dylib`start + 1
116
- frame #4: 0x00007fff20554f3d libdyld.dylib`start + 1
117
- ```
118
98
  欲しい出力の一例です。これが大量に入ったファイルが欲しいです。
119
99
  ```sample
120
100
  <page>

10

ソース修正

2022/06/12 10:47

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -47,48 +47,46 @@
47
47
 
48
48
  int p, p1 = 0;
49
49
  int pb[5] = {};
50
- char line[SIZE] = {};
50
+ char *line = malloc(SIZE);
51
+ char *title = malloc(SIZE);
51
52
  FILE *fp = NULL;
52
53
  FILE *fr = NULL;
53
54
  FILE *gt = NULL;
54
55
  fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
55
- char title[SIZE] = {};
56
56
 
57
- gt = fopen("get_text_all.txt", "w");
57
+ gt = fopen("get_text_all.txt", "w"); //中身ないからNULL?
58
- fr = fopen("get_text_byte.txt", "r");
58
+ while (fscanf(fr, "%d\t%d\n", &pb[0], &pb[1]) != EOF)
59
- if ((NULL == fp) || (NULL == fr) || (NULL == gt))
60
59
  {
61
- printf("abootしました。読み込みできてないよ");
62
- abort(); //終了、ここがうまくいってない?
60
+ /*
63
- }
64
- while (fscanf(fr, "%d \t %d \n ", &pb[0], &pb[1]) != EOF)
65
- {
66
- /* if (strstr(line, "<page>")){
61
+ if (strstr(line, "<page>"))
67
- pb[0]=p;
62
+ pb[0]=p;
68
- }
69
- else if (strstr(line, "</page>")){
63
+ else if (strstr(line, "</page>")){
70
- pb[1] = p - pb[0]+1;
64
+ pb[1] = p - pb[0]+1;
71
- fseek(fp,-pb[1],SEEK_SET);
65
+ fseek(fp,-pb[1],SEEK_SET);
72
66
 
73
- fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
67
+ fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
74
- // printf("%d",fp);
68
+ // printf("%d",fp);
75
- fgets(line,pb[1],fp);
69
+ fgets(line,pb[1],fp);
76
- //fwrite(pb, sizeof(size_t), 2, fw); // ...
70
+ //fwrite(pb, sizeof(size_t), 2, fw); // ...
77
- //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //... 名残
71
+ //fprintf(fw, "%hhd\t%hhd\n", pb[0], pb[1]); //... 名残
78
- fprintf(fw,"%s \n",line);
72
+ fprintf(fw,"%s \n",line);
73
+ }
79
- */
74
+ */
80
75
  fseek(fp, pb[0], SEEK_SET);
81
76
  p1 = p;
82
77
  printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", p1, pb[1]);
83
78
  fread(line, sizeof(char), pb[1], fp);
79
+ fprintf(gt, "%s \n", line);
84
80
  line[pb[1]] = 0;
85
- fprintf(gt, "%s \n", line);
86
81
  }
87
82
  printf("process ok");
88
-
83
+ free(line);
84
+ free(title);
89
85
  fclose(fp);
90
86
  fclose(fr);
91
87
  fclose(gt);
88
+ }
89
+
92
90
  }
93
91
  ```
94
92
  **6/12AM2:00頃:追記のエラー。segmention fault発生。(答えの指摘でもありましたがUbuntsuではうまいこと動くっぽい)

9

osについて記載

2022/06/12 04:41

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -9,8 +9,8 @@
9
9
 
10
10
  実行環境
11
11
  ---
12
- Macbook pro(2017)
12
+ **Macbook pro(2017)
13
- OS:16.
13
+ OS:11.6.7**
14
14
 
15
15
  以下に用意したファイル(記事の始点と記事の大きさのbyte数が入っている。)の一部とソースコードを貼り付けます。
16
16
  ```get_text_byte.txt

8

実行環境の記載

2022/06/12 04:40

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -1,3 +1,5 @@
1
+ やりたいこと
2
+ ---
1
3
  自然言語処理について勉強しています。
2
4
  Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
3
5
  xmlの処理について試しているのですが、出力結果が想定とは全然違って困っています。
@@ -5,6 +7,10 @@
5
7
  後述の一例が取得できず困っています。
6
8
  プログラミングはあまり得意ではないです。
7
9
 
10
+ 実行環境
11
+ ---
12
+ Macbook pro(2017)
13
+ OS:16.
8
14
 
9
15
  以下に用意したファイル(記事の始点と記事の大きさのbyte数が入っている。)の一部とソースコードを貼り付けます。
10
16
  ```get_text_byte.txt
@@ -85,7 +91,7 @@
85
91
  fclose(gt);
86
92
  }
87
93
  ```
88
- **6/12AM2:00頃:追記のエラー。segmention fault発生。
94
+ **6/12AM2:00頃:追記のエラー。segmention fault発生。(答えの指摘でもありましたがUbuntsuではうまいこと動くっぽい)
89
95
  以下デバッガのコピペ。
90
96
  問題は解決してない。。。**
91
97
  ```lldb_error_code

7

誤字など修正。

2022/06/11 16:52

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -7,7 +7,7 @@
7
7
 
8
8
 
9
9
  以下に用意したファイル(記事の始点と記事の大きさのbyte数が入っている。)の一部とソースコードを貼り付けます。
10
- ```get_text_byte.txt(一部)
10
+ ```get_text_byte.txt
11
11
  607      10049
12
12
  12666      4195
13
13
  16871      483
@@ -111,10 +111,8 @@
111
111
  frame #3: 0x00007fff20554f3d libdyld.dylib`start + 1
112
112
  frame #4: 0x00007fff20554f3d libdyld.dylib`start + 1
113
113
  ```
114
-
115
- ```
116
114
  欲しい出力の一例です。これが大量に入ったファイルが欲しいです。
117
- ```
115
+ ```sample
118
116
  <page>
119
117
  <title>鳥取砂丘</title>
120
118
  <ns>0</ns>

6

問題点について記述。

2022/06/11 16:50

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -28,8 +28,6 @@
28
28
  251388      3170
29
29
  ...
30
30
  ...
31
-
32
-
33
31
  ```
34
32
 
35
33
 
@@ -37,54 +35,82 @@
37
35
  #include <stdio.h>
38
36
  #include <stdlib.h>
39
37
  #include <string.h>
40
- #define SIZE 256*1024*1024
38
+ #define SIZE 256 * 1024 * 1024
41
- int main (){
39
+ int main()
40
+ {
42
41
 
42
+ int p, p1 = 0;
43
+ int pb[5] = {};
44
+ char line[SIZE] = {};
45
+ FILE *fp = NULL;
46
+ FILE *fr = NULL;
47
+ FILE *gt = NULL;
48
+ fp = fopen("jawiki-20211220-pages-articles-multistream2.xml", "r");
49
+ char title[SIZE] = {};
43
50
 
44
- int p,p1=0;
45
- int pb[5]={};
46
- char line[SIZE];
47
- FILE *fp =NULL;
48
- FILE *fr =NULL;
49
- FILE *gt =NULL;
51
+ gt = fopen("get_text_all.txt", "w");
50
- fp=fopen("jawiki-20211220-pages-articles-multistream2.xml" , "r");
52
+ fr = fopen("get_text_byte.txt", "r");
53
+ if ((NULL == fp) || (NULL == fr) || (NULL == gt))
54
+ {
55
+ printf("abootしました。読み込みできてないよ");
56
+ abort(); //終了、ここがうまくいってない?
57
+ }
58
+ while (fscanf(fr, "%d \t %d \n ", &pb[0], &pb[1]) != EOF)
59
+ {
60
+ /* if (strstr(line, "<page>")){
61
+ pb[0]=p;
62
+ }
63
+ else if (strstr(line, "</page>")){
51
- char title[SIZE];
64
+ pb[1] = p - pb[0]+1;
65
+ fseek(fp,-pb[1],SEEK_SET);
52
66
 
67
+ fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
53
- gt = fopen("get_text_all.txt","w");
68
+ // printf("%d",fp);
69
+ fgets(line,pb[1],fp);
70
+ //fwrite(pb, sizeof(size_t), 2, fw); // ...
71
+ //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //... 名残
72
+ fprintf(fw,"%s \n",line);
73
+ */
74
+ fseek(fp, pb[0], SEEK_SET);
75
+ p1 = p;
76
+ printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n", p1, pb[1]);
77
+ fread(line, sizeof(char), pb[1], fp);
78
+ line[pb[1]] = 0;
54
- fr = fopen("get_text_byte.txt", "r");
79
+ fprintf(gt, "%s \n", line);
55
- if ((NULL == fp)||(NULL== fr)||(NULL== gt)){
80
+ }
56
- printf("abootしました。読み込みできてないよ");
81
+ printf("process ok");
82
+
57
- abort();//終了、ここがうまくいってない?
83
+ fclose(fp);
84
+ fclose(fr);
85
+ fclose(gt);
58
86
  }
59
- while (fscanf(fr, "%d \t %d \n ", pb[0], &pb[1]) != EOF) {
87
+ ```
60
- /* if (strstr(line, "<page>")){
88
+ **6/12AM2:00頃:追記のエラー。segmention fault発生。
61
- pb[0]=p;
89
+ 以下デバッガのコピペ。
62
- }
90
+ 問題は解決してない。。。**
91
+ ```lldb_error_code
63
- else if (strstr(line, "</page>")){
92
+ (lldb) target create "./get_all"
64
- pb[1] = p - pb[0]+1;
65
- fseek(fp,-pb[1],SEEK_SET);
66
-
67
- fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
68
- // printf("%d",fp);
69
- fgets(line,pb[1],fp);
70
- //fwrite(pb, sizeof(size_t), 2, fw); // ...
93
+ Current executable set to '/***/get_all' (x86_64).
94
+ (lldb) run
95
+ Process 2548 stopped
96
+ * thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
97
+ frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
98
+ libsystem_c.dylib`__svfscanf_l:
99
+ -> 0x7fff20456794 <+7527>: movl %eax, (%rcx)
71
- //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //... 名残
100
+ 0x7fff20456796 <+7529>: jmp 0x7fff204566ef ; <+7362>
72
- fprintf(fw,"%s \n",line);
101
+ 0x7fff2045679b <+7534>: movzbl (%r14), %edi
73
- */
74
- fseek(fp,pb[0],SEEK_SET);
75
- p1= p;
76
- printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p1,&pb[1]);
77
- fread(line,sizeof(size_t),pb[1],fp);
78
- fprintf(gt,"%s \n",line);
102
+ 0x7fff2045679f <+7538>: movq %r11, %rsi
79
- }
80
- printf("ok");
103
+ Target 0: (get_all) stopped.
81
104
 
82
-
83
- fclose(fp);
105
+ Process 2548 launched: '***/get_all' (x86_64)
84
- fclose(fr);
85
- fclose(gt);
106
+ (lldb) bt
107
+ * thread #1, queue = 'com.apple.main-thread', stop reason = EXC_BAD_ACCESS (code=1, address=0x0)
108
+ * frame #0: 0x00007fff20456794 libsystem_c.dylib`__svfscanf_l + 7527
109
+ frame #1: 0x00007fff204496ad libsystem_c.dylib`fscanf + 188
110
+ frame #2: 0x0000000100003d74 get_all`main at Wiki_getter2_All.c:23:9
111
+ frame #3: 0x00007fff20554f3d libdyld.dylib`start + 1
112
+ frame #4: 0x00007fff20554f3d libdyld.dylib`start + 1
86
- }
113
+ ```
87
-
88
114
 
89
115
  ```
90
116
  欲しい出力の一例です。これが大量に入ったファイルが欲しいです。

5

ソース修正

2022/06/11 14:41

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -47,30 +47,44 @@
47
47
  FILE *fp =NULL;
48
48
  FILE *fr =NULL;
49
49
  FILE *gt =NULL;
50
- fp=fopen("jawikiの分割ファイル.xml" , "r");
50
+ fp=fopen("jawiki-20211220-pages-articles-multistream2.xml" , "r");
51
51
  char title[SIZE];
52
52
 
53
53
  gt = fopen("get_text_all.txt","w");
54
54
  fr = fopen("get_text_byte.txt", "r");
55
55
  if ((NULL == fp)||(NULL== fr)||(NULL== gt)){
56
56
  printf("abootしました。読み込みできてないよ");
57
- abort();
57
+ abort();//終了、ここがうまくいってない?
58
+ }
58
59
  while (fscanf(fr, "%d \t %d \n ", pb[0], &pb[1]) != EOF) {
60
+ /* if (strstr(line, "<page>")){
61
+ pb[0]=p;
62
+ }
63
+ else if (strstr(line, "</page>")){
64
+ pb[1] = p - pb[0]+1;
59
- fseek(fp,pb[0],SEEK_CUR);
65
+ fseek(fp,-pb[1],SEEK_SET);
60
- p = fp;
66
+
61
- printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d\n",p1,&pb[1]);//現在位置と読み込むバイトの確認。
67
+ fprintf(stderr, "start=%d size=%d BUFSIZ=%d\n", pb[0], pb[1], BUFSIZ);
68
+ // printf("%d",fp);
62
- fgets(line,pb[1],fp);
69
+ fgets(line,pb[1],fp);
70
+ //fwrite(pb, sizeof(size_t), 2, fw); // ...
71
+ //fprintf(fw, "%hhd \t %hhd \n", pb[0], pb[1]); //... 名残
63
72
  fprintf(fw,"%s \n",line);
64
-
73
+ */
65
-
74
+ fseek(fp,pb[0],SEEK_SET);
75
+ p1= p;
76
+ printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p1,&pb[1]);
77
+ fread(line,sizeof(size_t),pb[1],fp);
78
+ fprintf(gt,"%s \n",line);
66
79
  }
67
- printf("ok");//終了
80
+ printf("ok");
68
81
 
69
82
 
70
83
  fclose(fp);
71
84
  fclose(fr);
72
85
  fclose(gt);
73
86
  }
87
+
74
88
 
75
89
  ```
76
90
  欲しい出力の一例です。これが大量に入ったファイルが欲しいです。

4

修正

2022/06/11 11:43

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -37,18 +37,18 @@
37
37
  #include <stdio.h>
38
38
  #include <stdlib.h>
39
39
  #include <string.h>
40
-
40
+ #define SIZE 256*1024*1024
41
41
  int main (){
42
42
 
43
43
 
44
44
  int p,p1=0;
45
45
  int pb[5]={};
46
- char line[BUFSIZ];
46
+ char line[SIZE];
47
47
  FILE *fp =NULL;
48
48
  FILE *fr =NULL;
49
49
  FILE *gt =NULL;
50
- fp=fopen("jawikiの.xml" , "r");
50
+ fp=fopen("jawikiの分割ファイル.xml" , "r");
51
- char title[BUFSIZ];
51
+ char title[SIZE];
52
52
 
53
53
  gt = fopen("get_text_all.txt","w");
54
54
  fr = fopen("get_text_byte.txt", "r");

3

ソースコード修正

2022/06/11 11:37

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -41,7 +41,7 @@
41
41
  int main (){
42
42
 
43
43
 
44
- int p=0;
44
+ int p,p1=0;
45
45
  int pb[5]={};
46
46
  char line[BUFSIZ];
47
47
  FILE *fp =NULL;
@@ -58,7 +58,7 @@
58
58
  while (fscanf(fr, "%d \t %d \n ", pb[0], &pb[1]) != EOF) {
59
59
  fseek(fp,pb[0],SEEK_CUR);
60
60
  p = fp;
61
- printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p,&pb[1]);//現在位置と読み込むバイトの確認。
61
+ printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p1,&pb[1]);//現在位置と読み込むバイトの確認。
62
62
  fgets(line,pb[1],fp);
63
63
  fprintf(fw,"%s \n",line);
64
64
 

2

ソースコード修正

2022/06/11 11:33

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
@@ -59,6 +59,8 @@
59
59
  fseek(fp,pb[0],SEEK_CUR);
60
60
  p = fp;
61
61
  printf("現在のファイルポインタの位置は「%d」です。, 読み込むバイトは「%d」\n",p,&pb[1]);//現在位置と読み込むバイトの確認。
62
+ fgets(line,pb[1],fp);
63
+ fprintf(fw,"%s \n",line);
62
64
 
63
65
 
64
66
  }

1

タグ修正

2022/06/11 11:27

投稿

studyprg
studyprg

スコア57

test CHANGED
File without changes
test CHANGED
File without changes