質問編集履歴
6
test
CHANGED
File without changes
|
test
CHANGED
File without changes
|
5
test
CHANGED
File without changes
|
test
CHANGED
@@ -64,7 +64,7 @@
|
|
64
64
|
|
65
65
|
```
|
66
66
|
|
67
|
-
と打ち込んだところ実行を押しても何も動きませんでした...。[]のところには*ではなくちゃんと数字があります。ド文系で本当に初心者のため、その都度その都度調べてはいますが、コードの意味もよくわかっていなければ、専門用語もよくわかっていません。もし宜しければどうしてこのコードで動かないのか、教えていただけないでしょうか。
|
67
|
+
と打ち込んだところ実行を押しても何も動きませんでした...。[]のところには*ではなくちゃんと数字があります。ド文系で本当に初心者のため、その都度その都度調べてはいますが、コードの意味もよくわかっていなければ、専門用語もよくわかっていません。もし宜しければどうしてこのコードで動かないのか、どうすれば動くようになるのか、教えていただけないでしょうか。
|
68
68
|
|
69
69
|
|
70
70
|
|
4
test
CHANGED
File without changes
|
test
CHANGED
@@ -46,7 +46,7 @@
|
|
46
46
|
|
47
47
|
for item in items
|
48
48
|
|
49
|
-
if (item[0] not in ('EOS', '', 't', '
|
49
|
+
if (item[0] not in ('EOS', '', 't', '一般') and
|
50
50
|
|
51
51
|
item[1] == '名詞' and item[2] == '一般')]
|
52
52
|
|
3
test
CHANGED
File without changes
|
test
CHANGED
@@ -34,7 +34,7 @@
|
|
34
34
|
|
35
35
|
mecab = MeCab.Tagger()
|
36
36
|
|
37
|
-
parse = mecab.parse(data)
|
37
|
+
parse = mecab.parse('data')
|
38
38
|
|
39
39
|
lines = parse.split('\n')
|
40
40
|
|
2
test
CHANGED
File without changes
|
test
CHANGED
@@ -12,7 +12,11 @@
|
|
12
12
|
|
13
13
|
|
14
14
|
|
15
|
+
```ここに言語を入力
|
16
|
+
|
17
|
+
|
18
|
+
|
15
|
-
|
19
|
+
import MeCab
|
16
20
|
|
17
21
|
import sys
|
18
22
|
|
@@ -56,6 +60,10 @@
|
|
56
60
|
|
57
61
|
|
58
62
|
|
63
|
+
コード
|
64
|
+
|
65
|
+
```
|
66
|
+
|
59
67
|
と打ち込んだところ実行を押しても何も動きませんでした...。[]のところには*ではなくちゃんと数字があります。ド文系で本当に初心者のため、その都度その都度調べてはいますが、コードの意味もよくわかっていなければ、専門用語もよくわかっていません。もし宜しければどうしてこのコードで動かないのか、教えていただけないでしょうか。
|
60
68
|
|
61
69
|
|
1
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,49 +1,63 @@
|
|
1
|
-
|
1
|
+
<すみません、こちらのサイトすらうまく使えておらずご迷惑をおかけしました...>
|
2
2
|
|
3
3
|
|
4
4
|
|
5
|
-
ここに質問の内容を詳しく書いてください。
|
6
5
|
|
7
|
-
(例)PHP(CakePHP)で●●なシステムを作っています。
|
8
6
|
|
9
|
-
|
7
|
+
文系大学4年生の初心者です。卒論で紙媒体のテキストを電子テキスト化し、頻出単語をMecabで抽出する作業を行なっています。jupyterでテキストを呼び起こすことやprint(c.most_common(50))などで頻出単語50個を抽出するところまでは2週間ほどかけてようやくできました...。
|
10
8
|
|
11
9
|
|
12
10
|
|
13
|
-
|
11
|
+
そして今度は名詞で頻出単語を抽出したいと思い、
|
14
12
|
|
15
13
|
|
16
14
|
|
17
|
-
```
|
15
|
+
```import MeCab
|
18
16
|
|
19
|
-
|
17
|
+
import sys
|
20
18
|
|
21
|
-
|
19
|
+
import re
|
20
|
+
|
21
|
+
from collections import Counter
|
22
22
|
|
23
23
|
|
24
24
|
|
25
|
+
f = open("卒論テキスト.txt")
|
26
|
+
|
25
|
-
|
27
|
+
text = f.read
|
26
28
|
|
27
29
|
|
28
30
|
|
29
|
-
|
31
|
+
mecab = MeCab.Tagger()
|
30
32
|
|
31
|
-
|
33
|
+
parse = mecab.parse(data)
|
32
34
|
|
33
|
-
|
35
|
+
lines = parse.split('\n')
|
36
|
+
|
37
|
+
items = (re.split('[\t,]', line) for line in lines)
|
34
38
|
|
35
39
|
|
36
40
|
|
37
|
-
|
41
|
+
words = [item[0]
|
42
|
+
|
43
|
+
for item in items
|
44
|
+
|
45
|
+
if (item[0] not in ('EOS', '', 't', 'ー') and
|
46
|
+
|
47
|
+
item[1] == '名詞' and item[2] == '一般')]
|
38
48
|
|
39
49
|
|
40
50
|
|
41
|
-
|
51
|
+
counter = Counter(words)
|
52
|
+
|
53
|
+
for word, count in counter.most_common():
|
54
|
+
|
55
|
+
print(f"{word}: {count}")
|
42
56
|
|
43
57
|
|
44
58
|
|
45
|
-
|
59
|
+
と打ち込んだところ実行を押しても何も動きませんでした...。[]のところには*ではなくちゃんと数字があります。ド文系で本当に初心者のため、その都度その都度調べてはいますが、コードの意味もよくわかっていなければ、専門用語もよくわかっていません。もし宜しければどうしてこのコードで動かないのか、教えていただけないでしょうか。
|
46
60
|
|
47
61
|
|
48
62
|
|
49
|
-
|
63
|
+
補足情報としてはWindows10を使っています。
|