編集履歴

質問編集履歴

文章の修正

2020/01/01 17:08

投稿

Nomi515

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -26,6 +26,54 @@
 ```ここに言語を入力
+File "TrainNB2.py", line 27, in <module>
+    tokens = juman.analysis(s) #文sを形態素解析してトークンを得る
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/juman.py", line 91, in analysis
+    return self.juman(input_str, juman_format)
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/juman.py", line 78, in juman
+    result = MList(self.juman_lines(input_str), juman_format)
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/mlist.py", line 29, in __init__
+    mrph = Morpheme(line, mid, juman_format)
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/morpheme.py", line 80, in __init__
+    self._parse_spec(spec.strip("\n"))
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/morpheme.py", line 143, in _parse_spec
+    self.hinsi_id = int(parts[4])
+ValueError: invalid literal for int() with base 10: '特殊'
+```
+と文章の途中の文字でエラーとなる。
+これは[リンク内容](https://ensekitt.hatenablog.com/entry/juman)こちらのサイトを参考にして
+```python
+cs = s.replace(' ', '　')
+```
+を加えることで解決した
+```ここに言語を入力
 5735it [02:05, 51.24it/s]Traceback (most recent call last):
   File "TrainNB2.py", line 27, in <module>
@@ -46,21 +94,9 @@
 IndexError: list index out of range
-```と文章の途中の文字でエラーとなる。
-これは[リンク内容](https://ensekitt.hatenablog.com/entry/juman)こちらのサイトを参考にして
-```python
-cs = s.replace(' ', '　')
-```
+```
-を加えることで解決したが、次はIndexError: list index out of rangeとエラーが生じてしまった。
+次はIndexError: list index out of rangeとエラーが生じてしまった。
 上記の状態では5735までしか読み込みません（全て読み込むと5819となります。）

文章の修正

2020/01/01 17:08

投稿

Nomi515

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -112,9 +112,9 @@
 if __name__ == "__main__":
-    nc = Counter() #各カテゴリの記事数カウント
+    nc = Counter()
-    nwc = defaultdict(lambda: Counter()) #各単語における各カテゴリの記事数カウント
+    nwc = defaultdict(lambda: Counter())
     global_wordset = set()
@@ -124,31 +124,31 @@
         json_obj = json.loads(line)
-        wordset = set() #記事1つに出現する単語セット
+        wordset = set()
-        nc[json_obj['category']] += 1 #カテゴリのカウント
+        nc[json_obj['category']] += 1
-        #記事に含まれる単語を取得していく
         for s in json_obj['text']:
             cs = s.replace(' ', '　')
-            tokens = juman.analysis(cs) #文sを形態素解析してトークンを得る
+            tokens = juman.analysis(cs)
-            base_forms = [tk for tk in tokens] #トークンから基本形を得る
+            base_forms = [tk for tk in tokens] る
-            wordset.update(base_forms) #基本形を与えて単語セットを更新する
+            wordset.update(base_forms)
-        #記事にどんな単語が出現したかわかったので、該当する単語のカウントをする
         for word in wordset:
             nwc[json_obj['category']][word] += 1
-        #訓練データ全体の単語セットも更新しておく
         global_wordset.update(wordset)

質問内容の補足

2020/01/01 16:59

投稿

Nomi515

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -83,3 +83,105 @@
 どのように解決すれば宜しいでしょうか？
+```python
+import json
+import fileinput
+from tqdm import tqdm
+from janome.tokenizer import Tokenizer
+from collections import Counter, defaultdict
+from pyknp import Juman
+t = Tokenizer()
+juman = Juman(jumanpp=False)
+if __name__ == "__main__":
+    nc = Counter() #各カテゴリの記事数カウント
+    nwc = defaultdict(lambda: Counter()) #各単語における各カテゴリの記事数カウント
+    global_wordset = set()
+    for line in tqdm(fileinput.input('-')):
+        json_obj = json.loads(line)
+        wordset = set() #記事1つに出現する単語セット
+        nc[json_obj['category']] += 1 #カテゴリのカウント
+        #記事に含まれる単語を取得していく
+        for s in json_obj['text']:
+            cs = s.replace(' ', '　')
+            tokens = juman.analysis(cs) #文sを形態素解析してトークンを得る
+            base_forms = [tk for tk in tokens] #トークンから基本形を得る
+            wordset.update(base_forms) #基本形を与えて単語セットを更新する
+        #記事にどんな単語が出現したかわかったので、該当する単語のカウントをする
+        for word in wordset:
+            nwc[json_obj['category']][word] += 1
+        #訓練データ全体の単語セットも更新しておく
+        global_wordset.update(wordset)
+    categories = list(nwc.keys()) #カテゴリリスト
+    print('単語\t{0}'.format('\t'.join(categories)))
+    print('__all__\t{0}'.format('\t'.join([str(nc[c]) for c in categories])))
+    for word in global_wordset:
+        if word == '\t':
+            word = '[tab]'
+            for c in categories:
+                nwc[c][word] = nwc[c]['\t']
+        print('{0}\t{1}'.format(
+            word,
+            '\t'.join([str(nwc[c][word]) for c in categories])
+        ))
+```
+全文です

文章の修正

2020/01/01 16:49

投稿

Nomi515

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -26,9 +26,11 @@
 ```ここに言語を入力
-File "TrainNB2.py", line 27, in <module>
+5735it [02:05, 51.24it/s]Traceback (most recent call last):
+  File "TrainNB2.py", line 27, in <module>
-    tokens = juman.analysis(cs)
+    tokens = juman.analysis(cs) #文sを形態素解析してトークンを得る
   File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/juman.py", line 91, in analysis

文章の修正

2020/01/01 16:47

投稿

Nomi515

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -24,7 +24,27 @@
+```ここに言語を入力
-ValueError: invalid literal for int() with base 10: '特殊'　と文章の途中の文字でエラーとなる。
+File "TrainNB2.py", line 27, in <module>
+    tokens = juman.analysis(cs)
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/juman.py", line 91, in analysis
+    return self.juman(input_str, juman_format)
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/juman.py", line 78, in juman
+    result = MList(self.juman_lines(input_str), juman_format)
+  File "/home/nomi/.local/lib/python3.6/site-packages/pyknp/juman/mlist.py", line 26, in __init__
+    self._mrph[-1].push_doukei(Morpheme(line[2:], mid, juman_format))
+IndexError: list index out of range
+```と文章の途中の文字でエラーとなる。
 これは[リンク内容](https://ensekitt.hatenablog.com/entry/juman)こちらのサイトを参考にして

文章の修正

2020/01/01 16:41

投稿

Nomi515

スコア8

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -4,17 +4,13 @@
 ```python
-            for s in json_obj['text']:
+          for s in json_obj['text']:
             tokens = juman.analysis(cs)
             base_forms = [tk for tk in tokens]
             wordset.update(base_forms)
 ```
@@ -30,7 +26,7 @@
 ValueError: invalid literal for int() with base 10: '特殊'　と文章の途中の文字でエラーとなる。
-これはhttps://ensekitt.hatenablog.com/entry/jumanこちらのサイトを参考にして
+これは[リンク内容](https://ensekitt.hatenablog.com/entry/juman)こちらのサイトを参考にして
@@ -48,4 +44,20 @@
+```python
+ for s in json_obj['text']:
+            cs = s.replace(' ', '　')
+            tokens = juman.analysis(cs)
+            base_forms = [tk for tk in tokens]
+            wordset.update(base_forms)
+```
 どのように解決すれば宜しいでしょうか？