回答率: 85.29%

質問するログイン新規登録

トップ 7に関する質問 MeCabで作った自然言語データから助詞を消したい

編集履歴

質問編集履歴

3

再加筆

2021/05/14 00:42

投稿

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -146,4 +146,39 @@
     continue
     ^
 SyntaxError: 'continue' not properly in loop
-```
+```
+###再追記
+以下のコードに書き換えたところ、
+出力が全て”EOS”になってしまいました。。
+```Python
+import MeCab
+import re
+tagger = MeCab.Tagger()
+def mec(text):
+    parse = tagger.parse('')
+    lines = parse.split('\n')
+    words = []
+    for line in lines:
+        items = re.split('[\t,]',line)
+        if len(items) >= 2 and items[1] == '助詞':
+            continue
+        words.append(items[0])
+    return ' '.join(words)
+df['words'] = df['VOICE'].apply(mec)
+df.head()
+###出力
+VOICE	words
+0	字が綺麗になりたいから	EOS
+1	始めたきっかけは親の影響です。	EOS
+2	字がきれいになりたいから	EOS
+3	字が綺麗な友人に憧れて。	EOS
+4	文字を綺麗に書きたいと思ったので習い始めました。	EOS
+```
+EOSがどこから出てきたのか分からず。。

7 317 619 778 1625

2

追加のトライを追記しました。

2021/05/14 00:42

投稿

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -116,4 +116,34 @@
 参考ページ：https://teratail.com/questions/171703
 ご協力頂けますと大変助かります。
-何卒宜しくお願い致します。
+何卒宜しくお願い致します。
+###追記
+**やりたいことは一行一行の文字列から助詞を抜きたいことです。**
+parseが文字列しか渡せないということで、関数を作ればいいのではと思い、
+下記のようなコードを作ろうとしたのですが、
+上手くいきませんでした。。
+```Python
+import MeCab
+import re
+def mec(text):
+    tagger = MeCab.Tagger()
+    parse = tagger.parse('')
+    word_class = []
+    for line in lines:
+        items = re.split('[\t,]',line)
+    if len(items) >= 2 and items[1] == '助詞':
+        continue
+    words.append(items[0])
+df['words'] = df['VOICE'].apply(mec)
+df.head()
+```
+エラーメッセージ
+```
+  File "<ipython-input-13-a3ff3e372fa2>", line 10
+    continue
+    ^
+SyntaxError: 'continue' not properly in loop
+```

7 317 619 778 1625

1

追記

2021/05/13 09:36

投稿

スコア71

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -37,7 +37,7 @@
 df = pd.read_csv(path, sep=',', encoding='cp932')
 df.head()
-***
+***→これの助詞を消したい。
 VOICE
 0    字が綺麗になりたいから
 1    始めたきっかけは親の影響です。

7 317 619 778 1625