質問編集履歴
3
再加筆
test
CHANGED
File without changes
|
test
CHANGED
@@ -295,3 +295,73 @@
|
|
295
295
|
SyntaxError: 'continue' not properly in loop
|
296
296
|
|
297
297
|
```
|
298
|
+
|
299
|
+
|
300
|
+
|
301
|
+
###再追記
|
302
|
+
|
303
|
+
以下のコードに書き換えたところ、
|
304
|
+
|
305
|
+
出力が全て”EOS”になってしまいました。。
|
306
|
+
|
307
|
+
|
308
|
+
|
309
|
+
```Python
|
310
|
+
|
311
|
+
import MeCab
|
312
|
+
|
313
|
+
import re
|
314
|
+
|
315
|
+
tagger = MeCab.Tagger()
|
316
|
+
|
317
|
+
|
318
|
+
|
319
|
+
|
320
|
+
|
321
|
+
def mec(text):
|
322
|
+
|
323
|
+
parse = tagger.parse('')
|
324
|
+
|
325
|
+
lines = parse.split('\n')
|
326
|
+
|
327
|
+
words = []
|
328
|
+
|
329
|
+
for line in lines:
|
330
|
+
|
331
|
+
items = re.split('[\t,]',line)
|
332
|
+
|
333
|
+
if len(items) >= 2 and items[1] == '助詞':
|
334
|
+
|
335
|
+
continue
|
336
|
+
|
337
|
+
words.append(items[0])
|
338
|
+
|
339
|
+
return ' '.join(words)
|
340
|
+
|
341
|
+
|
342
|
+
|
343
|
+
df['words'] = df['VOICE'].apply(mec)
|
344
|
+
|
345
|
+
df.head()
|
346
|
+
|
347
|
+
|
348
|
+
|
349
|
+
###出力
|
350
|
+
|
351
|
+
VOICE words
|
352
|
+
|
353
|
+
0 字が綺麗になりたいから EOS
|
354
|
+
|
355
|
+
1 始めたきっかけは親の影響です。 EOS
|
356
|
+
|
357
|
+
2 字がきれいになりたいから EOS
|
358
|
+
|
359
|
+
3 字が綺麗な友人に憧れて。 EOS
|
360
|
+
|
361
|
+
4 文字を綺麗に書きたいと思ったので習い始めました。 EOS
|
362
|
+
|
363
|
+
```
|
364
|
+
|
365
|
+
|
366
|
+
|
367
|
+
EOSがどこから出てきたのか分からず。。
|
2
追加のトライを追記しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -235,3 +235,63 @@
|
|
235
235
|
ご協力頂けますと大変助かります。
|
236
236
|
|
237
237
|
何卒宜しくお願い致します。
|
238
|
+
|
239
|
+
|
240
|
+
|
241
|
+
###追記
|
242
|
+
|
243
|
+
**やりたいことは一行一行の文字列から助詞を抜きたいことです。**
|
244
|
+
|
245
|
+
parseが文字列しか渡せないということで、関数を作ればいいのではと思い、
|
246
|
+
|
247
|
+
下記のようなコードを作ろうとしたのですが、
|
248
|
+
|
249
|
+
上手くいきませんでした。。
|
250
|
+
|
251
|
+
|
252
|
+
|
253
|
+
```Python
|
254
|
+
|
255
|
+
import MeCab
|
256
|
+
|
257
|
+
import re
|
258
|
+
|
259
|
+
def mec(text):
|
260
|
+
|
261
|
+
tagger = MeCab.Tagger()
|
262
|
+
|
263
|
+
parse = tagger.parse('')
|
264
|
+
|
265
|
+
word_class = []
|
266
|
+
|
267
|
+
for line in lines:
|
268
|
+
|
269
|
+
items = re.split('[\t,]',line)
|
270
|
+
|
271
|
+
if len(items) >= 2 and items[1] == '助詞':
|
272
|
+
|
273
|
+
continue
|
274
|
+
|
275
|
+
words.append(items[0])
|
276
|
+
|
277
|
+
|
278
|
+
|
279
|
+
df['words'] = df['VOICE'].apply(mec)
|
280
|
+
|
281
|
+
df.head()
|
282
|
+
|
283
|
+
```
|
284
|
+
|
285
|
+
エラーメッセージ
|
286
|
+
|
287
|
+
```
|
288
|
+
|
289
|
+
File "<ipython-input-13-a3ff3e372fa2>", line 10
|
290
|
+
|
291
|
+
continue
|
292
|
+
|
293
|
+
^
|
294
|
+
|
295
|
+
SyntaxError: 'continue' not properly in loop
|
296
|
+
|
297
|
+
```
|
1
追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -76,7 +76,7 @@
|
|
76
76
|
|
77
77
|
|
78
78
|
|
79
|
-
***
|
79
|
+
***→これの助詞を消したい。
|
80
80
|
|
81
81
|
VOICE
|
82
82
|
|