質問編集履歴
1
自己解決のアプローチを追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -52,4 +52,18 @@
|
|
52
52
|
のクォートの閉じ忘れが原因です。例を示します。
|
53
53
|
>>> 'HeUowor1d1
|
54
54
|
Sv~ntaxE「「o「: EOLwhilescanningstrin91tteral
|
55
|
-
```
|
55
|
+
```
|
56
|
+
|
57
|
+
---
|
58
|
+
### 追記
|
59
|
+
テキストを取り出したい理由は,合成音声に読ませて,学習の助けになるかなぁ,と思ったからです.
|
60
|
+
本も見ながら音声を聞くので,精度は粗くても良いです.
|
61
|
+
|
62
|
+
個人的に思いついたアプローチは,
|
63
|
+
「各行について,ひらがなが5文字以下なら削除」です.
|
64
|
+
```
|
65
|
+
さい。
|
66
|
+
```
|
67
|
+
みたいな部分は削除されても構いません.
|
68
|
+
|
69
|
+
このアプローチで問題がありそうならコメントください.
|