質問編集履歴
4
書式の変更
test
CHANGED
File without changes
|
test
CHANGED
@@ -161,3 +161,41 @@
|
|
161
161
|
そして図々しいですが、この後どうすれば[単語, 単語ID, W2Vの分散表現]という配列?を作れるのでしょうか。
|
162
162
|
|
163
163
|
できればコードを書いて教えていただきたいです。
|
164
|
+
|
165
|
+
|
166
|
+
|
167
|
+
### 追記
|
168
|
+
|
169
|
+
```Python
|
170
|
+
|
171
|
+
tokenizer = Tokenizer(wakati=True)
|
172
|
+
|
173
|
+
tokenized_text = tokenizer.tokenize(','.join(map(str,example_text)))
|
174
|
+
|
175
|
+
vocabulary_list = list(set(tokenized_text))
|
176
|
+
|
177
|
+
encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
178
|
+
|
179
|
+
encoded_example = encoder.encode(example_text)
|
180
|
+
|
181
|
+
```
|
182
|
+
|
183
|
+
```TypeError Traceback (most recent call last)
|
184
|
+
|
185
|
+
<ipython-input-49-771cfc3993de> in <module>()
|
186
|
+
|
187
|
+
7 vocabulary_list = list(set(tokenized_text))
|
188
|
+
|
189
|
+
8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
190
|
+
|
191
|
+
----> 9 encoded_example = encoder.encode(example_text)
|
192
|
+
|
193
|
+
|
194
|
+
|
195
|
+
TypeError: Expected binary or unicode string,
|
196
|
+
|
197
|
+
got ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という',…]
|
198
|
+
|
199
|
+
```
|
200
|
+
|
201
|
+
書き換えてみるとこうなりました。どうすればいいでしょうか…
|
3
書式の変更
test
CHANGED
File without changes
|
test
CHANGED
@@ -130,7 +130,25 @@
|
|
130
130
|
|
131
131
|
```
|
132
132
|
|
133
|
+
```
|
134
|
+
|
135
|
+
AttributeError Traceback (most recent call last)
|
136
|
+
|
137
|
+
<ipython-input-27-ff6fec81ea0d> in <module>()
|
138
|
+
|
139
|
+
4
|
140
|
+
|
141
|
+
5 tokenizer = Tokenizer(wakati=True)
|
142
|
+
|
143
|
+
----> 6 tokenized_text = tokenizer.tokenize(example_text)
|
144
|
+
|
145
|
+
7 vocabulary_list = list(set(tokenized_text))
|
146
|
+
|
147
|
+
8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
148
|
+
|
133
149
|
AttributeError: 'list' object has no attribute 'strip'
|
150
|
+
|
151
|
+
```
|
134
152
|
|
135
153
|
[TensorFlow Datasetsを使ってテキストの分かち書きとID化をする](https://hironsan.hatenablog.com/entry/tokenizing-text-by-tensorflow-datasets)
|
136
154
|
|
2
誤字訂正
test
CHANGED
File without changes
|
test
CHANGED
@@ -88,12 +88,6 @@
|
|
88
88
|
|
89
89
|
```
|
90
90
|
|
91
|
-
['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
|
92
|
-
|
93
|
-
|
94
|
-
|
95
|
-
このように分かち書きまではできました。
|
96
|
-
|
97
91
|
|
98
92
|
|
99
93
|
```python
|
@@ -113,6 +107,14 @@
|
|
113
107
|
print(example_text)
|
114
108
|
|
115
109
|
```
|
110
|
+
|
111
|
+
['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
|
112
|
+
|
113
|
+
|
114
|
+
|
115
|
+
このように分かち書きまではできました。
|
116
|
+
|
117
|
+
|
116
118
|
|
117
119
|
```python
|
118
120
|
|
1
書式の変更
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
# 単語埋め込みがしたい
|
1
|
+
## 単語埋め込みがしたい
|
2
2
|
|
3
3
|
機械学習のモデル(LSTMなど)にテキストデータを入力したいのでembedding layerを利用したいです。
|
4
4
|
|