質問編集履歴

4

書式の変更

2021/01/15 05:52

投稿

sattun516
sattun516

スコア0

test CHANGED
File without changes
test CHANGED
@@ -161,3 +161,41 @@
161
161
  そして図々しいですが、この後どうすれば[単語, 単語ID, W2Vの分散表現]という配列?を作れるのでしょうか。
162
162
 
163
163
  できればコードを書いて教えていただきたいです。
164
+
165
+
166
+
167
+ ### 追記
168
+
169
+ ```Python
170
+
171
+ tokenizer = Tokenizer(wakati=True)
172
+
173
+ tokenized_text = tokenizer.tokenize(','.join(map(str,example_text)))
174
+
175
+ vocabulary_list = list(set(tokenized_text))
176
+
177
+ encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
178
+
179
+ encoded_example = encoder.encode(example_text)
180
+
181
+ ```
182
+
183
+ ```TypeError Traceback (most recent call last)
184
+
185
+ <ipython-input-49-771cfc3993de> in <module>()
186
+
187
+ 7 vocabulary_list = list(set(tokenized_text))
188
+
189
+ 8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
190
+
191
+ ----> 9 encoded_example = encoder.encode(example_text)
192
+
193
+
194
+
195
+ TypeError: Expected binary or unicode string,
196
+
197
+ got ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という',…]
198
+
199
+ ```
200
+
201
+ 書き換えてみるとこうなりました。どうすればいいでしょうか…

3

書式の変更

2021/01/15 05:52

投稿

sattun516
sattun516

スコア0

test CHANGED
File without changes
test CHANGED
@@ -130,7 +130,25 @@
130
130
 
131
131
  ```
132
132
 
133
+ ```
134
+
135
+ AttributeError Traceback (most recent call last)
136
+
137
+ <ipython-input-27-ff6fec81ea0d> in <module>()
138
+
139
+ 4
140
+
141
+ 5 tokenizer = Tokenizer(wakati=True)
142
+
143
+ ----> 6 tokenized_text = tokenizer.tokenize(example_text)
144
+
145
+ 7 vocabulary_list = list(set(tokenized_text))
146
+
147
+ 8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
148
+
133
149
  AttributeError: 'list' object has no attribute 'strip'
150
+
151
+ ```
134
152
 
135
153
  [TensorFlow Datasetsを使ってテキストの分かち書きとID化をする](https://hironsan.hatenablog.com/entry/tokenizing-text-by-tensorflow-datasets)
136
154
 

2

誤字訂正

2021/01/15 05:02

投稿

sattun516
sattun516

スコア0

test CHANGED
File without changes
test CHANGED
@@ -88,12 +88,6 @@
88
88
 
89
89
  ```
90
90
 
91
- ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
92
-
93
-
94
-
95
- このように分かち書きまではできました。
96
-
97
91
 
98
92
 
99
93
  ```python
@@ -113,6 +107,14 @@
113
107
  print(example_text)
114
108
 
115
109
  ```
110
+
111
+ ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
112
+
113
+
114
+
115
+ このように分かち書きまではできました。
116
+
117
+
116
118
 
117
119
  ```python
118
120
 

1

書式の変更

2021/01/15 05:01

投稿

sattun516
sattun516

スコア0

test CHANGED
File without changes
test CHANGED
@@ -1,4 +1,4 @@
1
- # 単語埋め込みがしたい
1
+ ## 単語埋め込みがしたい
2
2
 
3
3
  機械学習のモデル(LSTMなど)にテキストデータを入力したいのでembedding layerを利用したいです。
4
4