質問編集履歴
4
書式の変更
title
CHANGED
File without changes
|
body
CHANGED
@@ -79,4 +79,23 @@
|
|
79
79
|
|
80
80
|
リスト型からstr型に変換すれば解決できるのでしょうか?
|
81
81
|
そして図々しいですが、この後どうすれば[単語, 単語ID, W2Vの分散表現]という配列?を作れるのでしょうか。
|
82
|
-
できればコードを書いて教えていただきたいです。
|
82
|
+
できればコードを書いて教えていただきたいです。
|
83
|
+
|
84
|
+
### 追記
|
85
|
+
```Python
|
86
|
+
tokenizer = Tokenizer(wakati=True)
|
87
|
+
tokenized_text = tokenizer.tokenize(','.join(map(str,example_text)))
|
88
|
+
vocabulary_list = list(set(tokenized_text))
|
89
|
+
encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
90
|
+
encoded_example = encoder.encode(example_text)
|
91
|
+
```
|
92
|
+
```TypeError Traceback (most recent call last)
|
93
|
+
<ipython-input-49-771cfc3993de> in <module>()
|
94
|
+
7 vocabulary_list = list(set(tokenized_text))
|
95
|
+
8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
96
|
+
----> 9 encoded_example = encoder.encode(example_text)
|
97
|
+
|
98
|
+
TypeError: Expected binary or unicode string,
|
99
|
+
got ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という',…]
|
100
|
+
```
|
101
|
+
書き換えてみるとこうなりました。どうすればいいでしょうか…
|
3
書式の変更
title
CHANGED
File without changes
|
body
CHANGED
@@ -64,7 +64,16 @@
|
|
64
64
|
encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
65
65
|
encoded_example = encoder.encode(example_text)
|
66
66
|
```
|
67
|
+
```
|
68
|
+
AttributeError Traceback (most recent call last)
|
69
|
+
<ipython-input-27-ff6fec81ea0d> in <module>()
|
70
|
+
4
|
71
|
+
5 tokenizer = Tokenizer(wakati=True)
|
72
|
+
----> 6 tokenized_text = tokenizer.tokenize(example_text)
|
73
|
+
7 vocabulary_list = list(set(tokenized_text))
|
74
|
+
8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
|
67
75
|
AttributeError: 'list' object has no attribute 'strip'
|
76
|
+
```
|
68
77
|
[TensorFlow Datasetsを使ってテキストの分かち書きとID化をする](https://hironsan.hatenablog.com/entry/tokenizing-text-by-tensorflow-datasets)
|
69
78
|
こちらのサイト様を参考にしてID化しようとしているのですが、エラーが起きてしまい上手くID化できませんでした。
|
70
79
|
|
2
誤字訂正
title
CHANGED
File without changes
|
body
CHANGED
@@ -43,10 +43,7 @@
|
|
43
43
|
text2 = [x+seperator for x in text2] # 文章の最後に。を追加
|
44
44
|
print(text2)
|
45
45
|
```
|
46
|
-
['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
|
47
46
|
|
48
|
-
このように分かち書きまではできました。
|
49
|
-
|
50
47
|
```python
|
51
48
|
example_text = []
|
52
49
|
|
@@ -56,6 +53,10 @@
|
|
56
53
|
example_text.append(token.surface)
|
57
54
|
print(example_text)
|
58
55
|
```
|
56
|
+
['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
|
57
|
+
|
58
|
+
このように分かち書きまではできました。
|
59
|
+
|
59
60
|
```python
|
60
61
|
tokenizer = Tokenizer(wakati=True)
|
61
62
|
tokenized_text = tokenizer.tokenize(example_text)
|
1
書式の変更
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
# 単語埋め込みがしたい
|
1
|
+
## 単語埋め込みがしたい
|
2
2
|
機械学習のモデル(LSTMなど)にテキストデータを入力したいのでembedding layerを利用したいです。
|
3
3
|
データセットは青空文庫の小説を利用しようと思っております。
|
4
4
|
環境はGoogle Colaboratoryです。
|