teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

4

書式の変更

2021/01/15 05:52

投稿

sattun516
sattun516

スコア0

title CHANGED
File without changes
body CHANGED
@@ -79,4 +79,23 @@
79
79
 
80
80
  リスト型からstr型に変換すれば解決できるのでしょうか?
81
81
  そして図々しいですが、この後どうすれば[単語, 単語ID, W2Vの分散表現]という配列?を作れるのでしょうか。
82
- できればコードを書いて教えていただきたいです。
82
+ できればコードを書いて教えていただきたいです。
83
+
84
+ ### 追記
85
+ ```Python
86
+ tokenizer = Tokenizer(wakati=True)
87
+ tokenized_text = tokenizer.tokenize(','.join(map(str,example_text)))
88
+ vocabulary_list = list(set(tokenized_text))
89
+ encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
90
+ encoded_example = encoder.encode(example_text)
91
+ ```
92
+ ```TypeError Traceback (most recent call last)
93
+ <ipython-input-49-771cfc3993de> in <module>()
94
+ 7 vocabulary_list = list(set(tokenized_text))
95
+ 8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
96
+ ----> 9 encoded_example = encoder.encode(example_text)
97
+
98
+ TypeError: Expected binary or unicode string,
99
+ got ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という',…]
100
+ ```
101
+ 書き換えてみるとこうなりました。どうすればいいでしょうか…

3

書式の変更

2021/01/15 05:52

投稿

sattun516
sattun516

スコア0

title CHANGED
File without changes
body CHANGED
@@ -64,7 +64,16 @@
64
64
  encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
65
65
  encoded_example = encoder.encode(example_text)
66
66
  ```
67
+ ```
68
+ AttributeError Traceback (most recent call last)
69
+ <ipython-input-27-ff6fec81ea0d> in <module>()
70
+ 4
71
+ 5 tokenizer = Tokenizer(wakati=True)
72
+ ----> 6 tokenized_text = tokenizer.tokenize(example_text)
73
+ 7 vocabulary_list = list(set(tokenized_text))
74
+ 8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
67
75
  AttributeError: 'list' object has no attribute 'strip'
76
+ ```
68
77
  [TensorFlow Datasetsを使ってテキストの分かち書きとID化をする](https://hironsan.hatenablog.com/entry/tokenizing-text-by-tensorflow-datasets)
69
78
  こちらのサイト様を参考にしてID化しようとしているのですが、エラーが起きてしまい上手くID化できませんでした。
70
79
 

2

誤字訂正

2021/01/15 05:02

投稿

sattun516
sattun516

スコア0

title CHANGED
File without changes
body CHANGED
@@ -43,10 +43,7 @@
43
43
  text2 = [x+seperator for x in text2] # 文章の最後に。を追加
44
44
  print(text2)
45
45
  ```
46
- ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
47
46
 
48
- このように分かち書きまではできました。
49
-
50
47
  ```python
51
48
  example_text = []
52
49
 
@@ -56,6 +53,10 @@
56
53
  example_text.append(token.surface)
57
54
  print(example_text)
58
55
  ```
56
+ ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
57
+
58
+ このように分かち書きまではできました。
59
+
59
60
  ```python
60
61
  tokenizer = Tokenizer(wakati=True)
61
62
  tokenized_text = tokenizer.tokenize(example_text)

1

書式の変更

2021/01/15 05:01

投稿

sattun516
sattun516

スコア0

title CHANGED
File without changes
body CHANGED
@@ -1,4 +1,4 @@
1
- # 単語埋め込みがしたい
1
+ ## 単語埋め込みがしたい
2
2
  機械学習のモデル(LSTMなど)にテキストデータを入力したいのでembedding layerを利用したいです。
3
3
  データセットは青空文庫の小説を利用しようと思っております。
4
4
  環境はGoogle Colaboratoryです。