編集履歴

質問編集履歴

書式の変更

2021/01/15 05:52

投稿

sattun516

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -79,4 +79,23 @@
 リスト型からstr型に変換すれば解決できるのでしょうか？
 そして図々しいですが、この後どうすれば[単語, 単語ID, W2Vの分散表現]という配列？を作れるのでしょうか。
-できればコードを書いて教えていただきたいです。
+できればコードを書いて教えていただきたいです。
+### 追記
+```Python
+tokenizer = Tokenizer(wakati=True)
+tokenized_text = tokenizer.tokenize(','.join(map(str,example_text)))
+vocabulary_list = list(set(tokenized_text))
+encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
+encoded_example = encoder.encode(example_text)
+```
+```TypeError                                 Traceback (most recent call last)
+<ipython-input-49-771cfc3993de> in <module>()
+      7 vocabulary_list = list(set(tokenized_text))
+      8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
+----> 9 encoded_example = encoder.encode(example_text)
+TypeError: Expected binary or unicode string,
+got ['その', 'ころ', '、', '東京', '中', 'の', '町', 'という',…]
+```
+書き換えてみるとこうなりました。どうすればいいでしょうか…

書式の変更

2021/01/15 05:52

投稿

sattun516

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -64,7 +64,16 @@
 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
 encoded_example = encoder.encode(example_text)
 ```
+```
+AttributeError                            Traceback (most recent call last)
+<ipython-input-27-ff6fec81ea0d> in <module>()
+      4
+      5 tokenizer = Tokenizer(wakati=True)
+----> 6 tokenized_text = tokenizer.tokenize(example_text)
+      7 vocabulary_list = list(set(tokenized_text))
+      8 encoder = tfds.deprecated.text.TokenTextEncoder(vocabulary_list, tokenizer=tokenizer)
 AttributeError: 'list' object has no attribute 'strip'
+```
 [TensorFlow Datasetsを使ってテキストの分かち書きとID化をする](https://hironsan.hatenablog.com/entry/tokenizing-text-by-tensorflow-datasets)
 こちらのサイト様を参考にしてID化しようとしているのですが、エラーが起きてしまい上手くID化できませんでした。

誤字訂正

2021/01/15 05:02

投稿

sattun516

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -43,10 +43,7 @@
 text2 = [x+seperator for x in text2]  # 文章の最後に。を追加
 print(text2)
 ```
-['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
-このように分かち書きまではできました。
 ```python
 example_text = []
@@ -56,6 +53,10 @@
         example_text.append(token.surface)
 print(example_text)
 ```
+['その', 'ころ', '、', '東京', '中', 'の', '町', 'という', '町', '、', '家', 'という', '家', 'で', 'は', '、', 'ふたり', '以上', 'の', '人', 'が', '顔', 'を', 'あわせ', 'さえ', 'すれ', 'ば', '、', 'まるで', 'お', '天気', 'の', 'あいさつ', 'でも', 'する', 'よう', 'に', '、', '怪人', '二', '十', '面相', 'の', 'うわさ', 'を', 'し', 'て', 'い', '顔', '、', 'ちがっ', 'た', '姿', 'で', '、', '人', 'の', '前', 'に', 'あらわれる', 'の', 'です', '。']
+このように分かち書きまではできました。
 ```python
 tokenizer = Tokenizer(wakati=True)
 tokenized_text = tokenizer.tokenize(example_text)

書式の変更

2021/01/15 05:01

投稿

sattun516

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,4 +1,4 @@
-#　単語埋め込みがしたい
+##　単語埋め込みがしたい
 機械学習のモデル(LSTMなど)にテキストデータを入力したいのでembedding layerを利用したいです。
 データセットは青空文庫の小説を利用しようと思っております。
 環境はGoogle Colaboratoryです。