トップ Python 3.xに関する質問特徴ベクトル化の過程のアルゴリズムがわかりません

編集履歴

回答編集履歴

2022/04/13 13:00

投稿

スコア0

test CHANGED Viewed

@@ -24,7 +24,7 @@
 実は2つ目（bow）は、1つ目の token の、３つの文章における出現回数を表しています。
 整理すると下記のような表になります。
-vocabulary（辞書）:
 |token(キー)|私|は|の|こと|が|好き|な|あなた|です|ラーメン|富士山|日本一|高い|山|
 |:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
 |インデックス(値)|0|1|2|3|4|5|6|7|8|9|10|11|12|13|

2022/04/13 13:00

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -24,9 +24,10 @@
 実は2つ目（bow）は、1つ目の token の、３つの文章における出現回数を表しています。
 整理すると下記のような表になります。
+vocabulary（辞書）:
-|token|私|は|の|こと|が|好き|な|あなた|です|ラーメン|富士山|日本一|高い|山|
+|token(キー)|私|は|の|こと|が|好き|な|あなた|です|ラーメン|富士山|日本一|高い|山|
 |:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
-|インデックス|0|1|2|3|4|5|6|7|8|9|10|11|12|13|
+|インデックス(値)|0|1|2|3|4|5|6|7|8|9|10|11|12|13|
 |文章１|2|1|1|1|2|2|1|1|1|0|0|0|0|0|
 |文章２|1|1|0|0|1|1|0|0|1|1|0|0|0|0|
 |文章３|0|1|0|0|0|0|0|0|1|0|1|1|1|1|
@@ -54,10 +55,10 @@
             if token not in vocabulary:
                 vocabulary[token] = len(vocabulary)＃(1)
 ```
-見てお分かりの通り、vocabulary＝token（形態素）をキーとする辞書として作成しています。
+見てお分かりの通り、token（形態素）をキーとする辞書として vocabulary を作成しています。
-新しいtokenが見つかる度、その時点のvocablaryの長さを、tokenの値として設定しています。
+新しい token が見つかる度、その時点の vocablary の長さを、token の値として設定しています。
-キーが追加されるたび、辞書vocablaryの長さは１ずつ増えていきます。
+キーが追加されるたび、辞書 vocablary の長さは１ずつ増えていきます。
 つまりこの部分は、**tokenに一意のindexを付番している**ということです。
@@ -111,4 +112,4 @@
 |[1]|1|1|0|0|1|1|0|0|1|1|0|0|0|0|
 |[2]|0|1|0|0|0|0|0|0|1|0|1|1|1|1|
-※インデックスとtokenの関係は、辞書vocabularyによって保持される。
+※インデックスとtokenの関係は、辞書vocabularyによって保持されています。

2022/04/12 22:17

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -87,7 +87,7 @@
 これにより、14列×3行の2次元配列が作られます。(冒頭の[0]は初期化する値ですので、中身がゼロで初期化された2次元配列になっています）
 作成直後のbow（初期化された2次元配列）：
-|インデックス|[0]|[1]|[2]|[3]|[4]|[5]|[6]|[7]|[8]|[9]|[10]|[11]|[12]|[13]|
+|インデックス|0|1|2|3|4|5|6|7|8|9|10|11|12|13|
 |:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
 |[0]|0|0|0|0|0|0|0|0|0|0|0|0|0|0|
 |[1]|0|0|0|0|0|0|0|0|0|0|0|0|0|0|
@@ -105,7 +105,7 @@
 処理後のbow：
-|インデックス|[0]|[1]|[2]|[3]|[4]|[5]|[6]|[7]|[8]|[9]|[10]|[11]|[12]|[13]|
+|インデックス|0|1|2|3|4|5|6|7|8|9|10|11|12|13|
 |:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
 |[0]|2|1|1|1|2|2|1|1|1|0|0|0|0|0|
 |[1]|1|1|0|0|1|1|0|0|1|1|0|0|0|0|

2022/04/12 22:16

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -29,13 +29,13 @@
 |インデックス|0|1|2|3|4|5|6|7|8|9|10|11|12|13|
 |文章１|2|1|1|1|2|2|1|1|1|0|0|0|0|0|
 |文章２|1|1|0|0|1|1|0|0|1|1|0|0|0|0|
-|文章３|0|1|0|0|0|0|0|0|1|0|1|1|1|1
+|文章３|0|1|0|0|0|0|0|0|1|0|1|1|1|1|
 ・2行目は、各 token に対して、（数字がかぶらないように）割り振った一意のID番号のようなものです。
 ・3行目以降は、各文章における各 token の出現回数を表しています。
 ---
-質問文のコードは、言ってしまえば結局上の表を作る処理に過ぎません。
+質問文のコードは、言ってしまえば結局上のような表を作る処理に過ぎません。
 ではなぜこのように整理するか＝長期的な目的はなにかというと、
 ・各文章を特徴づけている単語を抽出し、文書の類似度を比較可能にする
@@ -84,8 +84,16 @@
 これによって
 bow = [[0] * 14 for i in range(3)]
 となります。
-これにより、14列×3行の2次元配列が作らてます。(中身がゼロで初期化された2次元配列になります。冒頭の[0]は初期化する値です）
+これにより、14列×3行の2次元配列が作られます。(冒頭の[0]は初期化する値ですので、中身がゼロで初期化された2次元配列になっています）
+作成直後のbow（初期化された2次元配列）：
+|インデックス|[0]|[1]|[2]|[3]|[4]|[5]|[6]|[7]|[8]|[9]|[10]|[11]|[12]|[13]|
+|:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
+|[0]|0|0|0|0|0|0|0|0|0|0|0|0|0|0|
+|[1]|0|0|0|0|0|0|0|0|0|0|0|0|0|0|
+|[2]|0|0|0|0|0|0|0|0|0|0|0|0|0|0|
 あとは、直後の
 ```
     for i,tokenized_text in enumerate(tokenized_texts):
@@ -95,3 +103,12 @@
 ```
 の部分で、各文章ごとに token の出現回数をカウントし、2次元配列に格納しています。
+処理後のbow：
+|インデックス|[0]|[1]|[2]|[3]|[4]|[5]|[6]|[7]|[8]|[9]|[10]|[11]|[12]|[13]|
+|:---|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
+|[0]|2|1|1|1|2|2|1|1|1|0|0|0|0|0|
+|[1]|1|1|0|0|1|1|0|0|1|1|0|0|0|0|
+|[2]|0|1|0|0|0|0|0|0|1|0|1|1|1|1|
+※インデックスとtokenの関係は、辞書vocabularyによって保持される。

2022/04/12 22:10

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -84,7 +84,7 @@
 これによって
 bow = [[0] * 14 for i in range(3)]
 となります。
-つまり、要素0で初期化された、14列、3行の2次元配列を作っています。
+これにより、14列×3行の2次元配列が作らてます。(中身がゼロで初期化された2次元配列になります。冒頭の[0]は初期化する値です）
 あとは、直後の
 ```
@@ -93,5 +93,5 @@
             index = vocabulary[token]
             bow[i][index] += 1
 ```
-の部分で、各文章ごとに token の出現回数をカウントしています。
+の部分で、各文章ごとに token の出現回数をカウントし、2次元配列に格納しています。

2022/04/12 15:38

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -35,7 +35,7 @@
 ・3行目以降は、各文章における各 token の出現回数を表しています。
 ---
-質問文のコードは、言ってしまえば結局↑の表を作る処理に過ぎません。
+質問文のコードは、言ってしまえば結局上の表を作る処理に過ぎません。
 ではなぜこのように整理するか＝長期的な目的はなにかというと、
 ・各文章を特徴づけている単語を抽出し、文書の類似度を比較可能にする

2022/04/12 15:36

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -35,8 +35,9 @@
 ・3行目以降は、各文章における各 token の出現回数を表しています。
 ---
+質問文のコードは、言ってしまえば結局↑の表を作る処理に過ぎません。
-なぜこのように整理するか＝長期的な目的はなにかというと、
+ではなぜこのように整理するか＝長期的な目的はなにかというと、
 ・各文章を特徴づけている単語を抽出し、文書の類似度を比較可能にする
 といったようなことです。（TF-IDF等を利用）

2022/04/12 15:35

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -62,7 +62,9 @@
 > (2)コード全体の意味がわかりません。また [0] * n_vocabの意味が特に分かりません。
-` [0] * n_vocab`は、2次元配列の初期化処理です。
+#2の部分は、内包表記を使用した、2次元配列の初期化処理です。
+参照：
+https://qiita.com/oyoshi0022/items/7475951f465d20ad4970#%E8%A7%A3%E6%B1%BA%E6%B3%95
 ```
 #単語の出現回数をカウントするためのループ

2022/04/12 15:29

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -38,7 +38,7 @@
 なぜこのように整理するか＝長期的な目的はなにかというと、
 ・各文章を特徴づけている単語を抽出し、文書の類似度を比較可能にする
-といったようなことです。
+といったようなことです。（TF-IDF等を利用）
 この目的のため、**文書の集合／文書／形態素を、一定のルールでもって、計算しやすいように数値化し整理している**、ということです（ベクトル化）

2022/04/12 15:26

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -81,7 +81,7 @@
 これによって
 bow = [[0] * 14 for i in range(3)]
 となります。
-つまり、要素0で初期化された、14列、3行の2次元配列が作っている、ということです。
+つまり、要素0で初期化された、14列、3行の2次元配列を作っています。
 あとは、直後の
 ```
@@ -90,5 +90,5 @@
             index = vocabulary[token]
             bow[i][index] += 1
 ```
-で各文章ごとに token の出現回数を、上記の2次元配列 bowの要素に格納していっています。
+の部分で、各文章ごとに token の出現回数をカウントしています。

2022/04/12 15:23

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

@@ -53,7 +53,7 @@
             if token not in vocabulary:
                 vocabulary[token] = len(vocabulary)＃(1)
 ```
-見てお分かりと通り、vocabulary＝token（形態素）をキーとする辞書として作成しています。
+見てお分かりの通り、vocabulary＝token（形態素）をキーとする辞書として作成しています。
 新しいtokenが見つかる度、その時点のvocablaryの長さを、tokenの値として設定しています。
 キーが追加されるたび、辞書vocablaryの長さは１ずつ増えていきます。