Pythonでの配列の圧縮

◆目的
１次元の配列を特定数インデックスに圧縮したい
用途としては機械学習にてテキストをベクトル化し、機械学習のモデルデータとしての利用

◆例
以下のようなベクトルが有った場合、この値を２つに圧縮したい

Arr=[1,-0.5,1,0.4,0.5,0.2,-0.64,-0.1.2]

↓
Arr=[-0.1,0.3]

方法が有りましたらご教授願います

行動規範の内容に同意します

回答1件

「次元削減」で検索すると色々出てきます。情報をできるだけ保ったままベクトルの次元を下げる方法はいろいろあります（代表的なものとして、たとえば主成分分析などがあります）。

やりたいことがあまりよく理解できないので、これが適切な回答なのかどうかはわかりませんが・・・

投稿2018/11/20 11:15

hayataka2049

総合スコア30933

HiruLow

2018/11/20 12:27

回答ありがとうございます具体的には、word2vecに登録されているモデルデータのベクトルを機械学習の学習データとして使いたいと思っております。ただ、現時点ではモデルに格納されているベクトルが300次元の配列な為ちょっと大きすぎるので圧縮したいと考えています。 pca等も考慮しましたが、pcaでは複数の同次元数配列をfit_transformに渡す必要が有り、word2vecにより取得されたShape(300,1)の配列では圧縮が不可能な為困っております。

hayataka2049

2018/11/20 12:31

300次元ならそこまで大きくもない気がしますが、どんな重たいモデルを使うつもりですか？　また、word2vecのベクトルはどちらかといえばうまく次元削減しづらい印象があります（むしろモデル作成の段階で小さい次元として学習させるべき。既存のモデルを使うなら仕方ありませんが）。機械学習の学習データにするのなら通常は複数のデータからなるデータセット(shape=(n_samples, 300)かな)を渡して学習させると思うので、うまくいくかは別としてPCAで取り扱えると思います。

HiruLow

2018/11/20 12:40

別で学習用のデータを他にも４次元程用意しており、これら配列と300次元の配列データを一緒に学習させた場合どうも結果が良く無かったとゆう結果になっています。（学習時には、各データを0~1の値にし隠れ層で一緒に重み付けを行っています）ただhayataka2049さんの言うように得に問題ないとの事なので、AI側のモデル構造を見直した方がいいのでしょうか・・一緒に学習させるべきではなくモデルを分離し後半でマージする等を考えているのですが

hayataka2049

2018/11/20 12:50

ごめんなさい、全体像が見えないので理解できていません。機械学習を使ってどんなことをするのが目的で、何が特徴量で、何がターゲット（目的変数）で、どんなモデルを使って学習させるのかを順番に書いてください。

HiruLow

2018/11/20 13:00

すいません記述が足りませんでした機能としましては、テキストを学習値として、クラス分類を行う機能を作りたいと考えています。目的としては Target=["other","money","days"] 等のいくつかのクラス項目を自動識別するものとし Data=["こんにちわ","100$","二十円","二十年四月","月とすっぽん"] 等のデータを学習用データとして使うものになります。

hayataka2049

2018/11/20 13:04 編集

クラス項目を自動識別する、って単純な教師あり学習ではない気がするのですが、一体どんな処理ですか？また、 Data=["こんにちわ","100$","二十円","二十年四月","月とすっぽん"] はこれ1つで1つの文書（テキスト）を表現するということでしょうか？　それとも、リストの要素それぞれが1テキストでしょうか？ word2vecはどうやって使うのですか？

行動規範の内容に同意します