(Pyhon)文字列を数値ベクトルに変換する方法

Pythonで文字列を数値ベクトルに変換する方法が分かりません。例えばA → 2, 4, 6, 8, 10というように文字を数値ベクトルに変換したいです。replace関数でA → 2の１次元変換はできましたが、多次元への変換はできませんでした。

（追記）
質問文が分かりづらく大変恐縮です。下記のようにGやA（アルファベット大文字）を[2,4,6,8,10]などの5次元の数値ベクトルに変換したいのですが、replaceではエラーが出てしましました。上手く変換できればデータセットの[G,G,G,G]が5×4の数値行列、もしくは１次元にして1×20の行列になるイメージです

dataset = pd.read_csv('X.csv', index_col=0, header=0)
print(dataset)

###
   1  2  3  4
1  G  G  G  G
2  G  G  A  A


dataset.replace = dataset.replace('G',2).replace('A', 3)
df = pd.DataFrame(dataset.replace)
print(df)

###
   1  2  3  4
1  2  2  2  2
2  2  2  3  3


dataset.replace = dataset.replace('G',2,4,6,8,10).replace('A', 3.2, 5.5, 7.6, 9.7, 11.1)
df = pd.DataFrame(dataset.replace)
print(df)

# NameError: name 'pd' is not definedここに言語を入力
コード

退会済みユーザー

2022/05/15 01:37 編集

どのような根拠に基づいて数値ベクトルに置換したいのでしょうか？・あらかじめ仕込まれた一対一でペアになるようなベクトルで置換したい・ word2vecのように意味の埋め込みembeddingしながら位置関係に類似性を持たせてベクトルに置換したいどちらも多次元でのベクトル化が可能ですがまったく難易度が違ってきます。

oserotto

2022/05/15 01:40

どちらかというと前者ではないかと思います。文字列を数値ベクトルに変換した後、回帰分析をしたいです。説明変数が文字なのでそれを予め数値に変換するイメージです

meg_

2022/05/15 01:56

数値ではなくベクトルでないと駄目なんでしょうか？（回帰分析なら数値で良さそうな気がしますが）

oserotto

2022/05/15 02:03

ひとつの文字に対応する数値が１次元ではなく、多次元になっているためベクトルでないと難しいように思います

oserotto

2022/05/15 02:11

申し訳ございません、私の表現が分かりづらかったかもしれませんが、まずはA → 2, 4, 6, 8, 10というように１文字に対して5次元の値が対応するように変換できれば大丈夫です

TakaiY

2022/05/15 02:40

質問の内容にかかわる回答はここではなく、質問を編集して追加してください。見に来たときにわかりやすいです。 A → 2, 4, 6, 8, 10 というのはどういう根拠ですか？aは何になりますか。Bは何になりますか。

melian

2022/05/15 02:47 編集

例えばこんな感じですか？ >>> ([*('A'.encode())] + [0]*5)[:5] [65, 0, 0, 0, 0] >>> ([*('あ'.encode())] + [0]*5)[:5] [227, 129, 130, 0, 0]

kazuma-s

2022/05/15 02:47

> replace関数でA → 2の１次元変換はできましたがそのプログラムを質問に追記してください。

meg_

2022/05/15 02:49

「数値ベクトル」というのはPythonでいうと「(Numpy)配列」に当たるのでしょうか？であれば配列データを一つの特徴量として多変量解析したい、というのがやりたい事なのでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

python
1import pandas as pd
2import numpy as np
3import io
4
5csv_data = '''
6,1,2,3,4
71,G,G,G,G
82,G,G,A,A
9'''
10dataset = pd.read_csv(io.StringIO(csv_data), index_col=0)
11
12df = dataset.apply(lambda x:
13  pd.Series(x.map({
14    'G': [2, 4, 6, 8, 10],
15    'A': [3.2, 5.5, 7.6, 9.7, 11.1],
16  }).sum()), axis=1)
17
18df.to_csv('data.csv')

data.csv

csv
1,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
21,2.0,4.0,6.0,8.0,10.0,2.0,4.0,6.0,8.0,10.0,2.0,4.0,6.0,8.0,10.0,2.0,4.0,6.0,8.0,10.0
32,2.0,4.0,6.0,8.0,10.0,2.0,4.0,6.0,8.0,10.0,3.2,5.5,7.6,9.7,11.1,3.2,5.5,7.6,9.7,11.1