回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ NumPyに関する質問

Q&A

解決済

1回答

995閲覧

xlsxファイルからランダムにサンプルデータを抽出したNumpy配列への格納方法を知りたいです。

総合スコア7

0グッド

0クリップ

投稿2021/05/13 05:13

編集2021/05/13 07:57

0

0

あるcsvファイルデータから下記通りデータを抽出し

df1 = pd.read_excel('data/marketing.xlsx')

data1=df1 [((df1['Country']== 'Germany')&(df1 ['Sex'] == 'Man'))]

data2 =np.asarray(data1)

そしてさらに下記の通りデータを抽出し
select = lambda row: [float(row[7])]
data2 = np.array([select(row) for row in data2])

上から5行目までを表示させると
data2[:5]

下記の通り表示されます。
array([[11.5],
[10.5],
[10.5],
[10. ],
[ 8. ]])

しかし、ここからランダムに392個のデータを抽出したsampleを下記の通り作ろうとすると
np.random.seed(0)
sample=np.random.choice(data2,392,replace=False)

下記のエラーが出てしまいます。
ValueError Traceback (most recent call last)
<ipython-input-3-4cb5c0416549> in <module>
1 np.random.seed(0)
----> 2 sample=np.random.choice(data2,392)

mtrand.pyx in numpy.random.mtrand.RandomState.choice()

ValueError: a must be 1-dimensional

エラーが出ない上記sampleへの格納方法を教えて戴けたらと思います。

追記
下記のホームページを参考にしました。
https://www.python.ambitious-engineer.com/archives/2138
元データが初めから一列だとすんなりできるようですが、データを抽出した上で、さらに
それからランダムにサンプル抽出となるとエラーが出て、スムーズにいかないようです。

2021/05/13 06:55

> ValueError: a must be 1-dimensional エラーメッセージの意味が分からない、ということでしょうか？

2021/05/13 07:47

正しいコードを知りたいです。自分で検索してエラーメッセージの意味や対処法を調べましたがピッタリこの件に当てはまるものをみつけることができませんでした。

行動規範の内容に同意します

回答1件

0

ベストアンサー

np.ndarrayに変換せずに、pandas.DataFrameでランダムサンプリングすれば良いのではありませんか。

pandasの行・列をランダムサンプリング（抽出）するsample

投稿2021/05/13 08:20

総合スコア24670

2021/05/13 14:31

有難うございます。どうしても集計の都合上、np.ndarrayに変換したい時は pandasでデータを抽出仕切ってから最後にnp.ndarrayに持っていくという方法を採るといいような気がしました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ NumPyに関する質問

xlsxファイルからランダムにサンプルデータを抽出したNumpy配列への格納方法を知りたいです。