質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

213閲覧

複数の要素からそれぞれひっぱって、100万のランダムサンプリングをしたい

MOSMOS2

総合スコア20

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/09/17 03:31

編集2018/09/17 03:37

以前にも同じような質問をしたのですが、計算時間がものすごくかかりそうで、事実上難しいので、再度、同様のご相談させていただければ幸いです。

下記のようなvariablesに格納された50個の変数があります。
これは元のcsvファイルから取ってきた関係もあり、このように格納しています。

variables =
{'variable1': [0.0, 25.0, 50.0, 75.0],
'variable2': [0.0],
'variable3': [0.0, 30.0, 90.0, 60.0],
'variable4': [0.0, 150.0, 235.0],
'variable5': [50.0, 100.0, 200.0, 400.0, 600.0]
...
'variable50': [0.0, 15.0, 30.0]}

ここから、各要素を①つずつ"ランダムに"選択して、100万個サンプルを発生させたいと考えています。
[例]
[25, 0, 30, 235, 100, ..., 15]

しかし、下記の制約条件があります。
①variable1と3の和は120以下
②全ての50個の要素の和を 980 〜 1020 の幅でおさめる

ということで、初めは下記のような流れを想定しました。

number_of_samples = 1000000

v = []
for i in range(len(v)):
v.append(variables['variable'+str(i+1)])

res = sample([p for p in product(v0, v1, v2, v3, v4,,,,v50) if p[1]+p[3]<=120 and "全ての和が980 ~ 120" ], number_of_samples)

最後はcsvファイルに格納

all_samples = pd.DataFrame(res)
all_samples.to_csv('all_samples.csv', header=False, index=False)

というように、絞って発生させようと思ったのですが、計算コスト的に1個ずつ上記の2つの制約条件をチェックしながら積み上げ方式で発生させたい(全部発生させてから(とは言っても天文学的な数字)絞るのでは難しい)と考えております。
(また、v0, v1, ... と全て50個書いていくのも、もう少しシンプルにできないかと考えております。)

また、3つ目の制約条件として、③以前発生させたサンプルと重複しているものは除きながら、
と、色々複雑な条件が絡んでいます。

下記のような少し似たようなウェブサイトや
https://code.i-harness.com/ja/q/126f36

itertools.productなどについても調べたりしているのですが、上記の3つを合致したコードがなかなかイメージできずにいます。

初心者的な質問で恐縮ですが、可能な範囲で、3つのうちの1つ2つでも構いませんので、サジェスチョンをいただけると幸いです。

どうぞよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

(また、v0, v1, ... と全て50個書いていくのも、もう少しシンプルにできないかと考えております。)

前の質問の回答でも複数の方から配列を利用するように提示があったと思いますが?
とりあえず配列化出来ていると仮定して流れだけ書いてみました。

元データが格納されている配列をvと仮定します(v[0]~v[49])
ランダムで選んだ値を格納する配列をvrとします(vr[0]~vr[49])

(※未検証)

Python3

1# coding=UTF-8 2import random 3 4# 元データは前回までに出来ていると仮定 5v = [0] * 50 6 7 8# 変数初期化 9max_samples = 1000000 10samples_set = [] 11 12# 100万件作れるまでループ 13while True: 14 15 # 変数毎回初期化 16 # 0で初期化で良いか不明 17 vr = [0] * 50 18 19 # > ①variable1と3の和は120以下 20 while True: 21 # vr[0]とvr[2]が120以下になったら 22 # vr[1]を取得してループを抜ける 23 vr[0] = random.choice(v[0]) 24 vr[2] = random.choice(v[2]) 25 if vr[0] + vr[2] <= 120: 26 vr[1] = random.choice(v[1]) 27 break 28 29 # > ②全ての50個の要素の和を 980 〜 1020 の幅でおさめる 30 # 途中で毎回チェックはしない 31 # 処理が遅いようなら変更する 32 for i in range(3, 50): 33 vr[i] = random.choice(v[i]) 34 35 if sum(vr) >= 980 and sum(vr) <= 1020: 36 str = "" 37 for num in vr: 38 # 重複確認ように全要素を文字列で繋げる 39 # 連続した値で誤認しないように区切り文字を入れる 40 str += str(num)+":" 41 42 # > ③以前発生させたサンプルと重複しているものは除きながら 43 if str not in samples_set: 44 samples_set.append(str) 45 46 # 100万件作れたら終了 47 if len(samples_set) * 50 < max_samples: 48 break 49

投稿2018/09/17 04:57

編集2018/09/17 07:16
opyon

総合スコア1009

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

MOSMOS2

2018/09/17 15:28

ありがとうございます。大いに参考にさせていただき、なんとか回りました。 重複のstrでエラーが出たので(前に使っているせい?)、最後にdataframeから落とす形にしました。(数は少し減りますが。。)
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問