推薦システムで用いるデータセットを形成しようとしているのですが
うまくいきません
データの形として
user, place, text
このような形のデータになっています
データ数としては全部で73000ほどあります(user,palace,textが一行として、73000行)
そこで、userやplaceで同じものが少ないと、それがネックになって
結果に悪影響を及ぼします
どのようなデータセットにしたいかというと
同一user数が5以上(条件Ⅰ)で、かつ同一place数が5以上(条件Ⅱ)で、
かつ同一ユーザが同一placeに4回以上訪問しているパターンを除外(条件Ⅲ)して、
かつ合計データ数を1000程度(条件Ⅳ)で取り出したいです
自分が考えた範囲だと、条件Ⅰ,Ⅱ,Ⅲを満たしてもⅣが満たせない
(全体のuser,placeをカウントして,5以上を取り出す
→1000以上になってしまう)
条件Ⅰ,Ⅱ,Ⅳを満たしてもⅢが満たせない
(全体のuser,placeをカウントして,5以上を1000だけ取り出す
→1000だけ取り出すと全体カウントしかできていないので,同一user,placeが異なってしまう)
という風になってしまいます
条件をすべて満たしたうえでデータセットを形成するには
どうしたらいいでしょうか
ヒントでもいいので教えていただけるとありがたいです
あなたの回答
tips
プレビュー