結論から言えば、そりゃお金をかければ早くなるから、本当に高速化させたかったらめちゃくちゃ高スペックな計算機を借りるなり作るなりしてジョブ投げてくださいと言えばおしまいなのですが...汗
私は生粋のKagglerではないですが、前に取り組んでいた知り合いはアルゴリズムを高速化させることよりもうまくフィルタリングなどをして、どうやって良い特徴量を探すかに尽力してました。
私も様々なところで統計・機械学習を用いた解析などをしていますが、結局処理を回す前の工夫で9割決まると思います(特にNLPとかNLPとかNLPとか)。
それなりの期間データ分析をさせて頂いておりますが、結局データ分析はすごいアルゴリズムを作ることも重要ですが、翻訳や対話が重要だと痛感しています。例えば、今まで手動だったものを自動で判別するときに、今まで担当の方がどのように選別していたか(どの情報を重視していたか)、フローはどうなっているのか...で、それなりのアルゴリズムが完成したらそれを実際にリリース設計する時にどうシステムを構築して、リリースできたらどうやって効果検証するかなどなど...。結局、分析って対話だと思うんです。
長文になってご迷惑をお掛けしますが、個人としては前処理などそのほかで工夫できる部分を頑張って欲しいと思いました。確か、Kaggleでの処理時間の制限はテーブルなら2時間も絶対なかったはずなので...多分、分析する際の余計な情報量が多いのではないでしょうか。
余談)
ニューラルネットは使わないと仰ってましたが、私の友人は思いっきりディープ使ってたと思います。あと、私の愛用パソコンはメモリ4GBでHDD256GBの低スペックMacです。ローカルで数十万行のデータを何も考えずkernel Kmeansとかしたら一瞬でメモリが吹き飛びます。質問者さんのMacは十分なスペックだと思います。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2019/07/15 08:27