回答編集履歴

3

 

2023/07/28 15:09

投稿

退会済みユーザー
test CHANGED
@@ -6,7 +6,9 @@
6
6
 
7
7
  —-
8
8
 
9
- 強いて言えば、メートルとヤード、ポンドとグラムが入り混じるような特徴量があったとしたら、普通は単位をそろえた方が良いはずでしょうし、農作物であれば平方メートルと収穫量から面積当たりの収穫量みたいな複合した特徴量を作るみたいなことは大事なような気がします。農産物の例であれば、商品のキロ単価があれば平方メートルあたりの収益率みたいなものも出るかもしれませんし、そのために何日かけただとか色々夢が広がります。
9
+ 強いて言えば、メートルとヤード、ポンドとグラムが入り混じるような特徴量があったとしたら、普通は単位をそろえた方が良いはずでしょうし、農作物であれば平方メートルと収穫量から面積当たりの収穫量みたいな複合した特徴量を作るみたいなことは大事なような気がします。他にも、商品のキロ単価があれば平方メートルあたりの収益率みたいなものも出るかもしれませんし、そのために何日かけただとか色々夢が広がります。
10
+ 「ジェレミー・クラークソン 農家になる」の会計担当者がこういう感性が尖っていたハズです。
11
+
10
12
  もし、対象が通販サイトだとしたら、月間購入額だとか購入頻度だとか、ダンベルと粉末プロテインの購入連動率(?)みたいなことを泥臭くやっていくでしょうか。
11
13
 
12
14
  たぶんですが、どこにももちろんTeratailにも答えがなく、仕事の数だけ特徴量エンジニアリングがある(最悪の場合、そんなものが通用しないランダムに支配されていることすらあるだとか)そういうものな気がします。

2

追補

2023/07/28 15:06

投稿

退会済みユーザー
test CHANGED
@@ -2,8 +2,12 @@
2
2
  > 書いてあることはその通りだと思うのですが、自身が特徴量作成するときに、結局どうするのかという問題に直面しています。
3
3
 
4
4
  結局つまるところ、このかっこ書きの中身に行きつかざるを得ないような気がします。秘伝のたれ的な、「何で?」と言われても「知らん!なるもんはなる」だとか「ドメイン知識を突き詰めるとそうなる」とかそういうところが大きいと思います。
5
+ ※ここの部分については、私のコメントというより、以前お世話になったその手の一流のエンジニアたちとの対話の中で得られた知見です。「そういうもの」「理屈じゃない」「よく分からないが、それで成り立つならそれで正義」のような、感性がものを言う部分のようです。
5
6
 
6
- 強いて言えば、メートルとヤード、ポンドとグラムが入り混じるような特徴量があったとしたら、普通は単位をそろえた方が良いはずでしょうし、農作物であれば平方メートルと収穫量から面積当たりの収穫量みたいな複合した特徴量を作るみたいなことは大事なような気がします。通販サイトだとしたら、月間購入額だとか購入頻度だとか、ダンベルと粉末プロテインの購入連動率(?)みたいなことを泥臭くやっていくでしょうか。
7
+ —-
8
+
9
+ 強いて言えば、メートルとヤード、ポンドとグラムが入り混じるような特徴量があったとしたら、普通は単位をそろえた方が良いはずでしょうし、農作物であれば平方メートルと収穫量から面積当たりの収穫量みたいな複合した特徴量を作るみたいなことは大事なような気がします。農産物の例であれば、商品のキロ単価があれば平方メートルあたりの収益率みたいなものも出るかもしれませんし、そのために何日かけただとか色々夢が広がります。
10
+ もし、対象が通販サイトだとしたら、月間購入額だとか購入頻度だとか、ダンベルと粉末プロテインの購入連動率(?)みたいなことを泥臭くやっていくでしょうか。
7
11
 
8
12
  たぶんですが、どこにももちろんTeratailにも答えがなく、仕事の数だけ特徴量エンジニアリングがある(最悪の場合、そんなものが通用しないランダムに支配されていることすらあるだとか)そういうものな気がします。
9
13
 

1

 

2023/07/27 12:11

投稿

退会済みユーザー
test CHANGED
@@ -1,5 +1,5 @@
1
1
  > 特徴量エンジニアリングについて調査したところ、「今あるデータの特徴量からドメイン知識などを生かして新しくデータの特徴量を作成する作業のことである」と記載してある解説記事が多かったです。
2
- 書いてあることはその通りだと思うのですが、自身が特徴量作成するときに、結局どうするのかという問題に直面しています。
2
+ > 書いてあることはその通りだと思うのですが、自身が特徴量作成するときに、結局どうするのかという問題に直面しています。
3
3
 
4
4
  結局つまるところ、このかっこ書きの中身に行きつかざるを得ないような気がします。秘伝のたれ的な、「何で?」と言われても「知らん!なるもんはなる」だとか「ドメイン知識を突き詰めるとそうなる」とかそういうところが大きいと思います。
5
5