回答編集履歴
4
誤植修正
test
CHANGED
@@ -12,7 +12,7 @@
|
|
12
12
|
|
13
13
|
**2017-11-16 A.M**
|
14
14
|
|
15
|
-
|
15
|
+
以前書き込んだ際は残っていたのに、なぜか消えた95% の部分をうろ覚えで復旧
|
16
16
|
|
17
17
|
|
18
18
|
|
@@ -36,9 +36,11 @@
|
|
36
36
|
|
37
37
|
|
38
38
|
|
39
|
-
一般論として、高解像度化するよりも深層化した方が、計算コストは安くて済む。
|
39
|
+
一般論として、高解像度化するよりも深層化した方が、計算コストは安くて済む。(BaiduVision vs ResNetの関係)
|
40
40
|
|
41
|
+
|
42
|
+
|
41
|
-
|
43
|
+
---
|
42
44
|
|
43
45
|
|
44
46
|
|
@@ -66,17 +68,21 @@
|
|
66
68
|
|
67
69
|
|
68
70
|
|
69
|
-
・プーリングについて
|
71
|
+
**・プーリングについて**
|
70
72
|
|
71
73
|
CNNでのプーリングは「複数解像度での処理」に対応する手法ではあるが、スケールスペース分析`scale space analysis`とは異なっている。
|
72
74
|
|
73
75
|
|
74
76
|
|
75
|
-
・スケールスペース分析について
|
77
|
+
**・スケールスペース分析について**
|
76
78
|
|
77
|
-
|
79
|
+
さまざまな解像度(詳細・粗い)での特徴量を学ばせるのであれば、**プーリングよりもCNNにイメージピラミッドを送る方が効果的**だろう。(プーリング抜きの)CNNにいろいろな解像度、いろいろな方向の画像を食わせて、最後(だけ)Maxpoolingして答えを統合するのもありだろう。
|
78
80
|
|
79
81
|
と、いう感じで、スケールスペース(綺麗、粗い)を変えて学習させる手法は、計算コストはかなり高くつくけれども、精度UPはきっちり見込めるはずだ。
|
82
|
+
|
83
|
+
|
84
|
+
|
85
|
+
---
|
80
86
|
|
81
87
|
|
82
88
|
|
3
もう消えないで;_;
test
CHANGED
@@ -14,8 +14,6 @@
|
|
14
14
|
|
15
15
|
依然書き込んだ際は残っていたのに、なぜか消えた95% の部分をうろ覚えで復旧
|
16
16
|
|
17
|
-
適切な解像度の最後の段落の内容が高度すぎてピンときません o_0
|
18
|
-
|
19
17
|
|
20
18
|
|
21
19
|
---
|
@@ -24,7 +22,17 @@
|
|
24
22
|
|
25
23
|
***高解像度化 VS 深層化**
|
26
24
|
|
25
|
+
|
26
|
+
|
27
|
+
||高解像度化|深層化|
|
28
|
+
|
29
|
+
|:--|:--:|--:|
|
30
|
+
|
31
|
+
|代表例|BaiduVision|ResNet|
|
32
|
+
|
33
|
+
|
34
|
+
|
27
|
-
|
35
|
+
高解像度化は確かにパフォーマンスを改善できるが、だからといって**高解像度化をすることがパフォーマンス(精度)を常に改善できるとは限らない**。もし、低解像度で十分に判別できるのであれば、高解像度化しても情報量が無駄に多いだけだ。
|
28
36
|
|
29
37
|
|
30
38
|
|
@@ -38,18 +46,64 @@
|
|
38
46
|
|
39
47
|
***適切な解像度**
|
40
48
|
|
41
|
-
|
49
|
+
||鮮明に撮影|不鮮明に撮影|
|
42
50
|
|
43
|
-
|
51
|
+
|:--:|:--:|:--:|
|
44
52
|
|
45
|
-
|
53
|
+
|グローバル特徴`global feature`|軽視|重視|
|
46
54
|
|
47
|
-
|
55
|
+
|細かい特徴`finer feature`|重視|軽視|
|
48
56
|
|
49
57
|
|
58
|
+
|
59
|
+
∴トレードオフの関係があり、「どの解像度が良い」という**万能なものは存在しない**
|
60
|
+
|
61
|
+
|
62
|
+
|
63
|
+
***グローバル特徴と細かい特徴の活かし方**
|
50
64
|
|
51
65
|
だからこそ、コンピュータビジョンにおいて、どのような特徴がどうやって(広い範囲なのか狭い範囲なのか)入ってくるのか分からない認識問題では(鮮明さの違いという意味で)複数の解像度で処理するのが望ましい。
|
52
66
|
|
53
67
|
|
54
68
|
|
55
|
-
プーリング
|
69
|
+
・プーリングについて
|
70
|
+
|
71
|
+
CNNでのプーリングは「複数解像度での処理」に対応する手法ではあるが、スケールスペース分析`scale space analysis`とは異なっている。
|
72
|
+
|
73
|
+
|
74
|
+
|
75
|
+
・スケールスペース分析について
|
76
|
+
|
77
|
+
**さまざまな解像度(詳細・粗い)での特徴量を学ばせるのであれば、プーリングよりもCNNにイメージピラミッドを送る方が効果的**だろう。(プーリング抜きの)CNNにいろいろな解像度、いろいろな方向の画像を食わせて、最後(だけ)Maxpoolingして答えを統合するのもありだろう。
|
78
|
+
|
79
|
+
と、いう感じで、スケールスペース(綺麗、粗い)を変えて学習させる手法は、計算コストはかなり高くつくけれども、精度UPはきっちり見込めるはずだ。
|
80
|
+
|
81
|
+
|
82
|
+
|
83
|
+
**■Gianluca Nanさん**
|
84
|
+
|
85
|
+
認識できる最小限の解像度が良いでしょう。手書きの数字を認識するのに255*255の画像ではもったいないし、処理が重くなります。
|
86
|
+
|
87
|
+
|
88
|
+
|
89
|
+
---
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
以下、私の考えです。
|
94
|
+
|
95
|
+
という感じで、「この条件がベストだ!」と具体的に数値やグラフで示されているデータはなさそうです。恐らく**もっとも洗練された汎用認識システムは人間**ですので、人間が見てわかりにくい解像度のデータは入力としてあんまりよくない気がします。
|
96
|
+
|
97
|
+
|
98
|
+
|
99
|
+
ですので、私がもしやるのであれば、以下の感じでしょうか。
|
100
|
+
|
101
|
+
・まずは少し大きめの画像を保存する(生データ)
|
102
|
+
|
103
|
+
・集まった画像をぼーっと眺める
|
104
|
+
|
105
|
+
・これくらいならわかるかな?というサイズの最小限のサイズにリサイズする
|
106
|
+
|
107
|
+
・実際に走らせる
|
108
|
+
|
109
|
+
・アタリが悪そうなら、先に保存した生データを最小限のサイズ+αにリサイズして実際に走らせる
|
2
消え防止書き込み2
test
CHANGED
@@ -14,9 +14,13 @@
|
|
14
14
|
|
15
15
|
依然書き込んだ際は残っていたのに、なぜか消えた95% の部分をうろ覚えで復旧
|
16
16
|
|
17
|
+
適切な解像度の最後の段落の内容が高度すぎてピンときません o_0
|
18
|
+
|
17
19
|
|
18
20
|
|
19
21
|
---
|
22
|
+
|
23
|
+
**■Tim Dettmersさん**
|
20
24
|
|
21
25
|
***高解像度化 VS 深層化**
|
22
26
|
|
@@ -30,12 +34,22 @@
|
|
30
34
|
|
31
35
|
|
32
36
|
|
37
|
+
**■Chomba Bupeさん**
|
38
|
+
|
33
39
|
***適切な解像度**
|
34
40
|
|
35
|
-
人の顔や芝生のような、細かい模様によって何が(誰が)映っているかを特定することが必要な場合には、(
|
41
|
+
人の顔や芝生のような、細かい模様によって何が(誰が)映っているかを特定することが必要な場合には、(アップで撮影したときのような)ある程度の鮮明さが必要になる。
|
36
42
|
|
37
|
-
全体を引き気味(
|
43
|
+
全体を引き気味(粗い画像)で撮影すればニューラルネットワークはグローバル特徴`global feature`を吸い上げることができるが、細かい(局所)特徴`finer features `を見落とすことになる。
|
38
44
|
|
39
|
-
全体をアップ気味(
|
45
|
+
全体をアップ気味(鮮明)で撮影すれば、細かい(局所)特徴を吸い上げることができるが、グローバル特徴を見落とすことになる。
|
40
46
|
|
41
47
|
このように、CNNは全体を重要視するか細かいところを重要視するかのトレードオフの関係があり、「どの解像度が良い」という**万能なものは存在しない**。
|
48
|
+
|
49
|
+
|
50
|
+
|
51
|
+
だからこそ、コンピュータビジョンにおいて、どのような特徴がどうやって(広い範囲なのか狭い範囲なのか)入ってくるのか分からない認識問題では(鮮明さの違いという意味で)複数の解像度で処理するのが望ましい。
|
52
|
+
|
53
|
+
|
54
|
+
|
55
|
+
プーリングがCNNでいう「複数解像度での処理」に対応すると言われているし、確かにそれはそうだろう。ただ、これはスケールスペース分析`scale space analysis`とは異なっているし、**特徴量を学ばせるのであれば、それよりもCNNにイメージピラミッドを送る方が効果的**だろう。他にも、CNNにいろいろな解像度、いろいろな方向の画像を食わせて、最後(だけ)Maxpoolingして答えを統合するのもありだろう。こんな感じで、スケールスペース(綺麗、粗い)を変えて学習させる手法は、計算コストはかなり高くつくけれども、精度UPはきっちり見込めるはずだ。
|
1
また消えたら困るのでまず書き込み
test
CHANGED
@@ -7,3 +7,35 @@
|
|
7
7
|
|
8
8
|
|
9
9
|
[それっぽいキーワード](https://www.google.co.jp/search?q=optimized+resolution+for+CNN)で検索すると、大半が電気代と性能のトレードオフ止まりの情報しか呈示していませんでした。このような中、あきらめずに探すと[Quoraの質問](https://www.quora.com/Does-input-dimension-resolution-affect-the-performance-of-Convolutional-Neural-Networks)に至ります。
|
10
|
+
|
11
|
+
|
12
|
+
|
13
|
+
**2017-11-16 A.M**
|
14
|
+
|
15
|
+
依然書き込んだ際は残っていたのに、なぜか消えた95% の部分をうろ覚えで復旧
|
16
|
+
|
17
|
+
|
18
|
+
|
19
|
+
---
|
20
|
+
|
21
|
+
***高解像度化 VS 深層化**
|
22
|
+
|
23
|
+
精度を上げるために高解像度化をすることはぼちぼちやられているし、実際にBaiduVisionではそれによって精度を高めてはいる。だからといって、**高解像度化をすることがパフォーマンス(精度)を常に改善できるとは限らない**。もし、低解像度で十分に判別できるのであれば、高解像度化しても情報量が無駄に多いだけだ。
|
24
|
+
|
25
|
+
|
26
|
+
|
27
|
+
一般論として、高解像度化するよりも深層化した方が、計算コストは安くて済む。
|
28
|
+
|
29
|
+
(BaiduVision vs ResNetの関係)
|
30
|
+
|
31
|
+
|
32
|
+
|
33
|
+
***適切な解像度**
|
34
|
+
|
35
|
+
人の顔や芝生のような、細かい模様によって何が(誰が)映っているかを特定することが必要な場合には、(ズームという意味で)ある程度の鮮明さが必要になる。
|
36
|
+
|
37
|
+
全体を引き気味(ズームアウト)で撮影すればニューラルネットワークはグローバル特徴`global feature`を吸い上げることができるが、細かい(局所)特徴`finer features `を見落とすことになる。
|
38
|
+
|
39
|
+
全体をアップ気味(ズーム)で撮影すれば、細かい(局所)特徴を吸い上げることができるが、グローバル特徴を見落とすことになる。
|
40
|
+
|
41
|
+
このように、CNNは全体を重要視するか細かいところを重要視するかのトレードオフの関係があり、「どの解像度が良い」という**万能なものは存在しない**。
|