回答編集履歴

1

編集上の修正を加えました

2021/01/23 23:44

投稿

退会済みユーザー
test CHANGED
@@ -116,21 +116,21 @@
116
116
 
117
117
  - グレースケールではなくカラー画像を入力に使えることで、画像の表現力がもともと高い。
118
118
 
119
- - 人間の職人芸から導かれた検出処理が含まれていない
119
+ - 人間の職人芸から導かれた検出処理(例えば物体検出やSVM)が含まれていない
120
120
 
121
121
  - (良くも悪くも人間の常識抜きに)機械が統計的に導いた膨大な数の検出処理で成り立っている
122
122
 
123
- - 物体検出と物体の判別を融合させることで、比較的高速に、無駄なく、一撃(You Only Look Once)で処理きる
123
+ - 物体検出と物体の判別を融合させることで、比較的高速に、無駄なく、**一撃(You Only Look Once)で**処理きる
124
124
 
125
125
 
126
126
 
127
127
  > yoloはいかにして色を検出材料に
128
128
 
129
- 一枚のカラー画像をは縦横にRGBの3chが加わった3方向に軸のあるデータです。画像のチャネルごとに深層学習で特徴を抽出する処理を行い、
130
129
 
131
130
 
131
+ 一枚のカラー画像を「縦横とRGBという3方向に広がっている箱」ととらえてください。これをそのまま畳み込んでいくイメージです。
132
132
 
133
- 一枚のカラー画像を縦横とRGBという3方向に広がっている箱」ととらえてください。これをそまま畳み込んでいくイメージです。リンク先「ネットワク構造」の項目のイメージです。「RGBの三つがあるのにどうして最後に数値のデータに!」とモヤモヤすることと思います。これは「全結合層」という部分で膨大なデータを一次元に変換する処理があり、ここで数値の羅列に並んだ形に変換されて1つのデータに変換され、そのあと適当なデータ(座標やカテゴリ等)に分離されるととらえてください。
133
+ 「RGBの三つ異なるデがあるのにどうして最後にいつのまにかこれらが”組み合わさった”数値のデータに!」とモヤモヤすることと思います。これは「全結合層」という部分で膨大なデータを一次元に変換する処理があり、ここで数値の羅列に並んだ形に変換されて1つのデータに変換され、そのあと適当なデータ(座標やカテゴリ等)に分離されるととらえてください。
134
134
 
135
135
 
136
136
 
@@ -142,6 +142,6 @@
142
142
 
143
143
 
144
144
 
145
- 「中二病をこじらせたタイトルとよく表現されていますが、安全と思います。Githubですべて公開されていますし、ほかの人たちも改善を加えたりしてよく手入れされています。
145
+ 「中二病をこじらせたタイトルとよく表現されていますが、安全と思います。Githubですべて公開されていますし、ほかの人たちも改善を加えたりしてよく手入れされています。
146
146
 
147
147
  ※githubのような公開されて、**よく手入れされている場所のソースコードやデータを使ってください。**正体のよくわからないサイトから複雑で膨大なソースコードを手に入れると、何か仕込まれている例があります(ずいぶん前に、膨大なソースコードの中にこっそりJPEGデータに偽装してIP等を送信するコードを挟み込んでいた人がいて、身内から干された、というアメリカ人がいました)。