teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

1

編集上の修正を加えました

2021/01/23 23:44

投稿

退会済みユーザー
answer CHANGED
@@ -57,18 +57,18 @@
57
57
 
58
58
  どうしてこんなに深層学習のYOLOの精度が高くて速いかを説明します。
59
59
  - グレースケールではなくカラー画像を入力に使えることで、画像の表現力がもともと高い。
60
- - 人間の職人芸から導かれた検出処理が含まれていない
60
+ - 人間の職人芸から導かれた検出処理(例えば物体検出やSVM)が含まれていない
61
61
  - (良くも悪くも人間の常識抜きに)機械が統計的に導いた膨大な数の検出処理で成り立っている
62
- - 物体検出と物体の判別を融合させることで、比較的高速に、無駄なく、一撃(You Only Look Once)で処理きる
62
+ - 物体検出と物体の判別を融合させることで、比較的高速に、無駄なく、**一撃(You Only Look Once)で**処理きる
63
63
 
64
64
  > yoloはいかにして色を検出材料に
65
- 一枚のカラー画像をは縦横にRGBの3chが加わった3方向に軸のあるデータです。画像のチャネルごとに深層学習で特徴を抽出する処理を行い、
66
65
 
67
- 一枚のカラー画像を「縦横とRGBという3方向に広がっている箱」ととらえてください。これをそのまま畳み込んでいくイメージです。リンク先の「ネットワーク構造」の項目のイメージです。「RGBの三つがあるのにどうして最後に数値のデータに!」とモヤモヤすることと思います。これは「全結合層」という部分で膨大なデータを一次元に変換する処理があり、ここで数値の羅列に並んだ形に変換されて1つのデータに変換され、そのあと適当なデータ(座標やカテゴリ等)に分離されるととらえてください。
66
+ 一枚のカラー画像を「縦横とRGBという3方向に広がっている箱」ととらえてください。これをそのまま畳み込んでいくイメージです。
67
+ 「RGBの三つの異なるデータがあるのに、どうして最後にいつのまにかこれらが”組み合わさった”数値のデータに!」とモヤモヤすることと思います。これは「全結合層」という部分で膨大なデータを一次元に変換する処理があり、ここで数値の羅列に並んだ形に変換されて1つのデータに変換され、そのあと適当なデータ(座標やカテゴリ等)に分離されるととらえてください。
68
68
 
69
69
  ---
70
70
 
71
71
  > Darknetというものをインストールする必要があるのですが、これは安全なのでしょうか?名前がちょっと。
72
72
 
73
- 「中二病をこじらせたタイトルとよく表現されていますが、安全と思います。Githubですべて公開されていますし、ほかの人たちも改善を加えたりしてよく手入れされています。
73
+ 「中二病をこじらせたタイトルとよく表現されていますが、安全と思います。Githubですべて公開されていますし、ほかの人たちも改善を加えたりしてよく手入れされています。
74
74
  ※githubのような公開されて、**よく手入れされている場所のソースコードやデータを使ってください。**正体のよくわからないサイトから複雑で膨大なソースコードを手に入れると、何か仕込まれている例があります(ずいぶん前に、膨大なソースコードの中にこっそりJPEGデータに偽装してIP等を送信するコードを挟み込んでいた人がいて、身内から干された、というアメリカ人がいました)。