質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.48%

「Deep MNIST for Experts」の質問

解決済

回答 1

投稿

  • 評価
  • クリップ 1
  • VIEW 435

akihico

score 15

TensorFlowのサイトにあるDeep MNIST for Expertsをやっているのですが、
わからないことがあり、質問させていただきます。

First Convolutional Layerで、フィルターの変数を[5, 5, 1, 32]の行列で指定していますが、4つ目の数が32である理由がよくわかっていません。

1:フィルターの縦ピクセル数
2:フィルターの横ピクセル数
3:チャネル数(今回は白黒なので1、カラー(rgb)なら3)
4:不明

よろしくお願いいたします。

◯Deep MNIST for Experts  |  TensorFlow
https://www.tensorflow.org/get_started/mnist/pros
== 引用開始 ==
First Convolutional Layer

We can now implement our first layer. It will consist of convolution, followed by max pooling. The convolution will compute 32 features for each 5x5 patch. Its weight tensor will have a shape of [5, 5, 1, 32]. The first two dimensions are the patch size, the next is the number of input channels, and the last is the number of output channels. We will also have a bias vector with a component for each output channel.

W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])
== 引用終了 ==

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

32 features for each 5x5 patch 

一層目のフィルターの数(=特徴MAPの数)が32コだから、ということではないでしょうか?
5x5の畳み込みフィルターが32コ並列関係に存在している、イメージです。

どうして32コなの?となると、恐らく「処理が軽いけれども十分に判別できるライン」が32だったのだろうと思います(2^5でキリがいいですし)。


2017-09-17 22:00過ぎ追記
Stackoverflowのlejlotさんがかなり丁寧にまとめていましたので引用します。

(中略)MNISTのなかで、イメージ全体に5x5の畳み込みカーネルを走査させることを通して、画像を直線的にマッピングしており、このようなフィルタを32個作っているのです。

例えば、このようなフィルター1個であれば、エッヂ検出装置として働きます。
0 0 0 0 0  0 0 0 0 0  1 1 1 1 1  1 1 1 1 1  1 1 1 1 1

別の例では、斜めの線を検出することができます。
1 0 0 0 0  1 1 0 0 0  1 1 1 0 0  1 1 1 1 0  1 1 1 1 1

諸々について。どうして32か?これは単に試行と経験で得られたマジックナンバーなのです。これはCNNsの定義の中では本当に小さい数値に過ぎません(単にグレースケールイメージから基本的なエッヂを検出するだけであれば、既に8個の異なるフィルタが必要になるということに注意してください 訳注:8方向?2^8=8bitグレースケール?)。


先行事例を調べる途中で、概念や言葉だけではわかりにくいから、3Dでゴリゴリ動かせるWEB上のMNISTを使ってはどうだ?という提案がありましたので、参考にリンクをつけておきます。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/09/18 00:22

    フィルターの個数だったのですね。そして、32個が絶妙なさじ加減みたいですが、ここら辺は本当に難しいところだと思いました。
    「3Dでゴリゴリ動かせるWEB上のMNIST」見ました。視覚化するとインパクトがすごいですね!面白かったです!

    キャンセル

  • 2017/09/18 02:08

    WEB上のMNISTはakihicoさんの質問がなければ見ることはありませんでした。私もこんなサービスがある事に驚いています。良い質問をありがとうございました。

    キャンセル

関連した質問

同じタグがついた質問を見る