どのようにしてmnistデータやcifar10のピクセルには値が付いているのか

googleから公開されているtensorflowのmnistデータセットやcifar10などの画像データはピクセルから構成されています（mnistなら２８×２８の７８４行列）。
質問１：詳細を見てみると画像データの各ピクセルごとに特徴のある値がありますが、googleはどのようにピクセルから値を出しているのでしょうか？

質問２：またmnistのように画像を１次元に変換するにはどうしたいいのでしょうか？

追記

下記はcifar10のdataですが、3072列のベクトルとして、各ピクセルに値が載っています。

unpickle("data_batch_1")['data'][0]
>>array([ 59,  43,  50, ..., 140,  84,  72], dtype=uint8)

len(unpickle("data_batch_1")['data'][0])
>>3072

おそらくピクセルの輝度値を数値化しているのだと思われるのですが、Qiitaでも同じような記述が出てきます

例えば、5x5の大きさの白黒の画像はこんな感じで表わせます。

[[0 3 3 8 6]
[5 7 8 0 1]
[1 8 7 1 4]
[2 0 8 1 5]
[9 9 5 7 4]]
つまり、画像の縦x横の大きさの配列に、ピクセルごとの明るさを格納すればいいわけです。>

また同様のものを載せたQiitaのページもあります
「特徴」とは画像ベクトルに格納されている数値（おそらくピクセルごとの明るさ）のことです。
このように白黒画像などをピクセルごとに行列に格納するやり方はどのようにすればできるのでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

おそらく以下とほぼ同様の質問（疑問）だと思いますので確認ください。
機械学習用のデータセットについて

上記を踏まえ簡潔に回答しますと

質問１：詳細を見てみると画像データの各ピクセルごとに特徴のある値がありますが、googleはどのようにピクセルから値を出しているのでしょうか？

疑問点がちゃんと把握できているか自信がありませんが。

MNISTの画像はモノクロ8bit階層28×28=784ピクセルで構成されています。
各ピクセルの値は、輝度（明るさ）を表しています。

MNIST For ML Beginners
で用いられている手法では、１画像を784次元（＝個の要素を持つ）ベクトルとして扱います。
このベクトルの各要素の値は、ピクセル値＝輝度がそのまま入ります。
つまりピクセル値＝輝度をそのまま特徴（ベクトル）値として利用しています。

一方、機械学習をこれから始める人に押さえておいてほしいことでのブドウとリンゴの例
では、ピクセルの値をそのまま使うのではなく赤の濃さと青の濃さの２要素の特徴ベクトルで扱う例が挙げられています。
この場合は、画像から赤の濃さと青の濃さを抽出する処理が必要になります。

すなわち、何を特徴ベクトル値として採用するかはgoogle（=MNISTデータ提供者の意味？）ではなく
機械学習実行者が決めるべきことといえます。

質問２：またmnistのように画像を１次元に変換するにはどうしたいいのでしょうか？

コード詳細は
tensorflow/tensorflow/contrib/learn/python/learn/datasets/mnist.py
が参考になるかと思います。
２→１次元変換はnumpyのreshapeなりで比較的簡単にできると思います。

投稿2017/05/25 08:27

編集2017/05/26 05:05

can110

総合スコア38262

trafalbad

2017/05/25 14:33

質問1に関してですがラベルではなく画像データを特徴づけるピクセルの値です。mnistなら各画像に合わせて適切な値が、784次元の各領域で表記されています。これらは人力ではつけられないと思うので（画像の特徴に合わせてピクセルごとに値を振れない）。mnistにしてもcifar10にしても画像を特徴づけるためのピクセルの値はどのように割り振ってあるのでしょうか？