googleから公開されているtensorflowのmnistデータセットやcifar10などの画像データはピクセルから構成されています(mnistなら28×28の784行列)。
質問1:詳細を見てみると画像データの各ピクセルごとに特徴のある値がありますが、googleはどのようにピクセルから値を出しているのでしょうか?
質問2:またmnistのように画像を1次元に変換するにはどうしたいいのでしょうか?
追記
下記はcifar10のdataですが、3072列のベクトルとして、各ピクセルに値が載っています。
unpickle("data_batch_1")['data'][0] >>array([ 59, 43, 50, ..., 140, 84, 72], dtype=uint8) len(unpickle("data_batch_1")['data'][0]) >>3072
おそらくピクセルの輝度値を数値化しているのだと思われるのですが、Qiitaでも同じような記述が出てきます
例えば、5x5の大きさの白黒の画像はこんな感じで表わせます。
[[0 3 3 8 6]
[5 7 8 0 1]
[1 8 7 1 4]
[2 0 8 1 5]
[9 9 5 7 4]]
つまり、画像の縦x横の大きさの配列に、ピクセルごとの明るさを格納すればいいわけです。>
また同様のものを載せたQiitaのページもあります
「特徴」とは画像ベクトルに格納されている数値(おそらくピクセルごとの明るさ)のことです。
このように白黒画像などをピクセルごとに行列に格納するやり方はどのようにすればできるのでしょうか?
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/05/25 14:33
2017/05/25 14:52
2017/05/25 23:40
2017/05/26 05:06