ラズパイを用いた画像認識ができるようになりたい

画像認識プログラミングレシピという本である程度画像認識について学習しました。
https://github.com/Kokensha/book-ml

本書にもラズベリーパイで学習済みモデルを使ってみる、というのがあるのですが、githubからダウンロードして体験してみましょうというレベルで何をしているのか、何が必要で、どうやって作られているのかがわかりませんでした。

自分の検索の仕方が悪いのか、ラズパイを使った学習済みモデルの使い方を調べても、ラズパイを使って画像認識してみた！のような記事しかヒットしません。

まず自分がやってみたいこととしては、手書き数字の認識や簡単な物体検出など、picameraを用いた簡単なアプリケーションを作ってみたいです。

ラズパイを使った、もしくはラズパイを使わなくてもそれに応用できそうな、おすすめのサイトや書籍を教えていただけると嬉しいです。よろしくお願いします。

(現時点ではflaskは触ったことないですがdjangoは使えます。)
(学習中はkerasを主に使っていました。)

行動規範の内容に同意します

回答1件

ベストアンサー

調べ方について：

自分の検索の仕方が悪いのか、ラズパイを使った学習済みモデルの使い方を調べても、ラズパイを使って画像認識してみた！のような記事しかヒットしません。

たまたま動かしたい環境がRaspberry Piなだけで、Pythonを使う限り、基本的にOS的にはWindowsで動かそうがLinuxで動かそうが、CPU的にはX86-64（いわゆるPC)だろうがARM64（例えばRaspberry Pi）だろうが、（下準備のパッケージのインストールを除けば）そこまで大きく変わりません。

ですので、すでに感じられていると思いますが、「どのような環境で動かす」よりも「Pythonで何をしたいか」を重要視した方が良いと思います。

やってみたいことと記事について：

やってみたいこととしては、手書き数字の認識や簡単な物体検出など、picameraを用いた簡単なアプリケーションを作ってみたいです。

機械学習は、正しく認識させるための設定（ネットワークの重み）を学ぶ「学習」と、正しく認識する設定を使った「推論」からなっています。ですので、先の学習済みモデルの使い方を調べたらやってみた系の記事がヒットした、というのは「めんどくさい学習はすっ飛ばして、いい塩梅の重みを使って手軽に推論を試した」という記事ですので、説明としては理にかなっています。

質問の内容を見る限り、「データセットのような有り合わせのデータからの推論ではなく、USBやMIPIカメラのデータのような生きているデータからの推論をしたい」というのが本当にやりたいこと、と思います。

であれば、USBカメラであればOpenCVを使った動画の表示が良いと思いますし、より高速なMIPIカメラであればpicameraで顔認識してみた
が参考になると思います。

処理の流れは、普通は以下の感じになるはずです。上記のOpenCVのリファレンスは以下の1までの説明ですが、認識してみた系の記事であれば1～4まで対応しているはずです。カメラの種類が何であれ、画像さえ受け取ってしまえば、2以降の処理は基本的に同じですので、カメラに合わせて1.の部分を挿げ替える（cv2なのかpycameraなのかpyrealsense2なのか等）だけで済みます。

whileの無限ループの中でカメラから画像を受け取る。
画像をニューラルネットワークで使える形で突っ込む。
推論結果を受け取る
推論結果を画像として表示する
何かしらのフレームワークを使ってアプリにする

アプリケーションについて：
ここまでの技術的なボリュームが割と大きいですので、アプリケーションの話は別に考えた方が良いと思います。

分野的には、カメラの扱いは画像処理系エンジニアの得意なところですし、認識関係は機械学習エンジニア、アプリ化はWEB系エンジニアらが得意なところと思います。いろんな範囲を横断していますので、一気にやろうとすると少ししんどいように思います。

一連の処理をdjangoでやっている例も探せば見つかりましたが、具体的に細かいことまで調べようとすると、1のカメラの扱い、2-4の推論関係、5のアプリ化は分けて調べた方がよさそうです。アプリがスタンドアロン環境であれば、OpenCVのマウスコントロールやキーボード入力の検出（cv2.imshowで表示中の画像に対しての入力を拾う）でもアプリは作れそうですし、このほかにもいわゆるプログラムのようなGUI(tkinterやPyQT、wxpythonなど)の検討もありそうです。

Goodluck :)

投稿2021/08/04 21:20

編集2021/08/04 21:31

退会済みユーザー

総合スコア0

seyu0930

2021/08/05 02:19

丁寧なご回答ありがとうございます！現在大学１年でどの分野にしようか色々試していますが、画像処理系が楽しいのでそちらを詳しく学ぼうと思いました。1〜4をまず学習したいと思います！自分でローカルに試す分にはアプリはなくても実行可能ということでしょうか？それとも以下のサイトのようなところからアプリのフレームだけ借りてきて中身の学習済みモデルを入れ替える必要があるのでしょうか？ https://github.com/PoodleMaster/mnister このサイトでは手書きの数字をその場で書いて判定しています。このような手書きをする場所を用意したり、リアルタイムで物体を検出するときはアプリが必要な気がするのですが、実際どうなんでしょう。

退会済みユーザー

2021/08/05 21:17

> 自分でローカルに試す分にはアプリはなくても実行可能そうなります。アプリにするメリットは「取っつきやすくする」ことと思います。あらかじめ画像データを用意して置いたり、OpenCVのcv2.setMouseCallbackのように突貫工事で文字を書くような入力方法を用意して置いたり、紙に書いた文字をカメラでその場で認識させる、などできるのであれば、わざわざアプリを作らなくても同じように標準の画像を表示する関数(cv2.imshow)を動かすだけでもアプリと同じように動作確認はできます。OpenCVに簡易的なアプリを作れる機能が備わっている感じです。 > アプリのフレームだけ借りてきて中身の学習済みモデルを入れ替える必要があるのでしょうか？この方法も良いと思います。もし、すでにアプリがあって、簡単に回答の1-4の部分を挿げ替えられそうであれば、すでにあるアプリを流用するのも良いと思います。ほかの人のソースコードを読むのは勉強にはなりますが、よほど慣れている内容のコードで合ったりよほど綺麗にに書いてなければでなければ（個人的には）ほかの人のコードというだけで結構疲れます。このような場合、本当にやりたい1-4の部分よりも見た目を調整するための5の部分に結構な時間がかかってしまう、ということも起き得ます。

行動規範の内容に同意します