Pythonでクロスバリデーション

VGG16を使って、画像分類をするプログラムを書いています。
VGG16を転移学習させて「まどか☆マギカ」のキャラを見分ける
上記のURLのサイト同様に、ImageDataGeneratorを使って、データセットをtrain,vakidation,testの３つのフォルダに分類し、機械学習を行っています。モデルに対する信頼性を高めるために、クロスバリデーションを行おうと思うのですが、この場合どのようにしたら良いと思いますか？
画像をtrain,vakidation,testの３つのフォルダに再分類する方法でしか、クロスバリデーションは実現できないのでしょうか？

meg_

2020/10/12 07:05 編集

・データが少ないのですか？・交差検証の種類は何を想定されていますか？

rest

2020/10/12 07:10

・データが少ない訳ではないですが、train,validation,testで分類するときに分類しやすい画像と分類しにくい画像が偏らないようにするため、クロスバリデーションを行うつもりです。・交差検証の種類はk分割交差検証を想定しています。

meg_

2020/10/12 07:12

データが十分あるならば交差検証は過学習の危険があるので実施しない方が良いのでは？

rest

2020/10/12 08:01

過学習はepoch数で制御する予定なんですが、それよりも、「分類しやすい画像と分類しにくい画像が偏っている可能性」を排除したいんです。

toast-uz

2020/10/12 11:06

「分類しやすい画像と分類しにくい画像が偏っている可能性を排除したい」が、「データは十分にあるのに交差検証をしたい」の理由になっていないのでは、と思います。

rest

2020/10/13 06:14

すみません。色々勘違いしていて、データは不十分で、汎化性能を上げるためにクロスバリデーションを行うつもりです。

行動規範の内容に同意します

回答1件

ベストアンサー

flow_from_directoryでフォルダから画像を随時読み込んでいくスタイルは、基本的にはコードも書きやすくて初心者にはわかりやすいのですが、ある程度慣れてくると、質問者さんのように交差検定やアンサンブル学習などもやりたくなってきて、そうすると使い勝手が悪くなってきます。
Kaggleなどでよく用いられる形式ですが、画像は1か所にまとめて、各画像のラベル付けはcsvなどの別ファイルにまとめて管理したほうがいいかと思います。

具体的には、
Training.csv
file ,tag
001.jpg, madoka
002.jpg, mami
003.jpg, homura
...

などとして、画像はimages/などの適当なフォルダにまとめておきます（テストデータに関してはcsv,imageとも分けておいたほうが良いかと思います）。あとはpandasでcsvを読み込み、sklearnのStratifiedKFoldなどでtrain_dfとvalidation_dfにsplitし、クロスバリデーションにかけていきます。
Dataframeをもとに画像を読み込んでいく場合、flow_from_directoryではなくflow_from_dataframeを使用することになります（細かい使用方法は検索すればたくさん出てきます）。
このように運用するメリットは、画像やタグ付けの管理がシンプルになるところにもあります。また、マルチラベルへの対応も容易です。今後もいろいろと手を出していこうと思うのであれば、早めにこの運用に切り替えられたほうがいいかと思います。

投稿2020/10/16 08:35