teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

4

2021/11/04 22:34

投稿

退会済みユーザー
answer CHANGED
@@ -11,7 +11,7 @@
11
11
  解析した結果をLSTMにぶち込んで、それが何を言いたいのか理解させる必要があると思います。
12
12
 
13
13
  **続いて画像**
14
- 3. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
14
+ 3. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していった[FPNのしっかりしたモデル](https://arxiv.org/pdf/1708.02002.pdf)を使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
15
15
 
16
16
  **比較**
17
17
  4. 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス(ヨークシャーテリアと犬)のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。

3

2021/11/04 22:34

投稿

退会済みユーザー
answer CHANGED
@@ -16,5 +16,5 @@
16
16
  **比較**
17
17
  4. 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス(ヨークシャーテリアと犬)のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。
18
18
 
19
- 「おめーその説明はちげーよ」とマサカリを投げられる方ば、その方法で実装ください。
19
+ 「おめーその説明はちげーよ」とマサカリを投げられる方であれば、その方法で実装ください。
20
- 「わからん」という方であればこの文章からキーワードを抽出して検索して、具体的な質問に書き換えてた方がイイです。
20
+ 「わからん」という方であればこの一連の文章からキーワードを抽出して検索して、具体的な質問に書き換えてた方がイイです。

2

2021/11/04 12:33

投稿

退会済みユーザー
answer CHANGED
@@ -3,18 +3,18 @@
3
3
  多分素直に実装すると大体誰がやっても大筋はこうなると思います。
4
4
 
5
5
  **入力文字の方から**
6
- 1. 形態素解析
6
+ . 形態素解析
7
7
  入力が文字なのか、文章なのか、はたまた犬にしてもヨークシャーテリアだったり柴犬だったりもあり得ます。Dogかもしれません。まず考えないといけないのは文章なのか単語なのかが入ってきたときに、文字列全体で何を言いたいか機械に理解させないといけません。
8
8
  日本語であればMeCabの形態素解析は必須でしょう。
9
9
 
10
- 2. 入力した文字の理解
10
+ . 入力した文字の理解
11
11
  解析した結果をLSTMにぶち込んで、それが何を言いたいのか理解させる必要があると思います。
12
12
 
13
13
  **続いて画像**
14
- 3. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
14
+ . 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
15
15
 
16
16
  **比較**
17
- 4. 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス(ヨークシャーテリアと犬)のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。
17
+ . 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス(ヨークシャーテリアと犬)のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。
18
18
 
19
- 「おめーその説明はちげーよ」と突っ込みができる方であれば、そのまま実装ください。
19
+ 「おめーその説明はちげーよ」とマサカリを投げられる方ば、その方法で実装ください。
20
20
  「わからん」という方であればこの文章からキーワードを抽出して検索して、具体的な質問に書き換えてた方がイイです。

1

2021/11/04 12:33

投稿

退会済みユーザー
answer CHANGED
@@ -11,7 +11,7 @@
11
11
  解析した結果をLSTMにぶち込んで、それが何を言いたいのか理解させる必要があると思います。
12
12
 
13
13
  **続いて画像**
14
- 3. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればMRCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
14
+ 3. 画像を認識させる必要があります。一つだけ大きく映るのか、2つ以上映るのかわかりません。一つであれば普通のCNNで良いと思います。複数映るのであればYOLOのようなものか、もっと精度を上げたいのであればFaster RCNNから発展していったFPNのしっかりしたモデルを使えばいいと思います。この中で、何かが複数検出されたら、それの最大のものを使うのか、多数決をするのか、適当な方法で捌けばいいと思います。
15
15
 
16
16
  **比較**
17
17
  4. 2の結果と3の結果をWord to vectorみたいなもので集約できていれば、ベクトルの距離を出して終了です。クラス情報とスーパークラス(ヨークシャーテリアと犬)のような比較であれば、softmaxのパーセントの不一致度か何かで出せばいいと思います。