ある文字列を「ファッション用語である」「ファッション用語ではない」のどちらかに判定する分類器を作成しております。
分類器ちゃんに「ファッション用語」を学習させるため、下2つの訓練データが必要です。
(1) ファッション用語である文字列いっぱい <-人力不可能
(2) ファッション用語じゃない文字列いっぱい <-人力不可能
(1)に関してはファッション用語まとめサイトからのスクレイピングで用意することが出来ました。
しかし、(2)の集め方をどうすれば良いか悩んでおります。
以下に(2)を用意するために調べたことを記述します。
1, ECサイトから「ファッションカテゴリに分類しない商品データ一覧」を取得出来れば良いのでは無いか、と考える。
→Amazo◯n、楽◯ のAPIについて調べた結果、「除外カテゴリの指定」の様なことは出来なかったor見つからなかった。
2, 辞書サイトで「ファッションに関連する語句」を排除した語句一覧を取得出来れば良いのでは無いか、と考える。
→W◯ki、(辞書じゃないけど)Go◯gle Custom Search API などについて調べ、1と同様に出来ない感じだった。
やりたいことはただ1つ、「ファッションに関連しない、たくさんの文字列の取得」です。
妙案お待ちしておりますm(_ _)m
回答3件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/05/13 00:07