質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

0回答

978閲覧

機械学習を用いた多量のテキストに対する文書分類について

y-ibk-y

総合スコア0

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2020/11/07 11:51

前提・実現したいこと

機械学習を用いて文書分類をしたいと考えています。
分類器の作成及び評価まで行いました。なので今度は私自身の持つテキストデータに対して文書分類を行いたいのですがネットに挙がっている多くのサイトが訓練データ・テストデータの正答率までで終わっており、作成した分類モデルを用いて分類した例は見受けられませんでした。
https://qiita.com/yamaru/items/63a342c844cff056a549

CSVファイルに保存されたテキストに対して事前に作成した分類器・分類モデルを用いて文章分類を行うにはどのような流れで行えばよいでしょうか。CSVファイルには20~100文字程度の文章が10万件ほど保存されており、それら一つ一つに対して分類を行いたいです。具体的には

分類用のモデル・分類器 ← 自身で用意したテキスト(csvファイル)10万件程度に対して文書分類

といった作業なのですがどのようなライブラリを用いてどのような流れになるのでしょうか。
大まかで構いませんのでどなたかご教授のほどよろしくお願いします。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2020/11/07 13:22

「訓練データ・テストデータ」を作成されたときと同様の処理では駄目なのでしょうか?
y-ibk-y

2020/11/07 15:46

回答ありがとうございます 言葉足らずで私が言いたいことがうまく伝わってないようなのですが、 「自身で用意したテキスト(csvファイル)10万件程度に対して文書分類」については10万件一つ一つの分類結果を知りたいのです。 「訓練データ・テストデータ」を作成されたときと同様の処理ですと正答率や精度を求めることになるので方向性が少し違うように思います。
toast-uz

2020/11/08 01:28

この方面は不勉強ですが「訓練データ・テストデータ」を作成されたときと同様の処理」にて「推論」をどうやっているかを探されると良いと思います。それが探せなかった、という質問なのかもですが。 「BERT pytorch predict」とググると、それっぽいものがいろいろ出てきます。 https://www.koi.mashykom.com/bert.html https://stackoverflow.com/questions/56201147/how-to-access-the-predictions-of-pytorch-classification-model-bert
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問