質問するログイン新規登録

Q&A

解決済

1回答

1691閲覧

fastTextの学習済みモデルに関して

退会済みユーザー

退会済みユーザー

総合スコア0

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2018/07/02 10:27

0

0

前提・実現したいこと

fastTextの学習済みモデルを使って
Word2Vecを使った文章間の類似度算出をしようとしています。

Word2Vecを使った文章間の類似度算出
fastTextの学習済みモデル(日本語)

発生している問題・エラーメッセージ

学習済みモデルはファイルをダウンロードして使用しており、
日本語は公開されているモデルを使っていますが、
英語のfastTextの学習済みモデルを探しており、
以下が該当するのではないかと考えています。
English word vectors

fastTextの公式ページからインストール可能な日本語のモデルもあり、
Word vectors for 157 languages(js選択)fastTextの学習済みモデル(日本語)では、どちらがEnglish word vectorsと対応するのか判断しかねています。

学習済みモデルに対しての理解が追いついておらず、
現状ではダウンロードして使っているだけなので判断ができず、今回の質問に至ります。
今後勉強を進めていきたいと思いますが、
今回の件に関しまして、知識をお貸しいただけますと大変助かります。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

guest

回答1

0

ベストアンサー

なにが質問でしょうか?
https://fasttext.cc/docs/en/english-vectors.html
は間違いなく英語ですね。
異なるデータセットに対して学習させたものが3つです。

日本語のものが英語に対応しているのかを知りたいのでしょうか?

投稿2018/07/02 11:10

mkgrei

総合スコア8562

退会済みユーザー

退会済みユーザー

2018/07/02 11:24

はい、Qiitaで公開されている日本語のものが英語に対応しているのかを知りたいです。
mkgrei

2018/07/02 11:29

対応していないと思います。 日本語と英語を同時に処理したいということでしょうか? どうしてもなら、正規表現で別々に抜き出すか、一度どっちか一方に翻訳をかけるかでしょうか。
退会済みユーザー

退会済みユーザー

2018/07/02 13:23

ご回答いただきましてありがとうございます。 同時に処理したいわけではないのですが、 Word2Vecを使った類似度を算出する為に用意した文章の内容が 言語は違いますが、日英で内容は全く同じなので、 日英で学習済みモデルを統一したいと考えています。
退会済みユーザー

退会済みユーザー

2018/07/02 13:24

その場合は、fastTextの公式ページからダウンロードしたモデルを 日英共に使用するのが賢明でしょうか。
mkgrei

2018/07/02 13:37 編集

言語が異なるとモデルの質が変わってきます。 たとえば、まったく同じ内容の文章の英語と日本語に対して、 英語の文書を英語のモデルで扱うこと、 英語の文書を日本語に翻訳して日本語のモデルで扱うこと、 日本語の文書を日本語のモデルで扱うこと、 日本語の文書を英語に翻訳して英語で扱うこと、 は異なります。 もちろん、同じ内容にしても、言語学的に難易度が異なることも寄与しています。 「統一」するというのはどういうことでしょうか?
退会済みユーザー

退会済みユーザー

2018/07/03 06:11

お返事とご回答いただきましてありがとうございます。 英語の文書を英語のモデルで扱うことと、日本語の文書を日本語のモデルで扱うことを想定しており、 この英語のモデルと日本語のモデルを作成するときに、モデルの学習させたインプット情報を統一したいということです。言語によりWkipediaのページ数の有無や説明の違いがあることは理解しています。 言い換えると今回の2つの日本語学習済みモデルである Word vectors for 157 languages(js選択)とfastTextの学習済みモデル(日本語)は同じなのか ということになります。
mkgrei

2018/07/03 10:42 編集

使用しているデータが同じならそれなりに似ているモデルになります。 どこまで不確定性を固定することができるのか、すぐには判断できません。 データが異なるのなら全然異なるモデルになってもよいとおもいます。 (日本語)の方はtxtファイルをダウンロードできましたか? (js選択)の方は学習済みのモデルなのでは?
退会済みユーザー

退会済みユーザー

2018/07/05 03:54

お返事いただきましてありがとうございます。 ご質問いただいた意図が解りかねるのですが、 (日本語)の方はtxtファイルはダウンロードできませんでした。 (js選択)の方は学習済みのモデルです。 fastTextの公式ページからインストール可能な学習済みモデルを日英ともに用いるのが言語間の差を縮小するには、一番賢明な判断でしょうか。
mkgrei

2018/07/05 08:13

> 言い換えると今回の2つの日本語学習済みモデルである Word vectors for 157 languages(js選択)とfastTextの学習済みモデル(日本語)は同じなのか ということになります。 を聞いていたので、そもそも片方をダウンロードできないのに比較しようがないように思ったので。 > fastTextの公式ページからインストール可能な学習済みモデルを日英ともに用いるのが言語間の差を縮小するには、一番賢明な判断でしょうか。 一番賢明かどうかわかりませんが、すぐにできることではあります。 評価できる定量的な指標もないので、判断は難しいです。 上でも申し上げましたが、片方の言語に翻訳して揃えて、同じ言語でやることも考えられます。 難しい部分をどこに持ってくるのか、という問題です。
退会済みユーザー

退会済みユーザー

2018/07/09 10:03

ご回答いただきましてありがとうございました。 検討すべきことが明確になりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問