質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

解決済

1回答

1556閲覧

Python3のgensimを用いたword2vec用のモデル作成について

pinedesunoyoo

総合スコア6

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2019/11/09 08:34

編集2019/11/09 17:48

初心者です。パソコンがモデル作成で重くなってしまっているので、スマホからの投稿になってしまいます。申し訳ございません。

参考書やネットの記事を元に、Wikipediaの全文データをもとにword2vec用のモデル作成を行っております。

loggingを使って状況を確認できるコードにしてあるのですが、90時間経って、EPOCH1の58.1%という状況で、本当に終わるのか?という状況です。
長くても40時間ほどで終わっているという記事が多い中、さすがにおかしいかと思っています...
PCのスペックが高い訳ではないからなのでしょうか?

(全文ではなく、571個のテキストファイルのうち1個だけで試しにモデル作成を行った際は、最後まできちんと出来ました。その時、EPOCHが1だけではなく3くらいまでいっていたので、とてつもない時間がかかるのではないかと思って不安です。)

【環境】
Windows10
Python3.8
gensim
cython(早くなると聞いたので)
(WSLとしてUbuntuを入れて、neologd辞書を入れました。Windows上にコピーしてそれを元に分かち書きをした、テキストデータ(5.5GB)を使っています。)

【知りたいこと】
①このまま1ヶ月とか放置すれば多分完成はするのでしょうが、なんとか早める方法はないでしょうか?
②Google colaboratoryを利用しても、モデル作成は可能でしょうか?PCの性能に依存しなければ早くなるかと思いまして...
③そもそも、EPOCHとはなんなのでしょうか?学習の回数という認識であっていますか?

長い文章になってしまい申し訳ないのですが、回答よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2019/11/09 11:08

パソコンのスペックを追記してください。
pinedesunoyoo

2019/11/09 15:56

機種はNECのLAVIEでNS150/Cです。 CPU...インテル® Celeron® プロセッサー 3215U 動作周波数...1.70GHz RAM...4GB コア数/スレッド数...2コア/2スレッド キャッシュメモリ...2MB(3次キャッシュ) このような感じです。コア数/スレッド数が他と比べて低いかなとは思っています。 http://nec-lavie.jp/navigate/products/pc/153q/09/lavie/ns/spec/index02.html
guest

回答1

0

ベストアンサー

機種はNECのLAVIEでNS150/Cです。

CPU...インテル® Celeron® プロセッサー 3215U
動作周波数...1.70GHz
RAM...4GB
コア数/スレッド数...2コア/2スレッド
キャッシュメモリ...2MB(3次キャッシュ)

このような感じです。コア数/スレッド数が他と比べて低いかなとは思っています。
http://nec-lavie.jp/navigate/products/pc/153q/09/lavie/ns/spec/index02.html

(質問への追記・修正の依頼より引用)

率直に言うと、そのスペックではきついです。Celeronでやっている記事は、実際まずないでしょう。
(CPUなら、昨今の基準で「普通のノートPC向け」のi5でもそのCPUの5倍くらいの演算能力はあるでしょう)

Google colaboratoryのCPUは私の記憶が正しければさほど強力ではありませんが、それでもだいぶマシだと思います。そちらの方がおすすめできます。

wikipediaで学習させるのであれば、学習済みモデルの配布もあちこちでされているので、そもそも自分で学習させる必要性もさほどないともいえます。

投稿2019/11/10 18:17

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pinedesunoyoo

2019/11/12 04:49

家電量販店で4年前に購入したものですので、やはりスペックの問題ですよね... 配布されている学習済みモデルは既に使用したことがあります。そのうえで、Wikipediaからのオリジナルモデル(オプションの指定など)を作ってみたいと思い、今回実行してみました。 参考になる回答、ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問