質問編集履歴

タイトルの時期と方法について記載変更しました。

2020/11/15 22:22

投稿

dendenmushi

スコア98

test CHANGED Viewed

	@@ -1 +1 @@
1	- mecabの単語辞書追加をしベクトル表現を利用したい。(2020~~/11~~）
1	+ mecabの単語辞書追加をしベクトル表現を利用したい。(2020年Google Colab版）

test CHANGED Viewed

File without changes

すみません。質問文が重複していましたので整理しました。

2020/11/15 22:22

投稿

dendenmushi

スコア98

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -20,7 +20,15 @@
-### 前提状態 ###
+### 前提状態
+**~①追加辞書の用意~**
 Google Colab
@@ -84,7 +92,9 @@
 ```
-このpythonコードによって辞書別に結果が違うことを確認。
+このpythonコードによって辞書別に結果が違うことを確認しました。
 例）
@@ -92,6 +102,20 @@
 Neologd辞書⇒パウエル国務長官
+![イメージ説明](22c11367c8089ff99c584d99b542684e.jpeg)
+つまり、追加辞書側Neologdにはパウエル国務長官というワードがあるため全体ワードとして認識している。
+**~②Gensimのword2vecモデルの準備~**
 [word2vec データ参考サイト
@@ -120,12 +144,8 @@
 !git submodule init
 !git submodule update
 cd content/
 ```
@@ -148,17 +168,59 @@
 ```
+### 現状
+![イメージ説明](1b164f073d7bb3c76affb7d844fddfed.jpeg)
 ### 理想
 Neologd辞書でお花見大好き人間が「お花見　大好き　人間」
-単語登録をすると「お花見大好き人間」になって欲しい
+単語登録をすると「お花見大好き人間」として表示になって欲しい。
+結果的にはそれを単語ベクトルとして使用していきたい。
-新しい単語
+### 新しい単語の登録方法
+①CSVの作成
+![イメージ説明](2306e850f4876d3604c4a23c3a188c3e.jpeg)
+utf-8で保存
+②Google ColabにDrag&Drop
+![イメージ説明](ab36538550674ec6c20e785ea251a6a4.jpeg)
+③CSVのコンパイル
+参考サイトは以下。
+[方法1：Mecabの辞書をカスタマイズする](http://www.mwsoft.jp/programming/nlp/mecab_dictionary_customize.html)
+![イメージ説明](7acc0d4d5bf699d8dad293241e0dcd98.jpeg)
 ### 発生している問題・エラーメッセージ
@@ -166,314 +228,52 @@
 ```
-エラーメッセージ
+no job control
-```
+```
+他に試した方法として、そもそも初めのコンパイル時にCSVの中に入れてしまう方法を行ってみようと思いました。
+方法2：
+mecab-ipadic-neologdのbinの中にinstall-mecab-ipadic-neologdがあり、そのファイルにreadコマンドで実行中にエンターキーを促し一定期間実行が止まるようにし(下画像の赤数字1と赤数字2）、buidフォルダ配下のに追加ワードを書いたCSVを配置（下の画像の赤数字3）
+![イメージ説明](3ade49732c3a9a3f78075cf2a3d70f5d.jpeg)
+Drag&Drop後のcsvの様子。（下の画像）
+![イメージ説明](b35bf6b88942316a662cdcbcbe4d46af.jpeg)
+結果、
+![イメージ説明](8a68e9df5a778c03a5c2bbc450e6386a.jpeg)
-### 該当のソースコード
+登録されていませんでした。
-```ここに言語名を入力
+CSVをbuild配下のmecab-ipadic-2.7.0-20070801-neologd-20200910に置くことで、一緒にコンパイル処理をしてくれるとサイトで記載ありまして実行してみましたが。以下の通りでした。
-ソースコード
-```
-### 試したこと
-ここに問題に対して試したことを記載してください。
+![イメージ説明](8c15a047a50109c2f0537dc4943a9139.jpeg)
+個別に追加する方法や、コンパイル時にCSVファイルを混入させる方法などいくつか試しましたが、どれもうまくいきませんでした。知見ある方どなたかアドバイス頂けないでしょうか。よろしくお願い致します。
 ### 補足情報（FW/ツールのバージョンなど）
-ここにより詳細な情報を記載してください。
-### 前提・実現したいこと
-mecabをGoogle Colabにて使用しています。
-通常辞書に加えてNeologd辞書を追加中です。
-新しい単語を追加し単語ベクトルとして利用したいです。
-### 参考サイト
-[Google Colab Mecab](https://qiita.com/pytry3g/items/897ae738b8fbd3ae7893)
-[辞書導入](https://qiita.com/Sak1361/items/47e9ec464ccc770cd65c)
-### 前提状態
-**~①追加辞書の用意~**
-Google Colab
-```linux
-!apt install aptitude
-!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
-!pip install mecab-python3==0.7
-!git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
-cd mecab-ipadic-neologd/
-!sudo ./bin/install-mecab-ipadic-neologd -n -a
-# 追加辞書の場所
-!echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
-```
-```python
-import MeCab
-wakati = MeCab.Tagger('-Owakati')    #分かち書き
-neo_wakati = MeCab.Tagger('-Owakati -d /usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd') #追加辞書を適用
-word = input("分かち書き：")
-wakati = wakati.parse(word).strip()
-neo_wakati = neo_wakati.parse(word).strip()
-print('通常辞書：' + wakati)
-print('追加辞書：' + neo_wakati)
-```
-このpythonコードによって辞書別に結果が違うことを確認しました。
-例）
-通常辞書⇒パウエル　国務長官
-Neologd辞書⇒パウエル国務長官
-![イメージ説明](22c11367c8089ff99c584d99b542684e.jpeg)
-つまり、追加辞書側Neologdにはパウエル国務長官というワードがあるため全体ワードとして認識している。
-**~②Gensimのword2vecモデルの準備~**
-[word2vec データ参考サイト
-](https://aial.shiroyagi.co.jp/2017/02/japanese-word2vec-model-builder/)
-[Gensimのモデルを取得](http://public.shiroyagi.s3.amazonaws.com/latest-ja-wyord2vec-gensim-model.zip)
-ここから一度開発PCのwindowsにダウンロードしzip解凍してから以下をGoogle ColabにDrag&Drop
-word2vec.gensim.model
-word2vec.gensim.model.syn1neg.npy
-word2vec.gensim.model.wv.syn0.npy
-```linux
-!git submodule init
-!git submodule update
-cd content/
-```
-```python
-from gensim.models.word2vec import Word2Vec
-model_path = 'word2vec.gensim.model'
-model = Word2Vec.load(model_path)
-model.wv['お花見大好き人間']
-```
-### 現状
-![イメージ説明](1b164f073d7bb3c76affb7d844fddfed.jpeg)
-### 理想
-Neologd辞書でお花見大好き人間が「お花見　大好き　人間」
-単語登録をすると「お花見大好き人間」として表示になって欲しい。
-結果的にはそれを単語ベクトルとして使用していきたい。
-### 新しい単語の登録方法
-①CSVの作成
-![イメージ説明](2306e850f4876d3604c4a23c3a188c3e.jpeg)
-utf-8で保存
-②Google ColabにDrag&Drop
-![イメージ説明](ab36538550674ec6c20e785ea251a6a4.jpeg)
-③CSVのコンパイル
-参考サイトは以下。
-[方法1：Mecabの辞書をカスタマイズする](http://www.mwsoft.jp/programming/nlp/mecab_dictionary_customize.html)
-![イメージ説明](7acc0d4d5bf699d8dad293241e0dcd98.jpeg)
-### 発生している問題・エラーメッセージ
-```
-no job control
-```
-他に試した方法として、そもそも初めのコンパイル時にCSVの中に入れてしまう方法を行ってみようと思いました。
-方法2：
-mecab-ipadic-neologdのbinの中にinstall-mecab-ipadic-neologdがあり、そのファイルにreadコマンドで実行中にエンターキーを促し一定期間実行が止まるようにし(下画像の赤数字1と赤数字2）、buidフォルダ配下のに追加ワードを書いたCSVを配置（下の画像の赤数字3）
-![イメージ説明](3ade49732c3a9a3f78075cf2a3d70f5d.jpeg)
-Drag&Drop後のcsvの様子。（下の画像）
-![イメージ説明](b35bf6b88942316a662cdcbcbe4d46af.jpeg)
-結果、
-![イメージ説明](8a68e9df5a778c03a5c2bbc450e6386a.jpeg)
-登録されていませんでした。
-CSVをbuild配下のmecab-ipadic-2.7.0-20070801-neologd-20200910に置くことで、一緒にコンパイル処理をしてくれるとサイトで記載ありまして実行してみましたが。以下の通りでした。
-![イメージ説明](8c15a047a50109c2f0537dc4943a9139.jpeg)
-個別に追加する方法や、コンパイル時にCSVファイルを混入させる方法などいくつか試しましたが、どれもうまくいきませんでした。知見ある方どなたかアドバイス頂けないでしょうか。よろしくお願い致します。
-### 補足情報（FW/ツールのバージョンなど）
 開発PCはwinodws10
 Google colabはLinux.