質問編集履歴

質問をわかりやすくしました．

2022/07/05 11:26

投稿

studyprg

スコア57

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -3,48 +3,52 @@
 自然言語処理について勉強しています。
 Wikipediaのxmlデータからテキストを抜き出して処理をしようと思ってます。
 抜き出したテキストは用意できましたが，テキスト中にリンクやタグ，数字などがあるので前処理としてテキストクリーニングしてテキストから日本語の名詞部分のみを抽出したいのですが，指定したい正規表現がわからなくて困ってます．
-調査時にMeCabに通すときに日本語文字列の名刺だけピックアップできればいいのではないかなとも思いました．
+（＊調査時にMeCabに通すときに日本語文字列の名刺だけピックアップできればいいのではないかなとも思いました．）
-取り除きたいものは(re.subで’’に置き換えたい)
+**取り除きたいものは(re.subで’’に置き換えたい)
 0. tag(<title>,<id>,<text>など)
 1.http〜などのリンク部分（英語も全て）
 2.無駄なスペース
+3.数字(5や1994など)**
 プログラミングはあまり得意ではないです。
+日本語の名詞だけを抜き出した後，重複単語を除いた単語リストを作成し，word2vecで単語間の類似度を算出したリストを生成したいです．
 実行環境
 ---
 **Macbook pro(2017)
 OS:11.6.7**
-以下にソースコードを貼り付けます。
+以下に現在のソースコードを貼り付けます。
-```get_text_byte.txt
+```idf_test.py
 # -*- coding: utf-8 -*-
 import MeCab
+from tqdm import tqdm
-＃from gensim.models.doc2vec import Doc2Vec
+from gensim.models.doc2vec import Doc2Vec
 import pandas as pd
 import math
 import re
 print("モデルロード")
 model = Doc2Vec.load("jawiki.doc2vec.dbow300d.model")
 myfile = open('history_0text.txt')
-# 以下に抽出したい文text
+# 以下に抽出したい文textここをファイルを読み込むように変更
 text = myfile.read()
 m = MeCab.Tagger("-Ochasen")
 mp = MeCab.Tagger()
 # m.parse("")
 print("処理開始")
- removeW = re.compile(
+removeW = re.compile(
-    '[!"#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`{|}~「」〔〕“”〈〉『』【】＆＊・（）＄＃＠。、？！｀＋￥％　]')＃とりあえず記号の除外
+    '[!"#$%&\'\\\\()*+,-./:;<=>?@[\\]^_`{|}~「」〔〕“”〈〉『』【】＆＊・（）＄＃＠。、？！｀＋￥％　]')
 text = removeW.sub('', text)
-print("text clean complite!")
+print("text clesn complite!")
 # print(text)
 # f=open('simw_d2v_2.txt',"w")
 #paragraf =mp.parse(text).split('\n')
 nouns = [line.split()[0] for line in m.parse(text).splitlines()
-         if "名詞" in line.split()[-1]]  # ここをへんこうする？
+         if "名詞" in line.split()[-1]]  # ここをへんこうする
 for str in nouns:
     str.split()
@@ -52,7 +56,7 @@
 # print(nouns)#中身の確認
 a = 0
 l_size = len(nouns)
+b = 0
 simd = {}
 simt = []
 wsimx = {}
@@ -65,26 +69,28 @@
 for x in nouns:
     if not x in nouns2:
         nouns2.append(x)
-        l_size2 = len(nouns2)
+l_size2 = len(nouns2)
 # print(nouns2)
 # print(l_size2,"単語")
 listn = [[None]*l_size2 for i in range(l_size2)]
 # 辞書の作成key=nouns2,value=none
-l_size3 = len(listn)
 for x in nouns2:
     simd.setdefault(x, [])
-# 処理　本体（やりたいことの本体なので今回は関係ない）
+# 処理　本体
 print("計算中")
 for a in range(0, l_size2):
+    l_size2 = len(nouns2)
+    print(l_size2)
     w1 = nouns2[a]
     # simw=[for i in range(l_size2)]
-    print("単語：", w1, "\t", a+1, "回目")
+    print("単語：（", w1,")", a+1, "回目")
-    b = 0
     # simw[a].append(w1)
     for b in range(0, l_size2):
+        print(b)
         w2 = nouns2[b]
         if w2 not in model.docvecs:
             eject.append(w2)
@@ -133,55 +139,9 @@
 print("単語からid辞書", wsimx)
 print("idから出現個数リスト(値は0）", wsimid)
-print("tf作成")
-for y in nouns:
-    c = nouns.count(y)
-    xid = wsimx.get(y)
-    print(y, ":id=", xid, "出現回数:", c)
-    samw += c
-    wsimid[xid] = wsimid[xid]+c
-print("idから出現個数リスト(更新版)", wsimid)
-list_tf = []
-for tfx in wsimx.keys():
-    yid = wsimx[tfx]
-    tf = wsimid[yid]/samw
-    list_tf.append(tf)
-    print(tfx, "のtf：", tf)
-# print(list_tf)
-print("idf作成")
-list_idf = []
-for tfx in wsimx.keys():
-    yid = wsimx[tfx]
-    idf = 1/wsimid[yid]
-    idf = math.log(idf)
-    list_idf.append(idf)
-    print(tfx, "のidf：", idf)
-tf_size = len(list_tf)
-print("tfxidf作成")
-list_tfidf = []
-for v in range(tf_size):
-    tfidf = list_tf[v]*list_idf[v]
-    list_tfidf.append(tfidf)
-    #listv = simd.get(v)
-    # print(v,listv)
-    print(v, ":", tfidf)
-"""
-手付かず
-#print(paragraf)
-"""
 ```
 欲しい出力の一例です。これから数字も除外したいです。

Python