前提・実現したいこと
私はサイト上のテキストの中にどのような単語が多く含まれ出現しているのか調べるプログラムを現在組んでいます。その中で、形態素解析を先にしたプログラムを作り、その部分だけを取り除きたいと思い試行錯誤したのですがなかなかうまくいきません。mecab処理のところをどのように消せばいいのか教えていただきたいです。
該当のソースコード
Python
1# coding: utf-8 2 3import sys 4import json 5import MeCab 6import urllib.request, urllib.error, urllib.parse 7from collections import defaultdict 8from operator import itemgetter 9from bs4 import BeautifulSoup 10from bs4 import NavigableString 11from bs4 import Comment, Declaration 12 13class Ngram(): 14 15 def __init__(self, N=3): 16 self.N = N 17 self.tagger = MeCab.Tagger("-Owakati") 18 19 def get(self, text, ngram=None): 20 seq = self.tagger.parse(text).split() 21 22 if ngram is None: 23 ngram = [defaultdict(int) for x in range((self.N + 1))] 24 ngram[0] = None 25 26 for i in range(len(seq)): 27 for n in range(1, self.N + 1): 28 idx = i - n + 1 # check ngram is valid range 29 if idx >= 0: 30 key_words = [] 31 for j in range(idx, i+1): 32 key_words.append(seq[j]) 33 key = ' '.join(key_words) 34 ngram[n][key] += 1 35 36 return ngram 37 38 39class HTMLParser(): 40 41 def get(self, url): 42 try: 43 c = urllib.request.urlopen(url) 44 except: 45 print("Could not open %s" % url) 46 return "" 47 48 soup = BeautifulSoup(c.read(), "lxml") 49 text = '\n'.join(self.__getNavigableStrings(soup)) 50 return text 51 52 def __getNavigableStrings(self, soup): 53 if isinstance(soup, NavigableString): 54 if type(soup) not in (Comment, Declaration) and soup.strip(): 55 yield soup 56 elif soup.name not in ('script', 'style'): 57 for c in soup.contents: 58 for g in self.__getNavigableStrings(c): 59 yield g 60 61 62if __name__ == "__main__": 63 64 f = open("urls.json", "r") 65 urls = json.load(f) 66 f.close() 67 print("Count of urls : " + str(len(urls))) 68 69 N = 10 70 hp = HTMLParser() 71 ng = Ngram(N) 72 73 ngram = None 74 for url in urls: 75 text = hp.get(url) 76 ngram = ng.get(text, ngram) 77 78 for n in range(1, (N + 1)): 79 f = open('outputs/{:02d}.tsv'.format(n), 'w') 80 out = "" 81 for k, v in sorted(list(ngram[n].items()), key=itemgetter(1), reverse=True): 82 out += "{}\t{}\n".format(k, v) 83 f.write(out) 84 f.close() 85
###mecab処理の部分をコメントアウトした際のエラー文
Count of urls : 1
Traceback (most recent call last):
File "ngram.py", line 76, in <module>
ngram = ng.get(text, ngram)
File "ngram.py", line 20, in get
seq = self.parse(text).split()
AttributeError: 'Ngram' object has no attribute 'parse'
###試したこと
mecabの部分をコメントアウトしたりしたのですがうまくいかなかったです。
"形態素解析を先にしたプログラムを作り、その部分だけを取り除きたい"の意味が分かりません。このコードがどういう風にあなたの意図と違うのか分かりません。"mecab処理のところをどのように消せばいいのか"でなぜ消したいのか分かりません。動かないソースではないので仕様を変えたいのだろう、ということだけはかろうじて推測できますがそれまでです。
先にmecab処理をしてしまうと単語として区切られる処理が先にされてしまうので、どのような単語が出現するのかを確認したい目的があるためその処理がいらないことに気づきました。mecabの部分をコメントアウトするとうまくいかないためこのような質問をさせていただいております。コメントアウトした場合のエラー文を追記します。
単語を区切らずにどうやって出現している単語が確認できるのか説明ください。文字ngramで十分ということですか?
例えば、"私はサイト上のテキストの中にどのような単語が多く含まれ出現しているのか調べるプログラムを現在組んでいます。"という文を処理した時の欲しい結果はなんですか?
私、は、サ、イ...のように1文字単位でngram処理をしたいです。mecab処理をしてしまうと私、は、サイトのようになってしまうところを修正したいです。

回答2件
あなたの回答
tips
プレビュー