ngramの実装について mecab部分の除去

前提・実現したいこと

私はサイト上のテキストの中にどのような単語が多く含まれ出現しているのか調べるプログラムを現在組んでいます。その中で、形態素解析を先にしたプログラムを作り、その部分だけを取り除きたいと思い試行錯誤したのですがなかなかうまくいきません。mecab処理のところをどのように消せばいいのか教えていただきたいです。

該当のソースコード

Python
1# coding: utf-8
2
3import sys
4import json
5import MeCab
6import urllib.request, urllib.error, urllib.parse
7from collections import defaultdict
8from operator import itemgetter
9from bs4 import BeautifulSoup
10from bs4 import NavigableString
11from bs4 import Comment, Declaration
12
13class Ngram():
14    
15    def __init__(self, N=3):
16        self.N = N
17        self.tagger = MeCab.Tagger("-Owakati")
18    
19    def get(self, text, ngram=None):
20        seq = self.tagger.parse(text).split()
21
22        if ngram is None:
23            ngram = [defaultdict(int) for x in range((self.N + 1))]
24            ngram[0] = None
25        
26        for i in range(len(seq)):
27            for n in range(1, self.N + 1):
28                idx = i - n + 1  # check ngram is valid range
29                if idx >= 0:
30                    key_words = []
31                    for j in range(idx, i+1):
32                        key_words.append(seq[j])
33                    key = ' '.join(key_words)
34                    ngram[n][key] += 1
35        
36        return ngram
37
38
39class HTMLParser():
40    
41    def get(self, url):
42        try:
43            c = urllib.request.urlopen(url)
44        except:
45            print("Could not open %s" % url)
46            return ""
47        
48        soup = BeautifulSoup(c.read(), "lxml")
49        text = '\n'.join(self.__getNavigableStrings(soup))
50        return text
51    
52    def __getNavigableStrings(self, soup):
53        if isinstance(soup, NavigableString):
54            if type(soup) not in (Comment, Declaration) and soup.strip():
55                yield soup
56        elif soup.name not in ('script', 'style'):
57            for c in soup.contents:
58                for g in self.__getNavigableStrings(c):
59                    yield g
60
61
62if __name__ == "__main__":
63    
64    f = open("urls.json", "r")
65    urls = json.load(f)
66    f.close()
67    print("Count of urls : " + str(len(urls)))
68    
69    N = 10
70    hp = HTMLParser()
71    ng = Ngram(N)
72    
73    ngram = None
74    for url in urls:
75        text = hp.get(url)
76        ngram = ng.get(text, ngram)
77    
78    for n in range(1, (N + 1)):
79        f = open('outputs/{:02d}.tsv'.format(n), 'w')
80        out = ""
81        for k, v in sorted(list(ngram[n].items()), key=itemgetter(1), reverse=True):
82            out += "{}\t{}\n".format(k, v)
83        f.write(out)
84        f.close()
85

###mecab処理の部分をコメントアウトした際のエラー文

Count of urls : 1
Traceback (most recent call last):
File "ngram.py", line 76, in <module>
ngram = ng.get(text, ngram)
File "ngram.py", line 20, in get
seq = self.parse(text).split()
AttributeError: 'Ngram' object has no attribute 'parse'

###試したこと
mecabの部分をコメントアウトしたりしたのですがうまくいかなかったです。

quickquip

2018/06/14 05:04

"形態素解析を先にしたプログラムを作り、その部分だけを取り除きたい"の意味が分かりません。このコードがどういう風にあなたの意図と違うのか分かりません。"mecab処理のところをどのように消せばいいのか"でなぜ消したいのか分かりません。動かないソースではないので仕様を変えたいのだろう、ということだけはかろうじて推測できますがそれまでです。

rrrrrrrry

2018/06/14 05:11

先にmecab処理をしてしまうと単語として区切られる処理が先にされてしまうので、どのような単語が出現するのかを確認したい目的があるためその処理がいらないことに気づきました。mecabの部分をコメントアウトするとうまくいかないためこのような質問をさせていただいております。コメントアウトした場合のエラー文を追記します。

quickquip

2018/06/14 05:14

単語を区切らずにどうやって出現している単語が確認できるのか説明ください。文字ngramで十分ということですか?

quickquip

2018/06/14 05:33

例えば、"私はサイト上のテキストの中にどのような単語が多く含まれ出現しているのか調べるプログラムを現在組んでいます。"という文を処理した時の欲しい結果はなんですか?

rrrrrrrry

2018/06/14 05:40

私、は、サ、イ...のように1文字単位でngram処理をしたいです。mecab処理をしてしまうと私、は、サイトのようになってしまうところを修正したいです。

行動規範の内容に同意します

回答2件

ほとんど何もしなくても文字n-gramは作れますね。

python
1import MeCab
2from collections import defaultdict
3from pprint import pprint
4
5class Ngram():
6    def __init__(self, N=3):
7        self.N = N
8        self.tagger = MeCab.Tagger("-Owakati")
9
10    def get(self, seq, ngram=None):  # 引数名を変更
11        #  seq = self.tagger.parse(text).split()  # コメントアウト
12
13        if ngram is None:
14            ngram = [defaultdict(int) for x in range((self.N + 1))]
15            ngram[0] = None
16
17        for i in range(len(seq)):
18            for n in range(1, self.N + 1):
19                idx = i - n + 1  # check ngram is valid range
20                if idx >= 0:
21                    key_words = []
22                    for j in range(idx, i+1):
23                        key_words.append(seq[j])
24                    key = ' '.join(key_words)
25                    ngram[n][key] += 1
26
27        return ngram
28
29ngram = Ngram()
30pprint(ngram.get("吾輩は猫である。"))
31""" =>
32[None,
33 defaultdict(<class 'int'>,
34             {'。': 1,
35              'あ': 1,
36              'で': 1,
37              'は': 1,
38              'る': 1,
39              '吾': 1,
40              '猫': 1,
41              '輩': 1}),
42 defaultdict(<class 'int'>,
43             {'あ る': 1,
44              'で あ': 1,
45              'は 猫': 1,
46              'る 。': 1,
47              '吾 輩': 1,
48              '猫 で': 1,
49              '輩 は': 1}),
50 defaultdict(<class 'int'>,
51             {'あ る 。': 1,
52              'で あ る': 1,
53              'は 猫 で': 1,
54              '吾 輩 は': 1,
55              '猫 で あ': 1,
56              '輩 は 猫': 1})]
57"""

投稿2018/06/14 07:01

hayataka2049

総合スコア30939

ベストアンサー

最低限だと

    def get(self, text, ngram=None):
        seq = self.tagger.parse(text).split()

↓

    def get(self, seq, ngram=None):

で。

投稿2018/06/14 07:01

quickquip

総合スコア11357

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.29%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する