質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

解決済

ngramの実装について mecab部分の除去

rrrrrrrry
rrrrrrrry

総合スコア20

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

2回答

0評価

0クリップ

1203閲覧

投稿2018/06/14 03:42

編集2018/06/14 05:13

前提・実現したいこと

私はサイト上のテキストの中にどのような単語が多く含まれ出現しているのか調べるプログラムを現在組んでいます。その中で、形態素解析を先にしたプログラムを作り、その部分だけを取り除きたいと思い試行錯誤したのですがなかなかうまくいきません。mecab処理のところをどのように消せばいいのか教えていただきたいです。

該当のソースコード

Python

# coding: utf-8 import sys import json import MeCab import urllib.request, urllib.error, urllib.parse from collections import defaultdict from operator import itemgetter from bs4 import BeautifulSoup from bs4 import NavigableString from bs4 import Comment, Declaration class Ngram(): def __init__(self, N=3): self.N = N self.tagger = MeCab.Tagger("-Owakati") def get(self, text, ngram=None): seq = self.tagger.parse(text).split() if ngram is None: ngram = [defaultdict(int) for x in range((self.N + 1))] ngram[0] = None for i in range(len(seq)): for n in range(1, self.N + 1): idx = i - n + 1 # check ngram is valid range if idx >= 0: key_words = [] for j in range(idx, i+1): key_words.append(seq[j]) key = ' '.join(key_words) ngram[n][key] += 1 return ngram class HTMLParser(): def get(self, url): try: c = urllib.request.urlopen(url) except: print("Could not open %s" % url) return "" soup = BeautifulSoup(c.read(), "lxml") text = '\n'.join(self.__getNavigableStrings(soup)) return text def __getNavigableStrings(self, soup): if isinstance(soup, NavigableString): if type(soup) not in (Comment, Declaration) and soup.strip(): yield soup elif soup.name not in ('script', 'style'): for c in soup.contents: for g in self.__getNavigableStrings(c): yield g if __name__ == "__main__": f = open("urls.json", "r") urls = json.load(f) f.close() print("Count of urls : " + str(len(urls))) N = 10 hp = HTMLParser() ng = Ngram(N) ngram = None for url in urls: text = hp.get(url) ngram = ng.get(text, ngram) for n in range(1, (N + 1)): f = open('outputs/{:02d}.tsv'.format(n), 'w') out = "" for k, v in sorted(list(ngram[n].items()), key=itemgetter(1), reverse=True): out += "{}\t{}\n".format(k, v) f.write(out) f.close()

###mecab処理の部分をコメントアウトした際のエラー文

Count of urls : 1
Traceback (most recent call last):
File "ngram.py", line 76, in <module>
ngram = ng.get(text, ngram)
File "ngram.py", line 20, in get
seq = self.parse(text).split()
AttributeError: 'Ngram' object has no attribute 'parse'

###試したこと
mecabの部分をコメントアウトしたりしたのですがうまくいかなかったです。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

quickquip

2018/06/14 05:04

"形態素解析を先にしたプログラムを作り、その部分だけを取り除きたい"の意味が分かりません。このコードがどういう風にあなたの意図と違うのか分かりません。"mecab処理のところをどのように消せばいいのか"でなぜ消したいのか分かりません。動かないソースではないので仕様を変えたいのだろう、ということだけはかろうじて推測できますがそれまでです。
rrrrrrrry

2018/06/14 05:11

先にmecab処理をしてしまうと単語として区切られる処理が先にされてしまうので、どのような単語が出現するのかを確認したい目的があるためその処理がいらないことに気づきました。mecabの部分をコメントアウトするとうまくいかないためこのような質問をさせていただいております。コメントアウトした場合のエラー文を追記します。
quickquip

2018/06/14 05:14

単語を区切らずにどうやって出現している単語が確認できるのか説明ください。文字ngramで十分ということですか?
quickquip

2018/06/14 05:33

例えば、"私はサイト上のテキストの中にどのような単語が多く含まれ出現しているのか調べるプログラムを現在組んでいます。"という文を処理した時の欲しい結果はなんですか?
rrrrrrrry

2018/06/14 05:40

私、は、サ、イ...のように1文字単位でngram処理をしたいです。mecab処理をしてしまうと私、は、サイトのようになってしまうところを修正したいです。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。