前提・実現したいこと
[実現したいこと]作成したngramのプログラムについて出現回数の実装
ngramした後の出現回数がどのようになっているのか確認できるようなプログラムをどう書けばいいのかご教授いただきたいです。このソースは広いもので、文字コードの変換とpython2のコードをpython3に変換しました。
該当のソースコード
python
1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3import sys 4import subprocess as cmd 5# テキスト -> 単語(形態素)集合 6def text2bow(obj,mod): 7 8 # input: ファイルの場合はmod="file", input: 文字列の場合はmod="str" 9 if mod == "file": 10 morp = cmd.getstatusoutput("cat " + obj + " | mecab -Owakati") 11 elif mod == "str": 12 morp = cmd.getstatusoutput("echo " + obj.encode('utf-8') + " | mecab -Owakati") 13 else: 14 print("error!!") 15 sys.exit(0) 16 17 words = morp[1] 18 words = words.replace('\n','') 19 bow = words.split(' ') 20 return bow 21# N-gramの生成 22def gen_Ngram(words,N): 23 24 ngram = [] 25 26 for i in range(len(words)): 27 cw = "" 28 29 if i >= N-1: 30 for j in reversed(list(range(N))): 31 cw += words[i-j] 32 else: 33 continue 34 35 ngram.append(cw) 36 37 return ngram 38# 出力 39def output_Ngram(ngram): 40 41 for i in range(len(ngram)): 42 print(ngram[i]) 43def main(): 44 45 argvs = sys.argv 46 47 # input: ファイルの場合 48 bow = text2bow(argvs[2],mod="file") 49 50 # input: 文字列の場合 51 #bow = text2bow(obj=u"これはN-gramを生成するプログラムです.",mod="str") 52 53 ngram = gen_Ngram(bow,int(argvs[1])) 54 55 output_Ngram(ngram) 56if __name__ == "__main__": 57 58 main()
参考文献
あなたの回答
tips
プレビュー