質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

501閲覧

ngram カウントの実装

rrrrrrrry

総合スコア20

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/09/12 07:09

編集2018/10/10 02:06

前提・実現したいこと

[実現したいこと]作成したngramのプログラムについて出現回数の実装
ngramした後の出現回数がどのようになっているのか確認できるようなプログラムをどう書けばいいのかご教授いただきたいです。このソースは広いもので、文字コードの変換とpython2のコードをpython3に変換しました。

該当のソースコード

python

1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3import sys 4import subprocess as cmd 5# テキスト -> 単語(形態素)集合 6def text2bow(obj,mod): 7 8 # input: ファイルの場合はmod="file", input: 文字列の場合はmod="str" 9 if mod == "file": 10 morp = cmd.getstatusoutput("cat " + obj + " | mecab -Owakati") 11 elif mod == "str": 12 morp = cmd.getstatusoutput("echo " + obj.encode('utf-8') + " | mecab -Owakati") 13 else: 14 print("error!!") 15 sys.exit(0) 16 17 words = morp[1] 18 words = words.replace('\n','') 19 bow = words.split(' ') 20 return bow 21# N-gramの生成 22def gen_Ngram(words,N): 23 24 ngram = [] 25 26 for i in range(len(words)): 27 cw = "" 28 29 if i >= N-1: 30 for j in reversed(list(range(N))): 31 cw += words[i-j] 32 else: 33 continue 34 35 ngram.append(cw) 36 37 return ngram 38# 出力 39def output_Ngram(ngram): 40 41 for i in range(len(ngram)): 42 print(ngram[i]) 43def main(): 44 45 argvs = sys.argv 46 47 # input: ファイルの場合 48 bow = text2bow(argvs[2],mod="file") 49 50 # input: 文字列の場合 51 #bow = text2bow(obj=u"これはN-gramを生成するプログラムです.",mod="str") 52 53 ngram = gen_Ngram(bow,int(argvs[1])) 54 55 output_Ngram(ngram) 56if __name__ == "__main__": 57 58 main()

参考文献

https://qiita.com/takumi_TKHS/items/942492b72aaf7b6a6213

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問