回答編集履歴

補足

2018/07/19 20:20

投稿

umyu

スコア5846

test CHANGED Viewed

@@ -61,3 +61,299 @@
 あと適度に関数分割されることをお勧め致します。
+---
+> 「udic_encをutf-8-sigに」したのは、簡略辞書のdict_simple_utf8.csvと、encodingを一緒にしなくてはならなかったからでしょうか。
+はい、そうです。
+> 関数化に関して
+関数の分け方は一つの纏まり「入力→加工→出力」この形を一つとして分けると良いです。
+質問文のコードが行っていることは、
+0. pandasを使って、csvの内容を読み取り。
+0. janome用のカスタム辞書を作成。
+0. 1で読み取った内容に対して、janomeで形態解析。
+0. エクセル作成
+この4つの処理です。以下は書き換えたソースコードです、ご参考まで。
+```Python
+# -*- coding: utf-8 -*-
+import pandas as pd
+import numpy as np
+import math
+import re
+import xlrd
+import xlsxwriter
+from collections import Counter
+from itertools import chain
+from janome.tokenizer import Tokenizer
+import os
+import csv
+def create_user_dic_file(file_name: str='dict_simple_utf8.csv', encoding: str='utf-8-sig'):
+    """
+    janomeのカスタム辞書を作成
+    :param file_name 出力辞書ファイル名 csv形式
+    :param encoding ファイルのエンコーディング形式
+    ## Create User dictionary in UTF-8
+    # http://akiyoko.hatenablog.jp/entry/2017/12/09/010411
+    """
+    rows = [['展示会', 'カスタム名詞', 'テンジカイ'], ['中国市場', 'カスタム名詞', 'チュウゴクシジョウ'], ['可能性', 'カスタム名詞', 'カノウセイ']]
+    with open(file_name, 'w', newline='', encoding=encoding) as f:
+        w = csv.writer(f)
+        w.writerows(rows)
+def read_data(file_name: str, encoding: str='utf-8'):
+    """
+    :param file_name 入力ファイル csv形式
+    :param encoding ファイルのエンコーディング形式
+    """
+    # ※ openはencodingオプションでエンコード指定を行えるためcodecsを使用しないように変更
+    with open(file_name, "r", encoding=encoding) as file:
+        df = pd.read_csv(file, index_col=0)
+    ## 行drop
+    df.dropna(how='any', inplace=True)
+    # how='any'：一つでもNaN(Not a Number)がある行/列(,axis=1)をdrop　なお、how='all'は全てがNaNをdrop
+    # inplace=True：元のdfが変更される。
+    ## 昇順ソート
+    df.sort_index(inplace=True)  # axis=1：列方向にソート　ascending=False：降順でソート　by='列名'：その列内の値がソート基準になる
+    for i in range(len(df.index)):
+        # ※ yieldを使う
+        yield df.iat[i, 0]  # .iat[行番号, 列番号]　なお、.at['行ラベル', '列ラベル']も可能
+def parse(file_name: str):
+    """
+    :param file_name 入力ファイル csv形式
+    """
+    ## User dictionary
+    t = Tokenizer(r"dict_simple_utf8.csv", udic_type="simpledic", udic_enc="utf-8-sig")  # Tokenizer初期化
+    data = []
+    each_data = []
+    c = 0
+    for value in read_data(file_name):
+        for token in t.tokenize(value):
+            partOfSpeech = token.part_of_speech.split(',')[0]  # .part_of_speech.split(',')[0]：品詞
+            # なお、[1]~[3]は品詞細分類1~3
+            # その他、.infl_type：活用型、.infl_form：活用形、.base_form：原形、.reading：読み、.phonetic：発音
+            if partOfSpeech == u'名詞':  # 名詞を抽出する
+                each_data.append(token.surface)  # .surface：表層形（tokenそのもの）
+        data.append(each_data)
+        each_data = []
+        c += 1
+        if c == 2:
+            break
+    return data
+def create_excel(file_name: str, data=None):
+    """
+    エクセル作成
+    :param file_name 出力ファイル名
+    :data
+    """
+    from contextlib import closing
+    # ※ contextlib#closingを使用
+    # ファイル作成
+    with closing(xlsxwriter.Workbook(file_name)) as output_Exl:
+        # シート作成
+        output_sht = output_Exl.add_worksheet('tokens')
+        for row in range(len(data)):
+            for i in range(len(data[row])):
+                output_sht.write(row, i, data[row][i])  # (行, 列, 追加するデータ)
+        ##data（リストのリスト）内のすべてのtokensを同じリストに格納
+        # print(chain.from_iterable(data)) #<itertools.chain object at 0x000001B42F87D748>
+        chain_data = list(chain.from_iterable(data))  # chain(.from_iterable)()：iterableなオブジェクトを一つのオブジェクトにまとめる
+        # http://coolpythontips.blogspot.com/2016/02/itertoolschain.html
+        c = Counter(chain_data)  # Counterは、keyに要素、valueに出現回数の、辞書型のサブクラス
+        result_ranking = c.most_common(100)  # (要素, 出現回数)という形のタプルを出現回数が多い順に並べたリストを返す。引数にnを入力すると、上位n位までを対象にする。
+        # https://note.nkmk.me/python-collections-counter/
+        ranking = output_Exl.add_worksheet('count')
+        for row in range(len(result_ranking)):
+            for i in range(len(result_ranking[row])):
+                ranking.write(row, i, result_ranking[row][i])
+def parse_args():
+    """
+        コマンドライン引数の解析
+    """
+    input_file = r"./input_csv.csv"
+    from argparse import ArgumentParser
+    parser = ArgumentParser()
+    parser.add_argument('input_file', metavar=None, nargs='?', default=input_file)
+    return parser.parse_args()
+def main():
+    args = parse_args()
+    create_user_dic_file()
+    data = parse(args.input_file)
+    create_excel(r"result_pd\morphology.xlsx", data)
+if __name__ == '__main__':
+    main()
+```

追記

2018/07/19 20:20

投稿

umyu

スコア5846

test CHANGED Viewed

@@ -46,10 +46,18 @@
 ```
+○出力結果
+```
+展示会	カスタム名詞,*,*,*,*,*,展示会,テンジカイ,テンジカイ
+```
 ◇参考情報
 [tests#user_simpledic.csv](https://raw.githubusercontent.com/mocobeta/janome/master/tests/user_simpledic.csv)
-あと適度に関数化されることをお勧め致します。
+あと適度に関数分割されることをお勧め致します。