###やりたいこと
選択したテキストファイル内の文章をmecabを用いて形態素解析し、
品詞(名詞、動詞など)を絞り込みたいと考えています。
現在、テキストファイルの文章を形態素解析するところまでは実装ができたのですが、
品詞の絞り込み方を調べると長いコードしか見つからず、
どの部分で絞り込みが行われているのか分かりませんでした。
以下に実装途中のコードを記すのですが、私のコードの場合はどのように
実装するべきなのか、意見を頂きたいです。
実装途中のコード
# -*- coding: utf-8 -*- import numpy as np from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer import sys import MeCab #CountVectorizer():文書ごとの単語の出現頻度を取得 count = CountVectorizer() m = MeCab.Tagger ("-Ochasen") doc = input('select file(ex, ○○.txt):') f = open(doc, "r",encoding = "utf-8") text = f.read() f.close() """print(m.parse(text))""" #絞り込みの基準を設定 """level = float(input('set level(0.0 <= level <= 1.0):'))""" print('\n%s ↓\n' %doc)
コードには今回の質問とは無関係な部分があるのですが、
今後利用するものなので気にしないでください。
丸投げのような質問になってしまい申し訳ありません。
###実行環境
OS:ubuntu
言語:python3
###補足情報
参考にしようとしたサイト:
https://foolean.net/p/576
入力例:
text.txt
text.txtの中身:
コーヒーメーカー
植松眞人・作
私は知人との待ち合わせのために、どうしようもない喫茶店にいた。小さな傷が付きすぎて、曇りガラスのように見えるグラスに水をなみなみとつぐようなどうしようもない喫茶店の片隅で、どうしようもない男は、さらにどうしようもない話を続けていた。
・・・
絞り込みのルール:
形態素解析結果のうち、特定の品詞(今回は名詞と動詞)のみを抽出して表示
出力例:
コーヒー コーヒー コーヒー 名詞-一般
メーカー メーカー メーカー 名詞-一般
植松 ウエマツ 植松 名詞-固有名詞-人名-姓
眞人 マサト 眞人 名詞-固有名詞-人名-名
作 サク 作 名詞-一般
私 ワタシ 私 名詞-代名詞-一般
知人 チジン 知人 名詞-一般
待ち合わせ マチアワセ 待ち合わせ 名詞-一般
ため タメ ため 名詞-非自立-副詞可能
しよう シヨウ しよう 名詞-一般
喫茶店 キッサテン 喫茶店 名詞-一般
い イ いる 動詞-自立 一段 連用形
傷 キズ 傷 名詞-一般
付き ツキ 付く 動詞-自立 五段・カ行イ音便 連用形
すぎ スギ すぎる 動詞-非自立 一段 連用形
曇り クモリ 曇る 動詞-自立 五段・ラ行 連用形
ガラス ガラス ガラス 名詞-一般
の ノ の 助詞-連体化
よう ヨウ よう 名詞-非自立-助動詞語幹
に ニ に 助詞-副詞化
見える ミエル 見える 動詞-自立 一段 基本形
グラス グラス グラス 名詞-一般
水 ミズ 水 名詞-一般
つぐ ツグ つぐ 動詞-自立 五段・ガ行 基本形
よう ヨウ よう 名詞-非自立-助動詞語幹
しよう シヨウ しよう 名詞-一般
喫茶店 キッサテン 喫茶店 名詞-一般
片隅 カタスミ 片隅 名詞-一般
しよう シヨウ しよう 名詞-一般
男 オトコ 男 名詞-一般
しよう シヨウ しよう 名詞-一般
話 ハナシ 話 名詞-サ変接続
続け ツヅケ 続ける 動詞-自立 一段 連用形
い イ いる 動詞-非自立 一段 連用形
###絞り込みのルールについての詳細
テキストファイル内の文章の内容のジャンル(スポーツ、恋愛、学校など)を分類できるようにしたいため、ジャンル分けの判断材料になりそうな名詞や動詞のみを抽出することで、より正確にジャンル分けを行うことができると考えています。
回答1件
あなたの回答
tips
プレビュー