質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.80%

tfidfの処理をさせるためにmecabのリストに入ってるセンテンスから名詞だけ抽出したい場合のコード

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 725

下記のコードのようにOchasenをつかって品詞が名詞のものだけ、取り出したいと思っていますが、どう書いていけばよいのかわからず色々試してみたもののそろそろ詰まってきました。Ochasenを使わなくてもとりあえず、名詞の単語が取り出せればいいと思っています。

なにか、こうかける、こうしたほうがいいなどがありましたら、ご教示頂けると助かります。

path = '/yyy/dddd/xxxx.csv'

mecab = MeCab.Tagger("-Ochasen")

with open(path, 'r') as f:
    texts = [line.rstrip('\n').split(',') for line in f]
    # ループで順番に取得するようにあとでかく
    line = [line[2] for line in texts]


>> texts
[['0','url', '日本語日本語日本語'], ['1','url','それは、孔子の教えであり、先生へ向けた言葉でもある'], ['2','url','ほげ高い山にのぼることができた']]
>> line
['日本語日本語日本語', 'それは、孔子の教えであり、先生へ向けた言葉でもある', 'ほげ高い山にのぼることができた']
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

以下のような感じでしょうか。

import MeCab
mecab = MeCab.Tagger("-Ochasen")
for line in ['それは、孔子の教えであり、先生へ向けた言葉でもある']:
    parse = mecab.parse(line)
    words = parse.split('\n')
    import re
    for word in words:
        items = re.split('[\t,]',word)
        print(items)

        if len(items) != 6: # EOSなどは不要
            continue

        if items[3].startswith('名詞'): # 名詞-一般 など
            print(items[0])
"""
['それ', 'ソレ', 'それ', '名詞-代名詞-一般', '', '']
それ
['は', 'ハ', 'は', '助詞-係助詞', '', '']
['、', '、', '、', '記号-読点', '', '']
['孔子の教え', 'コウシノオシエ', '孔子の教え', '名詞-固有名詞-一般', '', '']
孔子の教え
['で', 'デ', 'だ', '助動詞', '特殊・ダ', '連用形']
['あり', 'アリ', 'ある', '助動詞', '五段・ラ行アル', '連用形']
['、', '、', '、', '記号-読点', '', '']
['先生', 'センセイ', '先生', '名詞-一般', '', '']
先生
['へ', 'ヘ', 'へ', '助詞-格助詞-一般', '', '']
['向け', 'ムケ', '向ける', '動詞-自立', '一段', '連用形']
['た', 'タ', 'た', '助動詞', '特殊・タ', '基本形']
['言葉', 'コトバ', '言葉', '名詞-一般', '', '']
言葉
['で', 'デ', 'で', '助詞-格助詞-一般', '', '']
['も', 'モ', 'も', '助詞-係助詞', '', '']
['ある', 'アル', 'ある', '動詞-自立', '五段・ラ行', '基本形']
['EOS']
['']
"""

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/04/12 11:36

    上記、上手く名詞だけとれました。ありがとうございます。
    ただ、list内包表記で以下のように書き換えて実行してみたのですが、上手くいかず、なにかお気づきの点ありましたら教えて頂けると幸いです。

    for l in line:
    parse = mecab.parse(l)
    words = parse.split('\n')
    items = [re.split('[\t,]', word) for word in words]

    >> [item[3].startswith('名詞') for item in items if item[3].startswith('名詞')]
    Traceback (most recent call last):
    File "<input>", line 1, in <module>
    File "<input>", line 1, in <listcomp>
    IndexError: list index out of range

    キャンセル

  • 2019/04/12 11:46 編集

    回答コードでの「EOSなどは不要」処理が抜けているため
    EOSなどでのitem[3]でリスト範囲外を参照してしまっています。
    また、欲しいデータ(リストに格納すべき)はitem[0]なので
    [item[0] for item in items if len(item) == 6 and item[3].startswith('名詞')]
    と書けばよいです。

    キャンセル

  • 2019/04/12 21:04

    できました。ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.80%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • トップ
  • Pythonに関する質問
  • tfidfの処理をさせるためにmecabのリストに入ってるセンテンスから名詞だけ抽出したい場合のコード