teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

2

追記

2019/05/19 15:45

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -1,3 +1,11 @@
1
1
  データが単に分かち書きされているだけだと「名詞だけ取り出す」のは無理です。もう一度、形態素解析器を使う必要があるでしょう。
2
2
 
3
- たとえばmecabにそのまま通せば半角スペースは無視されますので、それで品詞タグの情報を取り出して名詞だけ抜き出す、というコードを書けば良いのではないでしょうか(mecabのpythonバインディングでやるのも、コマンドラインでやって他ファイルに吐いておいてpythonに読ませるのも、どちらも可能だと思います)。
3
+ たとえばmecabにそのまま通せば半角スペースは無視されますので、それで品詞タグの情報を取り出して名詞だけ抜き出す、というコードを書けば良いのではないでしょうか(mecabのpythonバインディングでやるのも、コマンドラインでやって他ファイルに吐いておいてpythonに読ませるのも、どちらも可能だと思います)。
4
+
5
+ ---
6
+
7
+ 上のような認識で回答してから「青空文庫から取ってきたそのままのテキストファイルがあるので、名詞のみ分かち書きのフォーマットで出力したい」という要件の可能性があるなぁ、と思いました。
8
+
9
+ だとすれば、こういう感じでやればいいのでは?
10
+
11
+ [【Python】MeCabを使って文章を解析して名詞だけ取得する方法 - あずみ.net](https://a-zumi.net/python-ma-parse-noun/)

1

追記

2019/05/19 15:45

投稿

hayataka2049
hayataka2049

スコア30939

answer CHANGED
@@ -1,3 +1,3 @@
1
- 分かち書きだけだと「名詞だけ取り出す」のは無理です。もう一度、形態素解析器を使う必要があるでしょう。
1
+ データが単に分かち書きされているだけだと「名詞だけ取り出す」のは無理です。もう一度、形態素解析器を使う必要があるでしょう。
2
2
 
3
3
  たとえばmecabにそのまま通せば半角スペースは無視されますので、それで品詞タグの情報を取り出して名詞だけ抜き出す、というコードを書けば良いのではないでしょうか(mecabのpythonバインディングでやるのも、コマンドラインでやって他ファイルに吐いておいてpythonに読ませるのも、どちらも可能だと思います)。