[python]複数の文書ファイルから名詞の単語のみを抽出し、一つのnumpy配列に格納するプログラムを教えてください。

Question

### 前提・実現したいこと

複数の文書ファイルから名詞の単語のみを抽出し、以下の出力例のようにnumpy配列に格納するプログラムを考えているのですが頓挫している状態です。御助力をお願い致します。

文書ファイルは青空文庫から拾い、言語はPython、単語は分かち書きです。

出力例
([’名詞 名詞 名詞’,             #文書1
’名詞 名詞’,                      #文書2
’名詞 名詞 名詞 名詞’])       #文書3

### 補足情報（FW/ツールのバージョンなど）

```python
import mecab
import re
import numpy as np 

with open(path) as f:
　　　data = f.read()

mecab = MeCab.Tagger()
parse = mecab.parse(data)
lines = parse.split('
')
items = (re.split('[	,]', line) for line in lines)

words = [item[0]
	for item in items
	if (item[0] not in ('EOS', '', 't', 'ー') and
	item[1] == '名詞' and item[2] == '一般')]

noun = np.array([])

for word in words:
	noun = np.append(noun, word)

noun = np.append(noun, np.array(noun), axis=0)
print(noun)
```

Answer

データが単に分かち書きされているだけだと「名詞だけ取り出す」のは無理です。もう一度、形態素解析器を使う必要があるでしょう。

たとえばmecabにそのまま通せば半角スペースは無視されますので、それで品詞タグの情報を取り出して名詞だけ抜き出す、というコードを書けば良いのではないでしょうか（mecabのpythonバインディングでやるのも、コマンドラインでやって他ファイルに吐いておいてpythonに読ませるのも、どちらも可能だと思います）。

---

上のような認識で回答してから「青空文庫から取ってきたそのままのテキストファイルがあるので、名詞のみ分かち書きのフォーマットで出力したい」という要件の可能性があるなぁ、と思いました。

だとすれば、こういう感じでやればいいのでは？

[【Python】MeCabを使って文章を解析して名詞だけ取得する方法 - あずみ.net](https://a-zumi.net/python-ma-parse-noun/)

前提・実現したいこと

補足情報（FW/ツールのバージョンなど）

関連した質問