テキストデータを用いてトピック分析がしたい

Question

リアルタイムのツイート群から抽出した名詞を使って、gensim経由でトピック分析をしたいと考えています。
初歩的な質問で恐縮ですが、エラーの解決方法を教えていただけますと幸いです。
宜しくお願いします。

### エラー
```
Traceback (most recent call last):
  File "topic.py", line 21, in <module>
    text = corpus.text
AttributeError: 'list' object has no attribute 'text'
```

### 該当のソースコード

```topic.py
import os
import math
from collections import Counter
from collections import defaultdict
import re
from natto import MeCab
import codecs
import sys
import glob
import pandas
import urllib.request
from gensim import corpora, models, similarities
from itertools import chain

with codecs.open("test40.txt", "r", "utf-8") as f:
    corpus = f.read().split("
")

text = corpus.text
text = re.sub(r"http\S+", "", text)
text = re.sub(r"@(\w+) ", "", text)
#text = re.sub(r"#(\w+)", "", text)
text = re.sub(r"(^RT.*)", "", text, flags=re.MULTILINE | re.DOTALL)
#絵文字も消したい
emoji_pattern = re.compile("["
u"\U0001F600-\U0001F64F"
u"\U0001F300-\U0001F5FF"
u"\U0001F680-\U0001F6FF"
u"\U0001F1E0-\U0001F1FF"
"]+", flags=re.UNICODE)
text = emoji_pattern.sub("", text)

mecab = MeCab('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

#if tagger.lang == 'ja':
#名詞の抽出と整形
rm_list = ["RT","https","co","さん","フォロー","本日","応募","今日","プレゼント","お金","FGO","無料","本人","投稿","動画","ツイート","リツイート","Twitter","ローソン","Peing","http","Amazonギフト券","bot","発売中","Youtube","www","WWW","質問箱","コラボ","フォロワー","DM","いいね","ＲＴ","lawson","://","！","peing","youtube","抽選","jp","リプ","キャンペーン","チケット","期間限定","DHC","日本","amp","人間","チャンネル","配信中","YouTube","WEB","楽しみ","イラスト","くじ","@","__"]

stop_words = []
path = 'stop_words.txt'
with open(path) as g:
    stop_words = g.readlines()

docs = []
for txt in corpus:
    words = mecab.parse(txt, as_nodes=True)
    doc = []

    for w in words:
        if w.feature.split(",")[0] == "名詞":
            if len(w.surface) >= 3:
                if w.surface not in rm_list:
                    doc.append(w.surface)

    docs.append(doc)
corpus = docs

#辞書の作成
dictionary = corpora.Dictionary(corpus)
dictionary.filter_extremes(no_below=2, no_above=0.01)

# コーパスを作成
corpus_c = [dictionary.doc2bow(corpus) for text in corpus]

#トピックモデルを生成
lda = gensim.models.ldamodel.LdaModel(corpus=corpus_c, num_topics=100)

# 各トピックの出現頻度上位を取得
topic_top = []
for topic in lda.show_topics(-1, formatted=False):
    topic_top.append([dictionary[int(tag[0])] for tag in topic[1]])

# 各トピックの出現頻度上位１０位をcsv形式で保存
topic_data = pandas.DataFrame(topic_top)
topic_data.to_csv("topic_words1.csv", encoding="utf-8")
```

### 補足情報（FW/ツールのバージョンなど）

iOS 10.12.6, Python 3.7.3, Atom

Accepted Answer

```
with codecs.open("test40.txt", "r", "utf-8") as f:
    corpus = f.read().split("
")
```
これによってcorpusはlistタイプの変数になっています。listにはtextという属性・メソッドはないのでエラーになっています。後続のコードからするとおそらく以下のようにしたいのかなと思います。

```
text=[]
for i in corpus :
    text.append(re.sub(r"http\S+", "", i))
    text.append(re.sub(r"@(\w+) ", "", i))

    以下、略
```

上記は、リストから要素をひとつずつ取り出して必要なデータ加工処理を行い、結果をtextというリストに格納しています。


なお、後続処理が正しく機能することは保証しません。あくまでも今回のエラーメッセージ対策だということをご理解ください。

Answer

仮にファイルの中身が
　あいうえお¥nかきくけこ¥nさしすせそ
だとしたら、

```python
corpus = f.read().split("
")
```

このコマンドによって変数corpusはリストになるはずです
```python
print(corpus) # あいうえお かきくけこ さしすせそ
print(corpus[0]) # あいうえお
print(corpus[1]) # かきくけこ
print(corpus[2]) # さしすえそ
```

splitは与えられた1つの文字列を引数の文字ごとに分割し、リストとして返します。

エラー

該当のソースコード

補足情報（FW/ツールのバージョンなど）

関連した質問