質問編集履歴
1
現象を再現できるコードを追加します.google colabで動かせば実行できるはずです.
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,6 +1,7 @@
|
|
1
|
+
|
1
2
|
### 前提
|
2
3
|
|
3
|
-
google colabで日本語が格納されているタプルを出力しようとすると,意味不明な文字列
|
4
|
+
google colabで日本語が格納されているタプルを出力しようとすると,意味不明な文字列が出力されます.
|
4
5
|
|
5
6
|
|
6
7
|
### 実現したいこと
|
@@ -22,10 +23,82 @@
|
|
22
23
|
### 該当のソースコード
|
23
24
|
|
24
25
|
```python
|
26
|
+
!pip install plsa
|
27
|
+
|
28
|
+
!pip install nltk
|
29
|
+
|
30
|
+
import nltk
|
31
|
+
from nltk.corpus import wordnet
|
32
|
+
|
33
|
+
# 必要なパッケージ、データ、ドキュメントのダウンロード (時間がかかる)
|
34
|
+
nltk.download('all')
|
35
|
+
wordnet.synsets('car')
|
36
|
+
|
37
|
+
import sys
|
38
|
+
import matplotlib.pyplot as plt
|
39
|
+
%matplotlib notebook
|
40
|
+
|
41
|
+
sys.path.append('..')
|
42
|
+
|
43
|
+
from plsa import Corpus, Pipeline, Visualize
|
44
|
+
from plsa.pipeline import DEFAULT_PIPELINE
|
45
|
+
from plsa.algorithms import PLSA
|
46
|
+
from plsa.preprocessors import remove_non_ascii, to_lower ,remove_numbers ,tokenize ,LemmatizeWords ,RemoveStopwords
|
47
|
+
|
48
|
+
|
49
|
+
csv_file = '/content/testdata__1.csv'
|
50
|
+
|
51
|
+
|
52
|
+
pipeline = Pipeline(to_lower, remove_numbers, tokenize)
|
53
|
+
pipeline
|
54
|
+
|
55
|
+
corpus = Corpus.from_csv(csv_file, pipeline)
|
56
|
+
corpus
|
57
|
+
|
58
|
+
n_topics = 5
|
59
|
+
|
60
|
+
plsa = PLSA(corpus, n_topics, True)
|
61
|
+
plsa
|
62
|
+
|
63
|
+
result = plsa.fit()
|
64
|
+
|
65
|
+
result = plsa.best_of(5)
|
66
|
+
|
67
|
+
result.topic
|
68
|
+
|
25
69
|
result.word_given_topic[0][:10]
|
70
|
+
|
71
|
+
|
72
|
+
|
73
|
+
|
26
74
|
```
|
27
75
|
resultの中身は日本語が入っています.
|
28
76
|
|
29
77
|
また,word_given_topicはPLSAというPYPIで公開されている外部ライブラリのサブモジュールになります.
|
30
78
|
|
79
|
+
### 補足
|
80
|
+
```testdata__1.csv
|
81
|
+
GW 昼過ぎ 時間 せい 駐車 探し 0 分 場所 ため 時間 ロス 町並み 水路 ところ 人 べた 観光 地 朝一 実感 ところ
|
82
|
+
期待 通り 歴史 町並み 大原 美術 施設 巡り 船 食事 買い物 間 時間 一日
|
83
|
+
桃太郎 博物 最初 館 0 番 場所 ちくわ 笛 演奏 シュール
|
84
|
+
町 全体 美観 地区 昔 建物 店舗 開店 前 多く 人だかり 景色
|
85
|
+
ゴールデン ウィーク 混雑 想像 以上 コンパクト 感じ 街 散策 次 時期 散策
|
86
|
+
雨 分 土産 地区 トイレ 整備
|
87
|
+
白壁 建物 おしゃれ 店 川 そば 日 照明 家屋 証券 会社 表 黒板 チョーク 情報 文字 びっくり
|
88
|
+
川船 本当 昔 タイム スリップ 感じ 映画 ドラマ 撮影 場所 納得 結婚 写真 カップル 何 組
|
89
|
+
倉敷 仕事 滞在 仕事前 一 時間 美観 地区 雰囲気 店
|
90
|
+
イムズ 平日 以外 市営 駐車 買い得
|
91
|
+
幼児 店 こと 雰囲気 写真 所 川沿い 桜 蕾 満開 想像 子ども
|
92
|
+
街並み 日常 空間 こと 街 川 雰囲気 舟 マッチ ジーンズ 街 ジーンズ ショップ 点在 ジーンズ 小物 魅力
|
93
|
+
0 月 中旬 当り 梅 花 桜 木 桜 時期 訪問 所 写真 散策
|
94
|
+
毎年 0 度 家族 雰囲気 街 建物 情緒 店
|
95
|
+
ろう 剣心 撮影 場所 閑静 街並み バウムクーヘン 店 菓子 一緒 マスカット アイス 所
|
96
|
+
街並み 駐車 食べ歩き 店 だんご 岡山 デニム 店
|
97
|
+
何 写真 絵 感じ 白鳥 店
|
98
|
+
倉敷 駅 前 ホテル 途中 商店 こと 店 通り 何 こと 食べ歩き 店 川 景観
|
99
|
+
コロナ 禍 中 人込み 天候 少々 目当て 土産 帰り 雨
|
100
|
+
街中 美観 地区 方 皆 親切 街中 人 食べ物
|
101
|
+
コロナ 人 店 以前 前 ほう たき
|
102
|
+
```
|
31
103
|
|
104
|
+
|