質問編集履歴

1

現象を再現できるコードを追加します.google colabで動かせば実行できるはずです.

2022/12/22 12:40

投稿

maro
maro

スコア13

test CHANGED
File without changes
test CHANGED
@@ -1,6 +1,7 @@
1
+
1
2
  ### 前提
2
3
 
3
- google colabで日本語が格納されているタプルを出力しようとすると,意味不明な文字列出力されます.
4
+ google colabで日本語が格納されているタプルを出力しようとすると,意味不明な文字列出力されます.
4
5
 
5
6
 
6
7
  ### 実現したいこと
@@ -22,10 +23,82 @@
22
23
  ### 該当のソースコード
23
24
 
24
25
  ```python
26
+ !pip install plsa
27
+
28
+ !pip install nltk
29
+
30
+ import nltk
31
+ from nltk.corpus import wordnet
32
+
33
+ # 必要なパッケージ、データ、ドキュメントのダウンロード (時間がかかる)
34
+ nltk.download('all')
35
+ wordnet.synsets('car')
36
+
37
+ import sys
38
+ import matplotlib.pyplot as plt
39
+ %matplotlib notebook
40
+
41
+ sys.path.append('..')
42
+
43
+ from plsa import Corpus, Pipeline, Visualize
44
+ from plsa.pipeline import DEFAULT_PIPELINE
45
+ from plsa.algorithms import PLSA
46
+ from plsa.preprocessors import remove_non_ascii, to_lower ,remove_numbers ,tokenize ,LemmatizeWords ,RemoveStopwords
47
+
48
+
49
+ csv_file = '/content/testdata__1.csv'
50
+
51
+
52
+ pipeline = Pipeline(to_lower, remove_numbers, tokenize)
53
+ pipeline
54
+
55
+ corpus = Corpus.from_csv(csv_file, pipeline)
56
+ corpus
57
+
58
+ n_topics = 5
59
+
60
+ plsa = PLSA(corpus, n_topics, True)
61
+ plsa
62
+
63
+ result = plsa.fit()
64
+
65
+ result = plsa.best_of(5)
66
+
67
+ result.topic
68
+
25
69
  result.word_given_topic[0][:10]
70
+
71
+
72
+
73
+
26
74
  ```
27
75
  resultの中身は日本語が入っています.
28
76
 
29
77
  また,word_given_topicはPLSAというPYPIで公開されている外部ライブラリのサブモジュールになります.
30
78
 
79
+ ### 補足
80
+ ```testdata__1.csv
81
+ GW 昼過ぎ 時間 せい 駐車 探し 0 分 場所 ため 時間 ロス 町並み 水路 ところ 人 べた 観光 地 朝一 実感 ところ
82
+ 期待 通り 歴史 町並み 大原 美術 施設 巡り 船 食事 買い物 間 時間 一日
83
+ 桃太郎 博物 最初 館 0 番 場所 ちくわ 笛 演奏 シュール
84
+ 町 全体 美観 地区 昔 建物 店舗 開店 前 多く 人だかり 景色
85
+ ゴールデン ウィーク 混雑 想像 以上 コンパクト 感じ 街 散策 次 時期 散策
86
+ 雨 分 土産 地区 トイレ 整備
87
+ 白壁 建物 おしゃれ 店 川 そば 日 照明 家屋 証券 会社 表 黒板 チョーク 情報 文字 びっくり
88
+ 川船 本当 昔 タイム スリップ 感じ 映画 ドラマ 撮影 場所 納得 結婚 写真 カップル 何 組
89
+ 倉敷 仕事 滞在 仕事前 一 時間 美観 地区 雰囲気 店
90
+ イムズ 平日 以外 市営 駐車 買い得
91
+ 幼児 店 こと 雰囲気 写真 所 川沿い 桜 蕾 満開 想像 子ども
92
+ 街並み 日常 空間 こと 街 川 雰囲気 舟 マッチ ジーンズ 街 ジーンズ ショップ 点在 ジーンズ 小物 魅力
93
+ 0 月 中旬 当り 梅 花 桜 木 桜 時期 訪問 所 写真 散策
94
+ 毎年 0 度 家族 雰囲気 街 建物 情緒 店
95
+ ろう 剣心 撮影 場所 閑静 街並み バウムクーヘン 店 菓子 一緒 マスカット アイス 所
96
+ 街並み 駐車 食べ歩き 店 だんご 岡山 デニム 店
97
+ 何 写真 絵 感じ 白鳥 店
98
+ 倉敷 駅 前 ホテル 途中 商店 こと 店 通り 何 こと 食べ歩き 店 川 景観
99
+ コロナ 禍 中 人込み 天候 少々 目当て 土産 帰り 雨
100
+ 街中 美観 地区 方 皆 親切 街中 人 食べ物
101
+ コロナ 人 店 以前 前 ほう たき
102
+ ```
31
103
 
104
+