質問編集履歴
2
一部修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,3 +1,5 @@
|
|
1
|
+
|
2
|
+
|
1
3
|
### 前提
|
2
4
|
自然言語処理について勉強しています。
|
3
5
|
Wikipediaのdumpデータから本文を抜き出して処理をしようと思ってます。
|
1
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -9,6 +9,12 @@
|
|
9
9
|
0. 読み込んだテキストから記号などの削除して日本語のみにする
|
10
10
|
0. Gfileは段落ごとに分割,myfileは改行四つで区切る(テキストファイルに区切りとして改行を付与しています.),その後,それぞれを段落ごとに分割した後Mecabで名詞のみ抽出
|
11
11
|
0. 処理を実行(tf-idfをアレンジしたもの)
|
12
|
+
|
13
|
+
|
14
|
+
|
15
|
+
### 現在の状況
|
16
|
+
|
17
|
+
コメントで今の問題の解決案を募集してます.
|
12
18
|
|
13
19
|
```pythonソースコード
|
14
20
|
# -*- coding: utf-8 -*-
|