質問編集履歴
1
追記
title
CHANGED
File without changes
|
body
CHANGED
@@ -6,4 +6,37 @@
|
|
6
6
|
対応として全ての文字列をUTF-8に変換してから書き込んだりしてみましたが日本語が文字化けしてしまいました。
|
7
7
|
そこで、文字列の文字コードがcp932だった場合その文字列は書き込まないようにする(今回のテキストマイニングでは機種依存文字は有用でないため)プログラムにしようと考えています。
|
8
8
|
特定の文字列の文字コードを判定するにはどのような方法があるでしょうか。
|
9
|
-
詳しい方宜しくお願いします。
|
9
|
+
詳しい方宜しくお願いします。
|
10
|
+
|
11
|
+
以下、該当コードの主要部分です。
|
12
|
+
```ここに言語を入力
|
13
|
+
f = open('test.csv','a',encoding='utf-8-sig')
|
14
|
+
csvWriter = csv.writer(f)
|
15
|
+
|
16
|
+
#TwitterIDからプロフィール文を取得、形態素解析
|
17
|
+
for num in range(2):
|
18
|
+
if num == 1:
|
19
|
+
sheet = sheet_2
|
20
|
+
for row in range(sheet.nrows):
|
21
|
+
val = sheet.cell(row,col).value
|
22
|
+
i = i+1
|
23
|
+
print (val)
|
24
|
+
params = {
|
25
|
+
"screen_name": val
|
26
|
+
}
|
27
|
+
responce = oath.get(url,params = params)
|
28
|
+
tweet = json.loads(responce.text)
|
29
|
+
user_description = tweet['description']
|
30
|
+
print("users_desc:",user_description)
|
31
|
+
tokens = l.tokenize(user_description)
|
32
|
+
#形態素解析及び名詞抽出
|
33
|
+
for token in tokens:
|
34
|
+
partOfSpeech = token.part_of_speech.split(',')[0]
|
35
|
+
if partOfSpeech == u'名詞':
|
36
|
+
each_words.append(token.surface)
|
37
|
+
words.append(each_words)
|
38
|
+
print(each_words)
|
39
|
+
csvWriter.writerow([num,each_words])
|
40
|
+
|
41
|
+
each_words = []
|
42
|
+
```
|