質問するログイン新規登録

質問編集履歴

1

追記

2017/12/14 06:06

投稿

lalalabit
lalalabit

スコア7

title CHANGED
File without changes
body CHANGED
@@ -6,4 +6,37 @@
6
6
  対応として全ての文字列をUTF-8に変換してから書き込んだりしてみましたが日本語が文字化けしてしまいました。
7
7
  そこで、文字列の文字コードがcp932だった場合その文字列は書き込まないようにする(今回のテキストマイニングでは機種依存文字は有用でないため)プログラムにしようと考えています。
8
8
  特定の文字列の文字コードを判定するにはどのような方法があるでしょうか。
9
- 詳しい方宜しくお願いします。
9
+ 詳しい方宜しくお願いします。
10
+
11
+ 以下、該当コードの主要部分です。
12
+ ```ここに言語を入力
13
+ f = open('test.csv','a',encoding='utf-8-sig')
14
+ csvWriter = csv.writer(f)
15
+
16
+ #TwitterIDからプロフィール文を取得、形態素解析
17
+ for num in range(2):
18
+ if num == 1:
19
+ sheet = sheet_2
20
+ for row in range(sheet.nrows):
21
+ val = sheet.cell(row,col).value
22
+ i = i+1
23
+ print (val)
24
+ params = {
25
+ "screen_name": val
26
+ }
27
+ responce = oath.get(url,params = params)
28
+ tweet = json.loads(responce.text)
29
+ user_description = tweet['description']
30
+ print("users_desc:",user_description)
31
+ tokens = l.tokenize(user_description)
32
+ #形態素解析及び名詞抽出
33
+ for token in tokens:
34
+ partOfSpeech = token.part_of_speech.split(',')[0]
35
+ if partOfSpeech == u'名詞':
36
+ each_words.append(token.surface)
37
+ words.append(each_words)
38
+ print(each_words)
39
+ csvWriter.writerow([num,each_words])
40
+
41
+ each_words = []
42
+ ```