回答率: 85.30%

質問するログイン新規登録

トップに関する質問 Pythonでの文字コードの判定について

編集履歴

質問編集履歴

1

追記

2017/12/14 06:06

投稿

スコア7

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -6,4 +6,37 @@
 対応として全ての文字列をUTF-8に変換してから書き込んだりしてみましたが日本語が文字化けしてしまいました。
 そこで、文字列の文字コードがcp932だった場合その文字列は書き込まないようにする（今回のテキストマイニングでは機種依存文字は有用でないため）プログラムにしようと考えています。
 特定の文字列の文字コードを判定するにはどのような方法があるでしょうか。
-詳しい方宜しくお願いします。
+詳しい方宜しくお願いします。
+以下、該当コードの主要部分です。
+```ここに言語を入力
+f = open('test.csv','a',encoding='utf-8-sig')
+csvWriter = csv.writer(f)
+#TwitterIDからプロフィール文を取得、形態素解析
+for num in range(2):
+	if num == 1:
+		sheet = sheet_2
+	for row in range(sheet.nrows):
+		val = sheet.cell(row,col).value
+		i = i+1
+		print (val)
+		params = {
+			"screen_name": val
+		}
+		responce = oath.get(url,params = params)
+		tweet = json.loads(responce.text)
+		user_description = tweet['description']
+		print("users_desc:",user_description)
+		tokens = l.tokenize(user_description)
+		#形態素解析及び名詞抽出
+		for token in tokens:
+			partOfSpeech = token.part_of_speech.split(',')[0]
+			if partOfSpeech == u'名詞':
+				each_words.append(token.surface)
+		words.append(each_words)
+		print(each_words)
+		csvWriter.writerow([num,each_words])
+		each_words = []
+```