pythonをコマンドラインで実行。その際の引数に日本語を入れた場合の対応方法

pythonをコマンドラインで実行しています。
その際、下記の様に引数を与えているのですが、その中に日本語の引数が含まれています。

python test.py aaa "あああ" ccc

また、処理をしているプログラムは下記の様にして取得しています。

python
1# -*- coding: utf-8 -*- 
2
3import sys
4
5args = sys.argv
6
7input1 = args[1]
8input2 = args[2]
9input3 = args[3]

プログラムで取得し、「print input2」のような形で printする処理は問題なく処理されるのですが、「input2」を別の処理で使おうとすると、下記のよなエラーが出てうまく処理をすることができませんでした。（「selenium Webdriver」で入力エリアに値を編集する処理を実行しています。）

UnicodeDecodeError: 'utf8' codec can't decode byte 0x8d in position 0: invalid start byte

args[2]を何かしら処理をする必要があると思うのですが、「args[2].decode('utf-8')」「unicode(args[2])」ではうまくいきませんでした。

ちなみに、「type(args[2])」とすると「<type 'str'>」と表示されます。
また、環境は、Windows10 で、Windowsのコマンドプロンプトから実行しています。

引数で取得した日本語をどのように処理をすればいいか、お教えいただけませんでしょうか？
よろしくお願いいたします。

行動規範の内容に同意します

回答3件

入力値は、以下で紹介されているconv_encoding関数にてunicode型に変換できます。
テキストファイルのエンコーディングを自動判定して処理する
いっけん強引な手法に思えますし、場合によっては誤判定の可能性もありますが、手軽です。
いったんunicode型になれば、あとは好きなように加工できます。

投稿2017/01/26 14:34

編集2017/01/26 14:42

can110

総合スコア38266

shishishi

2017/01/27 01:52

回答ありがとうございました。実際に試してはいませんが、入力される文字コードが分からない場合は、コメントいただいた内容での対処がよさそうですね。ありがとうございます！

行動規範の内容に同意します

ベストアンサー

windowsのコマンドラインからならcp932ではないでしょうか？

投稿2017/01/26 14:01

kokardy

総合スコア781

shishishi

2017/01/27 01:50

回答ありがとうございました。ご連絡いただいたとおり、「cp932」にすると正常に動作しました！非常に大きな勘違いがあったということですね。助かりました。

行動規範の内容に同意します

Pythonの文字コードって、面倒ですよね……
こんな感じでいかがでしょうか？

python
1#!/usr/bin/env python
2# -*- coding: utf8 -*-
3import sys
4
5args = sys.argv
6
7input1 = args[1]
8input2 = unicode(args[2], 'utf-8')
9input3 = args[3]
10
11print input2
12

投稿2017/01/26 12:17

nnahito

総合スコア2004

shishishi

2017/01/26 12:38

回答ありがとうございます。回答いただいた記述でも下記の様にエラーが表示されます。申し訳ありません、この場合はどうすればいいのでしょうか？ Traceback (most recent call last): File "c:\test\test6.py", line 13, in <module> input2 = unicode(args[2], 'utf-8') UnicodeDecodeError: 'utf8' codec can't decode byte 0x8d in position 0: invalid start byte

行動規範の内容に同意します

あなたの回答