質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

Q&A

解決済

1回答

9612閲覧

PythonでUTF-8のファイルの中身をSJIS(CP932)で表示する。

退会済みユーザー

退会済みユーザー

総合スコア0

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

0グッド

0クリップ

投稿2016/04/10 10:15

###前提・実現したいこと
こんにちわ、Pythonについてお聞きします。
まず、大前提としてPythonを使う端末はWindowsだということです。

この点を踏まえて、Pythonにおけるファイル操作についてご教授いただければと存じます。

まず、以下内容のファイルをローカルにてUTF-8で保存したファイルを
「C:\text.dat」とします。
▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼
(@jtwp470) さんがいきなり

以下のPythonコードと等価の出力をするコードをPythonでかつ ​ワンライナー​ で書け 制限時間10分

"".join(map(chr, range(33, 123)))

というような内容をSlackに投げてきた。一応、正解!?できたので後ほど紹介します。Pythonでワンライナー.…シェル芸勉強会ではたまにRubyやPerlでといている方がいるがpython で解いている人は見たことがない。

これを機にPythonnワンライナーという黒魔法を習得したい。

とりあえず、ググる

Python ワンライナー
ぐぐって分かった気になった、。

とりあえず、Pythonでワンライナーを書くには -c オプションを使います。

Hello World

$python3.4 -c "print ('hello world')"
hello world

python3 -c "print("Hello world")"
SyntaxError: unexpected EOF while parsing
の意味が分からん。

— もとうち (@SMotochi_net) February 11, 2016
@SMotochi_net だめやろ、
外ダブルなら中身シングル

— でこ (@nori_deco) February 11, 2016

実は10分ぐらい溶かしました"(ダブルクォート)の中身は'(シングルクォート)じゃないとダメみたいですね。

気を取り直して引数を与えてみる!!!!

$python3 -c "import sys; print(sys.argv)" 10 11 12

['-c', '10', '11', '12']

引数で足し算をしたいときは

$python3 -c "import sys; print(sum([int(x) for x in sys.argv[1:]]))" 10 11 12
33

1から10まで表示

python3 -c "print (''.join([str(i) for i in range(1,11)]))"
12345678910

syu-m-5151.hatenablog.com

で使ったデータと内容を使いたいと思います。

ファイルの中身を表示

python3 -c "print (open('data').read())"

1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20

ファイルを一行ずつ表示

$python3 -c "for char in open('data').readlines():print (char)"
1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

ファイルの中身を一文字ずつ表示

$python3 -c "for char in open('data').read():print (char)"
1

2

3

4

5

6

7

8

9

1
0

1
1

1
2

1
3

1
4

1
5

1
6

1
7

1
8

1
9

2
0

10が含まれている行を表示

$python3 -c "print (([i for i in open('data') if i.find('10') != -1 ]))"
['6 7 8 9 10\n']

あれ??

$python3 -c "print (''.join([i for i in open('data') if i.find('10') != -1 ]))"
6 7 8 9 10

これでよし!!!

1を5に書き変えます。

$python3 -c "print (open('data').read().replace('1','5'))"

5 2 3 4 5
6 7 8 9 50
55 52 53 54 55
56 57 58 59 20

replaceメソッドを使うと....

一応、変わりました.....

すみませんが、今回はこれで終わりたいとおもいます。(力尽きました…)

pythonワンライナーで書くには向いてないと言われておりますが

メソッドが多いのでうまく利用できれば強い武器になるとおもいます。

次にシェル芸勉強会に参加する際にはpython使います。

最初の問題の問題の答え

まず、質問の意図を探るために実行してみる。

$python3 -c 'print("".join(map(chr, range(33, 123))))'
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz

map: すべての要素に処理を行う。シーケンスのすべての要素を関数の引数として実行し、その実行結果から新しいlistを作成する。

.join :文字列を連結する。

$python3 -c "print (''.join([chr(x) for x in range(33,123)]))"

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz

参考

Python command line oneliners

闇Pythonista入門(Pythonワンライナーのテクニック集) - cocuh's note

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

そして、Windowsのコマンドプロンプト上で以下のようなソースで
ファイルの中身を表示したいとします。

ここに質問したいことを詳細に書いてください
(例)PHP(CakePHP)で●●なシステムを作っています。
■■な機能を実装中に以下のエラーメッセージが発生しました。

###発生している問題・エラーメッセージ

Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'cp932' codec can't encode character '\u200b' in position 58 : illegal multibyte sequence

###該当のソースコード

fp = open("C:\\text.dat", encoding="UTF-8"); print(fp.read());

###試したこと
上記のように、UTF-8ファイルで記載された文字列をWindowsのコマンドプロンプト上にて
UnicodeEncodeErrorを出さずにコマンドプロンプト上に表示をさせたいです。
この解決策ついて対応がお分かりになる方はぜひともご教授くださいますと幸いです。

###補足情報(言語/FW/ツール等のバージョンなど)
Windowsマシン
Python 3.5系

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

テキストの58文字目あたりにU+200B ZERO WIDTH SPACE(幅が0のスペース、つまり、全く表示されないスペース。ワードラップの位置などを示す等に使われる)があります。どんなものかというと、下記のaとbの間にU+200Bがありますので、テキストエディタとかに貼り付けて試して見て下さい。

a​b

このU+200BはCP932には存在しないため、UNICODE(Python3では文字列は全てUNICODE)からCP932への変換ができません。変換ができないとき、Python3では例外エラーにするのがデフォルトの動作になります。つまり、変換できないときの動作をデフォルトから「無視」などに変更すればエラーにすることなく出すことができます。方法は二つかと思います。

CP932にエラー無視で変換したバイナリをそのまま出力

Python

1import sys 2fp = open("C:\\text.dat", encoding="UTF-8") 3sys.stdout.buffer.write(fp.read().encode("CP932", "ignore"))

CP932にエラー無しで変換したバイナリを文字列に変換しなおして出力

Python

1fp = open("C:\\text.dat", encoding="UTF-8") 2print(fp.read().encode("CP932", "ignore").decode("CP932"))

下の方法は処理に無駄が多いですが、(意味があるかはともかく)Windows以外の環境でも文字化けしません。

投稿2016/04/10 10:47

raccy

総合スコア21733

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2016/04/11 12:33

raccyさん ありがとうございます。 お返事が遅くなりました。 無事解決いたしました。 Pythonの場合、Python内部での文字列の処理はユニコードによる処理になっているかと思いますが、特にSJIS(CP932)へとやむなく文字のエンコードを変える必要がある場合は、一旦「encode("CP932", "ignore")」str型のencode()メソッドの第二引数にignoreでエンコード時にコンバートできない文字は無視して、再度 bytes型のdecode()メソッドで元のユニコード型へと戻してやるという認識で問題ないでしょうか?
raccy

2016/04/11 12:58

Python3だとそれしかないようです。print()内部でのCP932変換の時にエラー処理を変えられたら良いのですけど、私は見つけられませんでした。全体のデフォルト動作を変える方法とかはありそうですけど、ちょっとそれで対応するのは怖いですね。WindowsがCP932なんてとっととやめてUTF-8をデフォルトにすれば、全て解決なんですけど…。 なお、ignore以外にもreplaceとかで別の文字に変えるとかもありますので、詳しくはPythonのドキュメントを確認して下さい。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問