質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.48%

  • Python 3.x

    6863questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • UTF-8

    112questions

    UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

PythonでUTF-8のファイルの中身をSJIS(CP932)で表示する。

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 4,383

jacky

score 27

前提・実現したいこと

こんにちわ、Pythonについてお聞きします。
まず、大前提としてPythonを使う端末はWindowsだということです。

この点を踏まえて、Pythonにおけるファイル操作についてご教授いただければと存じます。

まず、以下内容のファイルをローカルにてUTF-8で保存したファイルを
「C:\text.dat」とします。
▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼
(@jtwp470) さんがいきなり

 以下のPythonコードと等価の出力をするコードをPythonでかつ ​*ワンライナー*​ で書け 制限時間10分

"".join(map(chr, range(33, 123)))

というような内容をSlackに投げてきた。一応、正解!?できたので後ほど紹介します。Pythonでワンライナー.…シェル芸勉強会ではたまにRubyやPerlでといている方がいるがpython で解いている人は見たことがない。

これを機にPythonnワンライナーという黒魔法を習得したい。

とりあえず、ググる

 Python ワンライナー 
ぐぐって分かった気になった、。

とりあえず、Pythonでワンライナーを書くには -c オプションを使います。

Hello World 

$python3.4 -c "print ('hello world')"
hello world

python3 -c "print("Hello world")"
SyntaxError: unexpected EOF while parsing
の意味が分からん。

— もとうち (@SMotochi_net) February 11, 2016
@SMotochi_net だめやろ、
外ダブルなら中身シングル

— でこ (@nori_deco) February 11, 2016

実は10分ぐらい溶かしました"(ダブルクォート)の中身は'(シングルクォート)じゃないとダメみたいですね。

気を取り直して引数を与えてみる!!!!

$python3 -c "import sys; print(sys.argv)" 10 11 12

['-c', '10', '11', '12']

引数で足し算をしたいときは

$python3 -c "import sys; print(sum([int(x) for x in sys.argv[1:]]))" 10 11 12
33

1から10まで表示

python3 -c "print (''.join([str(i) for i in range(1,11)]))"
12345678910

syu-m-5151.hatenablog.com

で使ったデータと内容を使いたいと思います。

ファイルの中身を表示

python3 -c "print (open('data').read())"

1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20

ファイルを一行ずつ表示

$python3 -c "for char in open('data').readlines():print (char)"
1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

ファイルの中身を一文字ずつ表示 

$python3 -c "for char in open('data').read():print (char)"
1

2

3

4

5

6

7

8

9

1
0

1
1

1
2

1
3

1
4

1
5

1
6

1
7

1
8

1
9

2
0

10が含まれている行を表示

$python3 -c "print (([i for i in open('data') if i.find('10') != -1 ]))"
['6 7 8 9 10\n']

あれ??

$python3 -c "print (''.join([i for i in open('data') if i.find('10') != -1 ]))"
6 7 8 9 10

これでよし!!!

1を5に書き変えます。

 $python3 -c "print (open('data').read().replace('1','5'))"

5 2 3 4 5
6 7 8 9 50
55 52 53 54 55
56 57 58 59 20

replaceメソッドを使うと....

一応、変わりました.....

すみませんが、今回はこれで終わりたいとおもいます。(力尽きました…)

pythonワンライナーで書くには向いてないと言われておりますが

メソッドが多いのでうまく利用できれば強い武器になるとおもいます。

 次にシェル芸勉強会に参加する際にはpython使います。

最初の問題の問題の答え

まず、質問の意図を探るために実行してみる。

$python3 -c 'print("".join(map(chr, range(33, 123))))'
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz

map: すべての要素に処理を行う。シーケンスのすべての要素を関数の引数として実行し、その実行結果から新しいlistを作成する。

.join :文字列を連結する。

$python3 -c "print (''.join([chr(x) for x in range(33,123)]))"

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz

参考 

Python command line oneliners

闇Pythonista入門(Pythonワンライナーのテクニック集) - cocuh's note

▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲▲

そして、Windowsのコマンドプロンプト上で以下のようなソースで
ファイルの中身を表示したいとします。

ここに質問したいことを詳細に書いてください
(例)PHP(CakePHP)で●●なシステムを作っています。  
■■な機能を実装中に以下のエラーメッセージが発生しました。

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'cp932' codec can't encode character '\u200b' in position 58
: illegal multibyte sequence

該当のソースコード

fp = open("C:\\text.dat", encoding="UTF-8");
print(fp.read());

試したこと

上記のように、UTF-8ファイルで記載された文字列をWindowsのコマンドプロンプト上にて
UnicodeEncodeErrorを出さずにコマンドプロンプト上に表示をさせたいです。
この解決策ついて対応がお分かりになる方はぜひともご教授くださいますと幸いです。

補足情報(言語/FW/ツール等のバージョンなど)

Windowsマシン
Python 3.5系

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+3

テキストの58文字目あたりにU+200B ZERO WIDTH SPACE(幅が0のスペース、つまり、全く表示されないスペース。ワードラップの位置などを示す等に使われる)があります。どんなものかというと、下記のaとbの間にU+200Bがありますので、テキストエディタとかに貼り付けて試して見て下さい。

a​b


このU+200BはCP932には存在しないため、UNICODE(Python3では文字列は全てUNICODE)からCP932への変換ができません。変換ができないとき、Python3では例外エラーにするのがデフォルトの動作になります。つまり、変換できないときの動作をデフォルトから「無視」などに変更すればエラーにすることなく出すことができます。方法は二つかと思います。

CP932にエラー無視で変換したバイナリをそのまま出力

import sys
fp = open("C:\\text.dat", encoding="UTF-8")
sys.stdout.buffer.write(fp.read().encode("CP932", "ignore"))

CP932にエラー無しで変換したバイナリを文字列に変換しなおして出力

fp = open("C:\\text.dat", encoding="UTF-8")
print(fp.read().encode("CP932", "ignore").decode("CP932"))

下の方法は処理に無駄が多いですが、(意味があるかはともかく)Windows以外の環境でも文字化けしません。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/04/11 21:33

    raccyさん
    ありがとうございます。

    お返事が遅くなりました。
    無事解決いたしました。

    Pythonの場合、Python内部での文字列の処理はユニコードによる処理になっているかと思いますが、特にSJIS(CP932)へとやむなく文字のエンコードを変える必要がある場合は、一旦「encode("CP932", "ignore")」str型のencode()メソッドの第二引数にignoreでエンコード時にコンバートできない文字は無視して、再度 bytes型のdecode()メソッドで元のユニコード型へと戻してやるという認識で問題ないでしょうか?

    キャンセル

  • 2016/04/11 21:58

    Python3だとそれしかないようです。print()内部でのCP932変換の時にエラー処理を変えられたら良いのですけど、私は見つけられませんでした。全体のデフォルト動作を変える方法とかはありそうですけど、ちょっとそれで対応するのは怖いですね。WindowsがCP932なんてとっととやめてUTF-8をデフォルトにすれば、全て解決なんですけど…。

    なお、ignore以外にもreplaceとかで別の文字に変えるとかもありますので、詳しくはPythonのドキュメントを確認して下さい。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.48%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 3.x

    6863questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • UTF-8

    112questions

    UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。