質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

3回答

2299閲覧

Pythonの文字コードについて

teityura

総合スコア84

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

1クリップ

投稿2018/10/30 16:07

編集2018/10/31 06:15

Pythonのインタラクティブシェルでファイルの書き込みを実行した場合と、
Bash上でPythonスクリプトを実行した場合とで、
文字化けする理由について、いまいちしっくり来てません。

09-p126.pyの中身

Python3.6

1#!/usr/bin/python3.6 2# -*- coding: utf-8 -*- 3 4st = open("st2.txt", "w", encoding="utf-8") 5st.write("パイソンからこんにちは!") 6st.close()

上記スクリプトをbash上で実行し、catでファイルを確認

bash

1python3.6 09-p126.py 2cat st2.txt 3%Q%$%=%s$+$i$3$s$K$A$O!

Pythonのインタラクティブシェルで同様の処理を実行

python3.6

1>>> st = open("st2.txt", "w", encoding="utf-8") 2>>> st.write("パイソンからこんにちは!") 312 4>>> st.close()

catでファイルを確認

bash

1cat st2.txt 2パイソンからこんにちは!

cf. Pythonでマルチバイト文字を扱う際に気をつける点。
https://gist.github.com/devlights/4561968

この辺りの情報が参考になりそうでしたが、
なぜインタラクティブシェルでは文字化けせず、
スクリプトとして実行したら文字化けするのか(振る舞いを変えるのか?)
理由がよくわかりませんでした。

追記:

09-p126.pyのエンコード?はISO-2022-JP (LF)と出ました。
vimにて:set enc? とすれば、
encoding=utf-8 と出ていたのですが。

.vimrcでは
set enc=utf-8
set fileencodings=iso-2022-jp,euc-jp,sjis,utf-8
set fileformats=unix,dos,mac
と書いていますが、これが原因でしょうか。

bash

1nkf --guess 09-p126.py 2ISO-2022-JP (LF) 3file -i 09-p126.py 409-p126.py: text/x-python; charset=us-ascii

OSはCentOS release 6.9 です。

bash

1cat /etc/redhat-release 2CentOS release 6.9 (Final)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

otn

2018/10/31 00:18

環境(OSなど)は何ですか?
guest

回答3

0

%や$が一つおきに出てくるパターンは、「JISコード」で書かれた日本語文字列の文字化けに見えますね。この時代に何故という気もしますが。

09-p126.pyをセーブする際に何らかの操作ミスでUTF-8指定し損なった可能性はないでしょうか。

投稿2018/10/30 17:44

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

teityura

2018/10/31 15:09

> 何らかの操作ミスでUTF-8指定し損なった vimの設定で悪さをさせてしまってようです。 UTF-8指定できたら、問題なく動作することを確認できました。 ありがとうございました!
guest

0

基本的に、「ちゃんと実行できていれば」同じ結果になります。同じ結果にならなければ、何かしら問題があります。

  • ちゃんとpython3を使っているか?(これに関しては大丈夫そうですが)
  • 同じインタプリタで実行しているか?
  • ファイルの文字コードは正しくUTF-8になっているか?
  • shellの文字コードはUTF-8か?

あたりを確認してください。

投稿2018/10/30 16:57

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

teityura

2018/10/31 15:10

> ファイルの文字コードは正しくUTF-8になっているか? ここが問題だったようです。 他の点も気を付けるようにしてみます。 回答、ありがとうございました。
guest

0

ベストアンサー

set fileencodings=iso-2022-jp,euc-jp,sjis,utf-8

これだと、新規ファイルで日本語文字を入れた場合は大丈夫ですが、半角英数字記号だけの既存ファイルを開いた場合、「iso-2022-jpのファイルだ」と判断されて、それに日本語文字を追加して保存すると、iso-2022-jpで保存されてしまいます。
先頭はutf-8が良いです。

あとは、KojiDoiさんの回答の通り。

投稿2018/10/31 07:12

otn

総合スコア84499

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

teityura

2018/10/31 15:04

vimの設定で、無意識のうちに、 vimでiso-2022-jp のファイルとして保存してしまっていたんですね。 set fileencodings=utf-8,iso-2022-jp,euc-jp,sjis に変更しておきました。 ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問