ec2 selenium 文字化け

目的: seleniumで通常の文字列(python3.xでいうstr型)データをスクレイピングで取得したい。

状況:
AWSのec2インスタンス、Amazon Linux2にてpythonでseleniumを用いてスクレイピング。
linux2の性質上pythonのバージョンは2.7です。
(開発環境はpython3.xでした。)
スクレイピング対象のサイトの文字コードはutf-8

問題: linux2でスクレイピングすると取得するデータがユニコードポイントデータになる。例) u'\uff05

やったアプローチ:
・linux2上のdefaultencodingをutf-8に設定
・プログラムの1行目に例のencoding宣言
・encode(), encode('utf-8"), decode, decode('utf-8'), encode().decode('string-escape')による変換
decodeは変化なし
encodeは変化あり、例) ¥xef¥xbc¥x85

長い間ハマっています。お力添え頂きたく存じます。
何卒宜しくお願い致します。

meg_

2020/09/25 23:18

python2系を使ったことがないのですが、結果としては何に困っておられるのでしょうか？（スクライピングで取得したデータをどうしているのでしょう？）

toast-uz

2020/09/26 02:08

linux2の性質上pythonのバージョンは2.7 が、よく理解できませんでした。python3をインストールすればよいのでは？逆に何かの事情でpython3にできないのであれば、それを質問として出したほうがよいのでは？

shunki1023

2020/09/26 02:29

Amazon linux2はpython2.7と依存関係にあるようで、python3.xに移行できません。解決したいことは出力結果を日本語にすることです。現状ユニコードポイントになって出力されます。

meg_

2020/09/26 02:59

> Amazon linux2はpython2.7と依存関係にあるようで、python3.xに移行できません。 python2.7を削除しないで、python3の追加も出来ませんか？ > 解決したいことは出力結果を日本語にすることです。 > 現状ユニコードポイントになって出力されます。画面出力ですか？　ファイル出力ですか？

toast-uz

2020/09/26 05:16

EC2(Amazon Linux 2)にPython 3.8, Pip 3.8をインストールする https://qiita.com/hitomatagi/items/e63dd8c4b879de156628

toast-uz

2020/09/26 05:24

Amazon Linux2にPython3.8インストールはできます。質問内容を切り分けていただき、コードと不具合の結果を示していただくと、コメントしやすくなると思います。 (1) Python2.7に起因した不具合なのか（Python3.8なら正常なのか） (2) Seleniumに起因した不具合なのか（コードの中の文字列なら正常なのか） (3) 文字化けは画面出力なのか、ファイル出力なのか (1)が要因ではないのであれば、コードはPython3前提にしてもらったほうが、よりコメントがつきやすいです。

yu_1985

2020/09/26 15:50

開発環境とAmazon Linux2上でPythonのバージョン（特に、2と3の違いは大きい）が違うのであれば、まずはそこを合わせることからでは。 Amazon Linux2はyumでもamazon-linux-extrasでもpython3を入れられますが、言語のバージョンコントロールをyumに任せると大体の場合更新に追従しきらずに古いバージョンが入るので、pyenvなどで明示的にバージョンを指定してインストールするといいでしょう。