目的: seleniumで通常の文字列(python3.xでいうstr型)データをスクレイピングで取得したい。
状況:
AWSのec2インスタンス、Amazon Linux2にてpythonでseleniumを用いてスクレイピング。
linux2の性質上pythonのバージョンは2.7です。
(開発環境はpython3.xでした。)
スクレイピング対象のサイトの文字コードはutf-8
問題: linux2でスクレイピングすると取得するデータがユニコードポイントデータになる。例) u'\uff05
やったアプローチ:
・linux2上のdefaultencodingをutf-8に設定
・プログラムの1行目に例のencoding宣言
・encode(), encode('utf-8"), decode, decode('utf-8'), encode().decode('string-escape')による変換
decodeは変化なし
encodeは変化あり、例) ¥xef¥xbc¥x85
長い間ハマっています。お力添え頂きたく存じます。
何卒宜しくお願い致します。
回答1件
あなたの回答
tips
プレビュー