Pythonで文字化けしているCSVファイルの文字コード変換が上手くいかない

Question

### 実現したいこと
CSVファイルを文字化けすることなく、必要分だけ結合したい

### 起きている現象
アメリカのwebサイトからダウンロードしたCSVファイル（そもそも日本語が文字化けしている）の読み込み、ファイル結合する時に文字コードの変換が上手くいっておりません。
ファイル結合前と後で文字化けしている日本語が変換されているため、エンコード自体は行われていると思うのですが、完全には直っていない状態です。

### 試したこと
python 文字コード　変換　CSVで調べて出てくる記事で試されていることを一通りやってみたのですが、
どれも結果は変わりませんでした。

また、こちらの記事で文字コードの正規化を行う必要もあるかもしれないということで、こちらも試したのですが結果は変わりませんでした。

特にエラーは出ないのですが文字コードの変換だけが上手くいっておらず、正直なところどこに原因があるのかわかりません。
そもそもCSVファイルが文字化けしている所から始まっているため、そのファイルが原因の可能性もあるかと思うのですが、対処方法がわかりません。

### お聞きしたいこと
このような現象が起きている原因は何なのでしょうか？
ファイルに問題ありなのか、コードに問題があるのか、それともまた別の問題か、ご教示いただけますと幸いです。

```python
#実装コード
#必要なモジュールをインポート
import glob
import pandas as pd
import codecs as cd
import chardet
import unicodedata
from pathlib import Path

#UTF-8、Shift-JISディレクトリへのパス
path_u = Path("C:\test\UTF-8")
path_s= Path("C:\test\Shift-JIS")

#それぞれのディレクトリで「.csv」が入っている名前のファイルを取得
ufiles = list (path_u.glob("*.csv"))
sfiles = list (path_s.glob("*.csv"))

#UTF-8とShift-JISフォルダの同名ファイルを辞書形式のペアデータとする
files_dict = dict(zip(ufiles,sfiles))

#UTF-8ディレクトリ内のCSVファイルの中身をShift-JISディレクトリ内の同名ファイルに書き込み変換。
#複数ファイルにも対応するようにfor文で書く。cp932=Shift-JIS。replaceはエラーとなった文字を?に置き換え。
for ufile,sfile in files_dict.items():#.items()は辞書形式のデータでfor文をまわす際によく利用します。
    with open(ufile, encoding='utf-8',errors='replace') as fin:
        with open(sfile, 'w', encoding='utf-8',errors='replace') as fout:
            fout.write(fin.read())

# 読み込んだファイルを入れるリストを準備
lists = []

# フォルダ、ファイルの種類を指定
folder = 'C:\test1\*.csv'

# #結合後のExcelファイル名を指定
excel_file_name='C:\test1\merge.csv'

#1 フォルダ内のファイル一覧を読み込み
file_list=glob.glob(folder)

#2 リストにファイルを保存
for i in file_list:
    with cd.open(i, "r", "utf-8", errors='replace') as file:
        lists.append(pd.read_csv(file, encoding='utf-8'))

#3 リスト内のExcelをマージ
merge_data = pd.concat(lists)

#4 マージしたデータをExcelへ書き込み
merge_data.to_csv(excel_file_name,index=0)
```

Answer

まず、複雑なことをやって最終的にうまく行っていない時は、最終的な成果物を得ようとするのではなく、途中を細かくチェックすることです。  
VSCodeなどのIDEが使えるならbreadさせて値を見るとか、print文で画面に表示してみるとか、プログラムを細かく分けてそれぞれが想定通りの動きをしているかチェックするとか。  
文字コード周りが問題かと考えているときに、forループを回したりpd.concat()を実行したりする必要はありませんよね？  
「文字コードの変換」も、要素としては2つに分かれます。  
まず、エンコードされたデータをデコードしながらreadしてファイルに書かれているデータを取得すること。  
次に、取得したデータを、エンコードしながらwriteしてファイル化すること。  
readのチェックなら、例えば以下のようなテストコードを書いてチェックすることをお勧めします。  
（test.csvは実際にあるファイル名に置き換えてください）  
```python
print('readのテスト')
with open('test.csv', encoding='utf-8',errors='replace') as fin:
    read_data = fin.read()
    print(read_data)
```
コードの問題点の指摘です。
前半部分、utf8のファイルを読んで、shift-jisでwriteすることを意図していると思いますが、writeする際のencodingの指定が'utf-8'になっています。  
encoding='shift_jisとするべきだろうと思います。  
本質からは逸れますが、ご提示のコードはpath_sにpath_uと同じ名前のファイル群があらかじめ格納されていることを前提としていて、同名ファイルを上書きしようとしていますが、やりたいことはpath_uのファイルを読んで、同名のファイル名でpath_sに書き出すことですよね？  
path_sは空の状態で始めるのが普通だと思います。  
後半部分、codecsでopenしてからpandasでread_csv()していますね。  
これでも動きそうですが、pandasは
```python
data_frame = pd.read_csv(file_path, encoding='utf-8')
```
だけで動きますので、codecsは不要です。  
コメントに「Excelへ書き込み」とありますが、出力しているのはあくまでcsvファイルであってExcelファイルではありません。  
Excelはcsvファイルをダブルクリックして開くと、encodingの解釈に失敗してutf-8のファイルでもshift-jisのファイルとして開こうとするのでご注意ください。  
csvファイルが正しくwriteできたか確認する際は、Excelではなくテキストエディタ（秀丸とかサクラエディタ、VSCodeでも可）で開いてみることをお勧めします。  
テキストエディタならExcelと違ってエンコードの解釈をうまくやってくれることが多いですし、文字化けしていたら「エンコードの種類を指定して開きなおす」ことが容易にできます。  
Excelで確認したいなら、ダブルクリックで開くのではなくデータタブの「テキストまたはCSVから」を使ってテキストデータをインポートする必要がありますので、ご注意ください。

実現したいこと

起きている現象

試したこと

お聞きしたいこと

関連した質問