【Python】htmlのテーブル書き換えで意図しない値に置き換わる

実現したいこと

Pythonでhtml内のテーブル（テキスト部分）を、Excelの内容をもとに書き換える

前提

Pythonでhtmlのテーブル内テキスト部分を書き換えるプログラムを作っています。
（具体的にはテーブルは料金表で、既存の価格から新価格へ書き換えるために作成しています。）

openpyxlでExcelを読み込み、A列に記入されている値たち（以下、「書き換えデータ」と記載）をlistに追加。それをpop(0)で取り出してhtml内のテーブルのテキストを書き換えています。
html内の書き換え先検索にはBeautifulSoup4を使用しています。

処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。

※実際はExcelは複数シート存在し、各シートに対応するhtmlファイルがシート数分存在しています。

実行環境

Mac(Monterey)
Python3

質問内容

意図しない置き換えがされる原因と解決策が知りたいです。正しく置き換えができている箇所も多数あり、意図しない置き換えが発生する箇所の原因や法則性もわからず困っています。（ただし再現性はあります。）

発生している問題

処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。

書き換えが正しくできていない箇所は以下の３つのうちどれかしらに当てはまっています。
（３つ全てが同じ原因で起きているのかは現状わかりません。）

また、試したことの項目で記載していますが、Pythonコードの47行目のreplaceの処理で意図しない値に置き換わっていることまではわかっています。

① 書き換えデータのリストで後ろに格納されている値が、想定より前の箇所で書き換えられる。

ex)以下のテーブルを書き換えデータで書き換えたい
<td> a </td>
<td> b </td>
<td> c </td>
<td> d </td>

書き換えデータ[e, f, g, h ]

○処理結果○
<td> e </td>
<td> h </td> //fで置き換えたいところ、hで置き換えられてしまう
<td> g </td>
<td> h </td>

② 書き換え後の値の一部が、2進数表記の下3桁に変換される。
今のところ4桁の値では起きたことがなく、5桁の場合のみ発生する。
ただし全ての5桁の値がこのように置き換えられるわけではなく、一部の値のみ発生する。

ex)

書き換えたい値	実際の書き換え結果
23,920	111,920
22,070	110,070

③ 書き換え後の値の一部が想定とは異なる値に書き換えられる（書き換えデータのリストには存在しない値）
具体的には下3桁目以降が想定より±2 or ±3ずれる。

ex)

書き換えたい値	実際の書き換え結果
20,230	18,230

該当のソースコード

Python
1from bs4 import BeautifulSoup
2import openpyxl
3import glob
4import os
5import shutil
6import tkinter
7import tkinter.filedialog
8from natsort import natsorted
9
10def replace_a_tag_text(html_file, new_file , ws , column_index):
11
12    # 最終行を取得する
13    maxRow = ws.max_row + 1
14    maxClm = ws.max_column + 1
15
16    #行を逆ループ
17    for j in range(1,maxClm):
18        # 列の指定
19        if j == column_index:
20            for i in reversed(range(1,maxRow)):
21                if ws.cell(row=i, column=j).value != None:
22                    last_row = i
23                    break
24    
25    # リストを初期化
26    data = []
27
28    # 1行ずつ読み取る
29    for row in range(1, last_row + 1):
30        # 指定した列の値を取得する
31        value = ws.cell(row, column_index).value
32        # リストに追加する
33        data.append(value)
34
35    # htmlファイルを読み込み
36    with open(html_file, "r",encoding='UTF-8') as f  , open(new_file, "w") as nf:
37
38        rep_html = f.read()
39        soup = BeautifulSoup(rep_html, 'html.parser')
40
41        #書き換え候補を探し、置き換える
42        for a_tags in soup.tbody.select('tr a'):
43            a_tags_text = a_tags.get_text(strip=True)
44            # 書き替えるテキストを取得する
45            replace_text = data.pop(0)
46            # 書き替えを実行
47            rep_html = rep_html.replace(a_tags_text,str(replace_text))
48
49        nf.write(rep_html)    
50
51
52if __name__ == "__main__":
53
54    column_index = 1
55
56    #書き換えの時に参照したいエクセルを選択させる★GUI
57    idir = '/Users/XXXXXX/Desktop/kakikae_test'
58    excel_file = tkinter.filedialog.askopenfilename(
59        initialdir = idir,
60        title = "参照したいExcelを選択")
61
62    #処理したいフォルダを選択させる★GUI
63    html_folder = tkinter.filedialog.askdirectory(
64        initialdir = idir,
65        title = "書き換えたいhtmlファイルを含むフォルダを選択")
66    
67    # 処理したいディレクトリに移動
68    os.chdir(html_folder)
69
70    #書き換え先のnewフォルダを作る
71    os.mkdir('./new')
72
73    # フォルダ内の全てのHTMLファイルを読み込む
74    html_files = natsorted(glob.glob('*.html')) 
75
76    #シート数=HTMLファイル数を管理するためのカウント番号をリセット
77    cnt = 0
78
79    # Excelファイルを読み込む
80    wb = openpyxl.load_workbook(excel_file)
81    
82    # シートごとの処理
83    for ws in wb.worksheets:
84        print("シート名:" + str(ws))
85        
86        #書き換え元のhtmlを設定
87        html_file = html_files[cnt]
88
89        # 書き換えた後のhtmlファイルを設定(元のhtmlファイルをnewフォルダ内にコピー)
90        new_file = shutil.copy2( html_file , './new')
91
92        # データを書き替える
93        replace_a_tag_text(html_file, new_file , ws , column_index)
94
95        #htmlファイルのカウントを進める
96        cnt = cnt + 1
97    
98    wb.close()

html
1・
2・
3・
4# テーブル内の値は適当です
5<tbody>
6  <tr>
7    <th class="title">tableA</th>
8    <td><a href="XXXXXXX"> 3,580 </a></td>
9    <td><a href="XXXXXXX"> 2,480 </a></td>
10    <td><a href="XXXXXXX"> 2,250 </a></td>
11    <td><a href="XXXXXXX"> 2,020 </a></td>
12  </tr>
13  <tr>
14    <th class="title">tableB</th>
15    <td><a href="XXXXXXX"> 4,570 </a></td>
16    <td><a href="XXXXXXX"> 4,210 </a></td>
17    <td><a href="XXXXXXX"> 3,850 </a></td>
18    <td><a href="XXXXXXX"> 3,500 </a></td>
19  </tr>
20  <tr>
21    <th class="title">tableC</th>
22    <td><a href="XXXXXXX"> 4,570 </a></td>
23    <td><a href="XXXXXXX"> 4,210 </a></td>
24    <td><a href="XXXXXXX"> 3,850 </a></td>
25    <td><a href="XXXXXXX"> 3,500 </a></td>
26  </tr>
27  <tr>
28    <th class="title">tableD</th>
29    <td><a href="XXXXXXX"> 4,570 </a></td>
30    <td><a href="XXXXXXX"> 4,210 </a></td>
31    ・
32    ・
33    ・
34</tbody>
35・
36・
37・

試したこと

書き換え実行（rep_html=~~）の直前で、 a_tags_text、replace_textをprint()で出力

→問題なく想定通りExcelの書き換えデータの値がそのまま出力されていることを確認しました。

書き換え実行（rep_html=~~）とhtml書き出し（nf.write(rep_html)）の間でrep_htmlを出力

→発生している問題の項目で記載した、想定しない置き換えがされたhtmlが出力されることを確認しました。

htmlファイルのopenの際に指定したencodingが悪さしているのかと思い、付けたり外したりしてみるものの処理結果に変化ありませんでした。

[追記]
Excelのシート数分だけhtmlファイルを書き換えたところ、意図しない置き換えがされている箇所や個数はまちまちでした。

質問内容は以上となります。
回答のために不足している情報がありましたら追記致します。

Pythonでこういったプログラムを作成するのは初めてで、プログラム自体変な書き方をしているかもしれません；
問題についても色々と調べてみたものの、1週間以上原因・解決に辿り着けないため、お力をお貸しいただけますと幸いです。よろしくお願いいたします。

行動規範の内容に同意します

回答1件

rep_html.replace(...) としてしまうと、HTML ファイルの内容全体を対象にして置換を実行してしまうことになります。書き換えるのは tr 要素内にある a 要素のテキスト部分なので、bs4.element.Tag.string を置き換えます。以下は簡略化した実行例です。

python
1from bs4 import BeautifulSoup
2
3html_file = 'input.html'
4new_file = 'output.html'
5data = ['e', 'f', 'g', 'h']
6
7with open(html_file, "r",encoding='UTF-8') as f, open(new_file, "w") as nf:
8    rep_html = f.read()
9    soup = BeautifulSoup(rep_html, 'html.parser')
10
11    #書き換え候補を探し、置き換える
12    for a_tags in soup.tbody.select('tr a'):
13        # a_tags_text = a_tags.get_text(strip=True)
14        # 書き替えるテキストを取得する
15        replace_text = data.pop(0)
16        # 書き替えを実行
17        a_tags.string = replace_text
18        # rep_html = rep_html.replace(a_tags_text,str(replace_text))
19
20    nf.write(str(soup))

input.html

html
1<table>
2<tbody>
3<tr>
4<td><a> a </a></td>
5<td><a> b </a></td>
6<td><a> c </a></td>
7<td><a> d </a></td>
8</tr>
9</tbody>
10</table>

output.html

html
1<table>
2<tbody>
3<tr>
4<td><a>e</a></td>
5<td><a>f</a></td>
6<td><a>g</a></td>
7<td><a>h</a></td>
8</tr>
9</tbody>
10</table>

投稿2023/11/28 07:04

melian

総合スコア21118

comacom

2023/11/28 08:06

ご回答ありがとうございます！そもそものbeautifulsoupの使い方・置き換え方がいまいちだったのですね；修正・実行してみたところ書き換えたい箇所は問題なく置き換えができてうまくいったのですが、それ以外の関係ない部分のクラスやidの要素の順序が全体的に入れ替わったり、brタグに/が追加されてしまいました。。。これは何が原因なのでしょうか？抽出の指定をした<tr>タグ内の<a>タグは該当のテーブル部分にしかないことは確認済みです。 ex) <meta name="〇〇" content="△△" />　→　<meta content="△△" name="〇〇" > <img src="〇〇" width="XX" height="XX" alt="△△">　 →<img alt="△△" height="XX" src="〇〇" width="XX"> <br>→<br/> など

comacom

2023/11/28 08:15

↑のコメントの <meta name="〇〇" content="△△" />の/はミスです、無視してください。

melian

2023/11/28 08:22

タグの属性の順序に関しては、BeautifulSoup の内部では辞書順でソートされています。 <br/> に関しては XHTML 時代の名残りです。どちらにしても、HTML 要素としての意味に違いがあるわけではありませんが、元の HTML ファイルの内容と同一の順序でないと問題があるのでしょうか？

comacom

2023/11/28 09:04

なるほど、BeautifulSoup内で自動的にソート・brについては補完されるのですね。無知でした、ありがとうございます。属性順序が入れ替わってもHTMLの意味としては同様というのは承知しているのですが、今回書き換えを行わない他のhtmlファイルのコーディングルールと揃っていた方が（見た目としても差分管理等の面でも）少し嬉しいな、という思いがありまして・・・とはいえ、ソートされるのはbs4の仕様とのことなのでその点は目を瞑ったほうが良さそうですね。ありがとうございました！

行動規範の内容に同意します