実現したいこと
Pythonでhtml内のテーブル(テキスト部分)を、Excelの内容をもとに書き換える
前提
Pythonでhtmlのテーブル内テキスト部分を書き換えるプログラムを作っています。
(具体的にはテーブルは料金表で、既存の価格から新価格へ書き換えるために作成しています。)
openpyxlでExcelを読み込み、A列に記入されている値たち(以下、「書き換えデータ」と記載)をlistに追加。それをpop(0)で取り出してhtml内のテーブルのテキストを書き換えています。
html内の書き換え先検索にはBeautifulSoup4を使用しています。
処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。
※実際はExcelは複数シート存在し、各シートに対応するhtmlファイルがシート数分存在しています。
実行環境
- Mac(Monterey)
- Python3
質問内容
- 意図しない置き換えがされる原因と解決策が知りたいです。正しく置き換えができている箇所も多数あり、意図しない置き換えが発生する箇所の原因や法則性もわからず困っています。(ただし再現性はあります。)
発生している問題
処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。
書き換えが正しくできていない箇所は以下の3つのうちどれかしらに当てはまっています。
(3つ全てが同じ原因で起きているのかは現状わかりません。)
また、試したことの項目で記載していますが、Pythonコードの47行目のreplaceの処理で意図しない値に置き換わっていることまではわかっています。
① 書き換えデータのリストで後ろに格納されている値が、想定より前の箇所で書き換えられる。
ex)以下のテーブルを書き換えデータで書き換えたい
<td> a </td>
<td> b </td>
<td> c </td>
<td> d </td>
書き換えデータ[e, f, g, h ]
○処理結果○
<td> e </td>
<td> h </td> //fで置き換えたいところ、hで置き換えられてしまう
<td> g </td>
<td> h </td>
② 書き換え後の値の一部が、2進数表記の下3桁に変換される。
今のところ4桁の値では起きたことがなく、5桁の場合のみ発生する。
ただし全ての5桁の値がこのように置き換えられるわけではなく、一部の値のみ発生する。
ex)
書き換えたい値 | 実際の書き換え結果 |
---|---|
23,920 | 111,920 |
22,070 | 110,070 |
③ 書き換え後の値の一部が想定とは異なる値に書き換えられる(書き換えデータのリストには存在しない値)
具体的には下3桁目以降が想定より±2 or ±3ずれる。
ex)
書き換えたい値 | 実際の書き換え結果 |
---|---|
20,230 | 18,230 |
該当のソースコード
Python
1from bs4 import BeautifulSoup 2import openpyxl 3import glob 4import os 5import shutil 6import tkinter 7import tkinter.filedialog 8from natsort import natsorted 9 10def replace_a_tag_text(html_file, new_file , ws , column_index): 11 12 # 最終行を取得する 13 maxRow = ws.max_row + 1 14 maxClm = ws.max_column + 1 15 16 #行を逆ループ 17 for j in range(1,maxClm): 18 # 列の指定 19 if j == column_index: 20 for i in reversed(range(1,maxRow)): 21 if ws.cell(row=i, column=j).value != None: 22 last_row = i 23 break 24 25 # リストを初期化 26 data = [] 27 28 # 1行ずつ読み取る 29 for row in range(1, last_row + 1): 30 # 指定した列の値を取得する 31 value = ws.cell(row, column_index).value 32 # リストに追加する 33 data.append(value) 34 35 # htmlファイルを読み込み 36 with open(html_file, "r",encoding='UTF-8') as f , open(new_file, "w") as nf: 37 38 rep_html = f.read() 39 soup = BeautifulSoup(rep_html, 'html.parser') 40 41 #書き換え候補を探し、置き換える 42 for a_tags in soup.tbody.select('tr a'): 43 a_tags_text = a_tags.get_text(strip=True) 44 # 書き替えるテキストを取得する 45 replace_text = data.pop(0) 46 # 書き替えを実行 47 rep_html = rep_html.replace(a_tags_text,str(replace_text)) 48 49 nf.write(rep_html) 50 51 52if __name__ == "__main__": 53 54 column_index = 1 55 56 #書き換えの時に参照したいエクセルを選択させる★GUI 57 idir = '/Users/XXXXXX/Desktop/kakikae_test' 58 excel_file = tkinter.filedialog.askopenfilename( 59 initialdir = idir, 60 title = "参照したいExcelを選択") 61 62 #処理したいフォルダを選択させる★GUI 63 html_folder = tkinter.filedialog.askdirectory( 64 initialdir = idir, 65 title = "書き換えたいhtmlファイルを含むフォルダを選択") 66 67 # 処理したいディレクトリに移動 68 os.chdir(html_folder) 69 70 #書き換え先のnewフォルダを作る 71 os.mkdir('./new') 72 73 # フォルダ内の全てのHTMLファイルを読み込む 74 html_files = natsorted(glob.glob('*.html')) 75 76 #シート数=HTMLファイル数を管理するためのカウント番号をリセット 77 cnt = 0 78 79 # Excelファイルを読み込む 80 wb = openpyxl.load_workbook(excel_file) 81 82 # シートごとの処理 83 for ws in wb.worksheets: 84 print("シート名:" + str(ws)) 85 86 #書き換え元のhtmlを設定 87 html_file = html_files[cnt] 88 89 # 書き換えた後のhtmlファイルを設定(元のhtmlファイルをnewフォルダ内にコピー) 90 new_file = shutil.copy2( html_file , './new') 91 92 # データを書き替える 93 replace_a_tag_text(html_file, new_file , ws , column_index) 94 95 #htmlファイルのカウントを進める 96 cnt = cnt + 1 97 98 wb.close()
html
1・ 2・ 3・ 4# テーブル内の値は適当です 5<tbody> 6 <tr> 7 <th class="title">tableA</th> 8 <td><a href="XXXXXXX"> 3,580 </a></td> 9 <td><a href="XXXXXXX"> 2,480 </a></td> 10 <td><a href="XXXXXXX"> 2,250 </a></td> 11 <td><a href="XXXXXXX"> 2,020 </a></td> 12 </tr> 13 <tr> 14 <th class="title">tableB</th> 15 <td><a href="XXXXXXX"> 4,570 </a></td> 16 <td><a href="XXXXXXX"> 4,210 </a></td> 17 <td><a href="XXXXXXX"> 3,850 </a></td> 18 <td><a href="XXXXXXX"> 3,500 </a></td> 19 </tr> 20 <tr> 21 <th class="title">tableC</th> 22 <td><a href="XXXXXXX"> 4,570 </a></td> 23 <td><a href="XXXXXXX"> 4,210 </a></td> 24 <td><a href="XXXXXXX"> 3,850 </a></td> 25 <td><a href="XXXXXXX"> 3,500 </a></td> 26 </tr> 27 <tr> 28 <th class="title">tableD</th> 29 <td><a href="XXXXXXX"> 4,570 </a></td> 30 <td><a href="XXXXXXX"> 4,210 </a></td> 31 ・ 32 ・ 33 ・ 34</tbody> 35・ 36・ 37・
試したこと
- 書き換え実行(rep_html=~~)の直前で、 a_tags_text、replace_textをprint()で出力
→問題なく想定通りExcelの書き換えデータの値がそのまま出力されていることを確認しました。
- 書き換え実行(rep_html=~~)とhtml書き出し(nf.write(rep_html))の間でrep_htmlを出力
→発生している問題の項目で記載した、想定しない置き換えがされたhtmlが出力されることを確認しました。
- htmlファイルのopenの際に指定したencodingが悪さしているのかと思い、付けたり外したりしてみるものの処理結果に変化ありませんでした。
[追記]
Excelのシート数分だけhtmlファイルを書き換えたところ、意図しない置き換えがされている箇所や個数はまちまちでした。
質問内容は以上となります。
回答のために不足している情報がありましたら追記致します。
Pythonでこういったプログラムを作成するのは初めてで、プログラム自体変な書き方をしているかもしれません;
問題についても色々と調べてみたものの、1週間以上原因・解決に辿り着けないため、お力をお貸しいただけますと幸いです。よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2023/11/28 08:06
2023/11/28 08:15
2023/11/28 08:22
2023/11/28 09:04