質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.53%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

openpyxl

openpyxlは、Excel2007以降のファイル(xlsx/xlsm/xltx/xltm)を読み書きするためのPythonライブラリです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

186閲覧

【Python】htmlのテーブル書き換えで意図しない値に置き換わる

comacom

総合スコア0

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

openpyxl

openpyxlは、Excel2007以降のファイル(xlsx/xlsm/xltx/xltm)を読み書きするためのPythonライブラリです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2023/11/28 06:13

編集2023/11/28 07:01

実現したいこと

Pythonでhtml内のテーブル(テキスト部分)を、Excelの内容をもとに書き換える

前提

Pythonでhtmlのテーブル内テキスト部分を書き換えるプログラムを作っています。
(具体的にはテーブルは料金表で、既存の価格から新価格へ書き換えるために作成しています。)

openpyxlでExcelを読み込み、A列に記入されている値たち(以下、「書き換えデータ」と記載)をlistに追加。それをpop(0)で取り出してhtml内のテーブルのテキストを書き換えています。
html内の書き換え先検索にはBeautifulSoup4を使用しています。

処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。

※実際はExcelは複数シート存在し、各シートに対応するhtmlファイルがシート数分存在しています。

実行環境

  • Mac(Monterey)
  • Python3

質問内容

  • 意図しない置き換えがされる原因と解決策が知りたいです。正しく置き換えができている箇所も多数あり、意図しない置き換えが発生する箇所の原因や法則性もわからず困っています。(ただし再現性はあります。)

発生している問題

処理自体はエラー等は出ず、一見問題なく書き換えできているように見えるのですが、正しく置き換えができていない箇所が複数あります。

書き換えが正しくできていない箇所は以下の3つのうちどれかしらに当てはまっています。
(3つ全てが同じ原因で起きているのかは現状わかりません。)

また、試したことの項目で記載していますが、Pythonコードの47行目のreplaceの処理で意図しない値に置き換わっていることまではわかっています。

① 書き換えデータのリストで後ろに格納されている値が、想定より前の箇所で書き換えられる。

ex)以下のテーブルを書き換えデータで書き換えたい
<td> a </td>
<td> b </td>
<td> c </td>
<td> d </td>

書き換えデータ[e, f, g, h ]

○処理結果○
<td> e </td>
<td> h </td> //fで置き換えたいところ、hで置き換えられてしまう
<td> g </td>
<td> h </td>

② 書き換え後の値の一部が、2進数表記の下3桁に変換される。
今のところ4桁の値では起きたことがなく、5桁の場合のみ発生する。
ただし全ての5桁の値がこのように置き換えられるわけではなく、一部の値のみ発生する。

ex)

書き換えたい値実際の書き換え結果
23,920111,920
22,070110,070

③ 書き換え後の値の一部が想定とは異なる値に書き換えられる(書き換えデータのリストには存在しない値)
具体的には下3桁目以降が想定より±2 or ±3ずれる。

ex)

書き換えたい値実際の書き換え結果
20,23018,230

該当のソースコード

Python

1from bs4 import BeautifulSoup 2import openpyxl 3import glob 4import os 5import shutil 6import tkinter 7import tkinter.filedialog 8from natsort import natsorted 9 10def replace_a_tag_text(html_file, new_file , ws , column_index): 11 12 # 最終行を取得する 13 maxRow = ws.max_row + 1 14 maxClm = ws.max_column + 1 15 16 #行を逆ループ 17 for j in range(1,maxClm): 18 # 列の指定 19 if j == column_index: 20 for i in reversed(range(1,maxRow)): 21 if ws.cell(row=i, column=j).value != None: 22 last_row = i 23 break 24 25 # リストを初期化 26 data = [] 27 28 # 1行ずつ読み取る 29 for row in range(1, last_row + 1): 30 # 指定した列の値を取得する 31 value = ws.cell(row, column_index).value 32 # リストに追加する 33 data.append(value) 34 35 # htmlファイルを読み込み 36 with open(html_file, "r",encoding='UTF-8') as f , open(new_file, "w") as nf: 37 38 rep_html = f.read() 39 soup = BeautifulSoup(rep_html, 'html.parser') 40 41 #書き換え候補を探し、置き換える 42 for a_tags in soup.tbody.select('tr a'): 43 a_tags_text = a_tags.get_text(strip=True) 44 # 書き替えるテキストを取得する 45 replace_text = data.pop(0) 46 # 書き替えを実行 47 rep_html = rep_html.replace(a_tags_text,str(replace_text)) 48 49 nf.write(rep_html) 50 51 52if __name__ == "__main__": 53 54 column_index = 1 55 56 #書き換えの時に参照したいエクセルを選択させる★GUI 57 idir = '/Users/XXXXXX/Desktop/kakikae_test' 58 excel_file = tkinter.filedialog.askopenfilename( 59 initialdir = idir, 60 title = "参照したいExcelを選択") 61 62 #処理したいフォルダを選択させる★GUI 63 html_folder = tkinter.filedialog.askdirectory( 64 initialdir = idir, 65 title = "書き換えたいhtmlファイルを含むフォルダを選択") 66 67 # 処理したいディレクトリに移動 68 os.chdir(html_folder) 69 70 #書き換え先のnewフォルダを作る 71 os.mkdir('./new') 72 73 # フォルダ内の全てのHTMLファイルを読み込む 74 html_files = natsorted(glob.glob('*.html')) 75 76 #シート数=HTMLファイル数を管理するためのカウント番号をリセット 77 cnt = 0 78 79 # Excelファイルを読み込む 80 wb = openpyxl.load_workbook(excel_file) 81 82 # シートごとの処理 83 for ws in wb.worksheets: 84 print("シート名:" + str(ws)) 85 86 #書き換え元のhtmlを設定 87 html_file = html_files[cnt] 88 89 # 書き換えた後のhtmlファイルを設定(元のhtmlファイルをnewフォルダ内にコピー) 90 new_file = shutil.copy2( html_file , './new') 91 92 # データを書き替える 93 replace_a_tag_text(html_file, new_file , ws , column_index) 94 95 #htmlファイルのカウントを進める 96 cnt = cnt + 1 97 98 wb.close()

html

1234# テーブル内の値は適当です 5<tbody> 6 <tr> 7 <th class="title">tableA</th> 8 <td><a href="XXXXXXX"> 3,580 </a></td> 9 <td><a href="XXXXXXX"> 2,480 </a></td> 10 <td><a href="XXXXXXX"> 2,250 </a></td> 11 <td><a href="XXXXXXX"> 2,020 </a></td> 12 </tr> 13 <tr> 14 <th class="title">tableB</th> 15 <td><a href="XXXXXXX"> 4,570 </a></td> 16 <td><a href="XXXXXXX"> 4,210 </a></td> 17 <td><a href="XXXXXXX"> 3,850 </a></td> 18 <td><a href="XXXXXXX"> 3,500 </a></td> 19 </tr> 20 <tr> 21 <th class="title">tableC</th> 22 <td><a href="XXXXXXX"> 4,570 </a></td> 23 <td><a href="XXXXXXX"> 4,210 </a></td> 24 <td><a href="XXXXXXX"> 3,850 </a></td> 25 <td><a href="XXXXXXX"> 3,500 </a></td> 26 </tr> 27 <tr> 28 <th class="title">tableD</th> 29 <td><a href="XXXXXXX"> 4,570 </a></td> 30 <td><a href="XXXXXXX"> 4,210 </a></td> 31323334</tbody> 353637

試したこと

  • 書き換え実行(rep_html=~~)の直前で、 a_tags_text、replace_textをprint()で出力

→問題なく想定通りExcelの書き換えデータの値がそのまま出力されていることを確認しました。

  • 書き換え実行(rep_html=~~)とhtml書き出し(nf.write(rep_html))の間でrep_htmlを出力

→発生している問題の項目で記載した、想定しない置き換えがされたhtmlが出力されることを確認しました。

  • htmlファイルのopenの際に指定したencodingが悪さしているのかと思い、付けたり外したりしてみるものの処理結果に変化ありませんでした。

[追記]
Excelのシート数分だけhtmlファイルを書き換えたところ、意図しない置き換えがされている箇所や個数はまちまちでした。


質問内容は以上となります。
回答のために不足している情報がありましたら追記致します。

Pythonでこういったプログラムを作成するのは初めてで、プログラム自体変な書き方をしているかもしれません;
問題についても色々と調べてみたものの、1週間以上原因・解決に辿り着けないため、お力をお貸しいただけますと幸いです。よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

3

rep_html.replace(...) としてしまうと、HTML ファイルの内容全体を対象にして置換を実行してしまうことになります。書き換えるのは tr 要素内にある a 要素のテキスト部分なので、bs4.element.Tag.string を置き換えます。以下は簡略化した実行例です。

python

1from bs4 import BeautifulSoup 2 3html_file = 'input.html' 4new_file = 'output.html' 5data = ['e', 'f', 'g', 'h'] 6 7with open(html_file, "r",encoding='UTF-8') as f, open(new_file, "w") as nf: 8 rep_html = f.read() 9 soup = BeautifulSoup(rep_html, 'html.parser') 10 11 #書き換え候補を探し、置き換える 12 for a_tags in soup.tbody.select('tr a'): 13 # a_tags_text = a_tags.get_text(strip=True) 14 # 書き替えるテキストを取得する 15 replace_text = data.pop(0) 16 # 書き替えを実行 17 a_tags.string = replace_text 18 # rep_html = rep_html.replace(a_tags_text,str(replace_text)) 19 20 nf.write(str(soup))

input.html

html

1<table> 2<tbody> 3<tr> 4<td><a> a </a></td> 5<td><a> b </a></td> 6<td><a> c </a></td> 7<td><a> d </a></td> 8</tr> 9</tbody> 10</table>

output.html

html

1<table> 2<tbody> 3<tr> 4<td><a>e</a></td> 5<td><a>f</a></td> 6<td><a>g</a></td> 7<td><a>h</a></td> 8</tr> 9</tbody> 10</table>

投稿2023/11/28 07:04

melian

総合スコア19461

Lhankor_Mhy, comacom👍を押しています
comacomを押しています

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

comacom

2023/11/28 08:06

ご回答ありがとうございます! そもそものbeautifulsoupの使い方・置き換え方がいまいちだったのですね; 修正・実行してみたところ書き換えたい箇所は問題なく置き換えができてうまくいったのですが、 それ以外の関係ない部分のクラスやidの要素の順序が全体的に入れ替わったり、brタグに/が追加されてしまいました。。。 これは何が原因なのでしょうか? 抽出の指定をした<tr>タグ内の<a>タグは該当のテーブル部分にしかないことは確認済みです。 ex) <meta name="〇〇" content="△△" /> → <meta content="△△" name="〇〇" > <img src="〇〇" width="XX" height="XX" alt="△△">  →<img alt="△△" height="XX" src="〇〇" width="XX"> <br>→<br/> など
comacom

2023/11/28 08:15

↑のコメントの <meta name="〇〇" content="△△" />の/はミスです、無視してください。
melian

2023/11/28 08:22

タグの属性の順序に関しては、BeautifulSoup の内部では辞書順でソートされています。 <br/> に関しては XHTML 時代の名残りです。どちらにしても、HTML 要素としての意味に違いがあるわけではありませんが、元の HTML ファイルの内容と同一の順序でないと問題があるのでしょうか?
comacom

2023/11/28 09:04

なるほど、BeautifulSoup内で自動的にソート・brについては補完されるのですね。 無知でした、ありがとうございます。 属性順序が入れ替わってもHTMLの意味としては同様というのは承知しているのですが、今回書き換えを行わない他のhtmlファイルのコーディングルールと揃っていた方が(見た目としても差分管理等の面でも)少し嬉しいな、という思いがありまして・・・ とはいえ、ソートされるのはbs4の仕様とのことなのでその点は目を瞑ったほうが良さそうですね。 ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.53%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

同じタグがついた質問を見る

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

openpyxl

openpyxlは、Excel2007以降のファイル(xlsx/xlsm/xltx/xltm)を読み書きするためのPythonライブラリです。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。