pythonスクレイピングでテーブルデータを抽出しています。outerHTMLで抽出していましたが、テーブル枠がセル結合されているデータを抜くと、改行の<br>タグが邪魔をしてしまい、lot番号がqtyの横にずれてしまいます。
outerHTMLをそのまま使うのではなく、pandasで一行ずつappendをして抽出していくにはどのようなコードが有用か教示いただけると幸いです。
また、
一行
セル結合含む行
一行
のような、セル結合のあとにまた一行なりの行が続く時のappendするif分岐なども教示いただきますと幸いです。
最終的にはCSV出力をします。
```python
Table =driver.find_elements_by_id("ListTable")[0]
str_html = Table.get_attribute("outerHTML")
dfs = pd.read_html(str_html)
print((dfs)[0])
データテーブル結果、lotが横並びになってしまう ```python [ type title ship order qty1 lot qty2 AdjPrice 0 P001 Z01 2 0 2 568 573 1 1 NaN]
HTML
1<table width="100%" class="list" id="ListTable"> 2 <tbody><tr><th>type</th><th>title</th><th>order</th><th>ship</th><th>qty</th><th>lot</th><th>qty</th><th>Adj Price</th></tr><tr><td><a target="_blank" href="******" tabindex="5"> 3 P001 4 </a></td><td>Z01</td><td class="rightJustify">2</td><td class="rightJustify">0</td><td class="rightJustify">2</td><td> 5 6 568<br> 7 8 9 573<br></td><td class="rightJustify"> 10 11 1<br> 12 13 1<br></td><td class="totalValues"></td></tr></tbody></table>
回答2件
あなたの回答
tips
プレビュー