HTMLファイルで、以下のような表のソースから、特定の文字列を抽出してCSVまたはXLSX形式のデータを作成したいです。
VBAかpythonでできればと思っています。
<table data-v-298a824b="">
<tr data-v-298a824b="" class="product-fabric">
<td data-v-298a824b="" class="first-column"><img data-v-298a824b="" src="https://xxx.png" class="product-fabric-img"><div data-v-298a824b="" class="product-fabric-text"><p data-v-298a824b="" class="strong"> ○○○ </p><p data-v-298a824b=""> aa.aaaaa </p></div><div data-v-298a824b="" class="product-launch-text"><p data-v-298a824b="" class="strong"> テキスト </p><p data-v-298a824b="">テキスト</p></div></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header red"><span data-v-298a824b="" title="< 5"> < 5 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<!---->
</tr>
<tr data-v-298a824b="" class="product-fabric">
<td data-v-298a824b="" class="first-column"><img data-v-298a824b="" src="https://zzz.png" class="product-fabric-img"><div data-v-298a824b="" class="product-fabric-text"><p data-v-298a824b="" class="strong"> ××× </p><p data-v-298a824b=""> bb.bbbb </p></div><div data-v-298a824b="" class="product-launch-text"><p data-v-298a824b="" class="strong"> テキスト </p><p data-v-298a824b="">テキスト</p></div></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header red"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header orange"><span data-v-298a824b="" title="< 10"> < 10 </span></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header red"><!----></div><!----></div><!----></td>
<td data-v-298a824b=""><div data-v-298a824b="" class="product"><div data-v-298a824b="" class="product-header green"><!----></div><!----></div><!----></td>
<!---->
</tr>
</table>
ここから
*divタグのclass値が「product-fabric-text」で、2つ目のpタグ内のテキスト(aa.aaaaaやbb.bbbb)
*各trの2~14番目のtdタグにおける、2つ目のdivタグ内のclass値product-headerの後ろにくるカラー名(green、orenge、redの3種)
を抜き取って、次のようにタテ積みのデータ(csv形式もしくはxlsx形式)にしたいです。
その際、aa.aaaaa→aaaaaaa(「.」を除外)に変換し、
間に1列(特定の文字列)を入力したいです。
出来上がりのデータのイメージは以下の通りです。
aaaaaaa,指定文字列1,orange
aaaaaaa,指定文字列2,green
aaaaaaa,指定文字列3,orenge
aaaaaaa,指定文字列4,green
aaaaaaa,指定文字列5,green
aaaaaaa,指定文字列6,green
aaaaaaa,指定文字列7,green
aaaaaaa,指定文字列8,orenge
aaaaaaa,指定文字列9,orenge
aaaaaaa,指定文字列10,red
aaaaaaa,指定文字列11,orenge
aaaaaaa,指定文字列12,orenge
aaaaaaa,指定文字列13,orenge
bbbbbb,指定文字列1,orange
bbbbbb,指定文字列2,green
bbbbbb,指定文字列3,red
bbbbbb,指定文字列4,green
bbbbbb,指定文字列5,orenge
bbbbbb,指定文字列6,green
bbbbbb,指定文字列7,green
bbbbbb,指定文字列8,green
bbbbbb,指定文字列9,orenge
bbbbbb,指定文字列10,orenge
bbbbbb,指定文字列11,green
bbbbbb,指定文字列12,red
bbbbbb,指定文字列13,green
プログラミングの知識はほとんどなく、WEB上で公開されているソースをちょっといじって使う程度のスキルしかありません。
ご教示の程よろしくお願いいたします。