html文をcurlコマンドでテキストファイルに保存したのですが、
保存したテキストファイルからタグなどはすべて削除して、
入っている文字列だけをシェルスクリプトをつかって抽出したいのですが方法をご教授いただけないでしょうか。
条件は、
・タグはすべて削除
・1つの文字列ごとに改行
・改行のみの行は無し
・何段階も入れ子になっているところがあり複数文字列が入っているところもある
・■のみの文字列の場合はその四角の色コードも抽出したいです。
一部だけですが、例えば下のコードの場合、
<tr> <td bgcolor="#aaaaaa"><table width="100%" border="0" cellspacing="1" cellpadding="3"> <tr> <td colspan="4" align="center" valign="middle" bgcolor="#fbfbfb"> <font size="3">#01 <strong>桐生</strong></font> <font size="2">[第6日 <font color="#ff9900">■</font>]</font> <img src="img/icon/weather15.gif" width="24" height="15" alt="雨" title="雨" /></td> </tr> <tr> <td width="15" align="center" bgcolor="#FFFFFF"> <!-- <a href="http://cgi.kyotei.or.jp/race/kekka.php?day=20180805&jyo=01&race=1" target="_blank"> --> <a href="http://boatrace.jp/owpc/pc/race/raceresult?rno=01&jcd=01&hd=20180805" target="_blank" rel="nofollow"> <font size="2"> <b>1</b> </font></a></td> <td width="60" align="left" valign="middle" bgcolor="#FFFFFF"> <div class="r1"><div class="rb">1</div></div><div class="r4"><div class="rb">4</div></div><div class="r2"><div class="rb">2</div></div> </td> <td width="75" align="right" bgcolor="#ffffff"><font size="3"> 3,280 </font></td> <td width="35" align="right" bgcolor="#ffffff"><font size="3"> <a href="http://odds.kyotei24.jp/odds-20180805-01-1.html" target="_blank">12</a> </font></td> </tr> <tr> <td width="15" align="center" bgcolor="#FFFFFF"> <!-- <a href="http://cgi.kyotei.or.jp/race/kekka.php?day=20180805&jyo=01&race=2" target="_blank"> --> <a href="http://boatrace.jp/owpc/pc/race/raceresult?rno=02&jcd=01&hd=20180805" target="_blank" rel="nofollow"> <font size="2"> <b>2</b> </font></a></td> <td width="60" align="left" valign="middle" bgcolor="#FFFFFF"> <div class="r1"><div class="rb">1</div></div><div class="r4"><div class="rb">4</div></div><div class="r3"><div class="rb">3</div></div> </td> <td width="75" align="right" bgcolor="#ffffff"><font size="3"> 2,400 </font></td> <td width="35" align="right" bgcolor="#ffffff"><font size="3"> <a href="http://odds.kyotei24.jp/odds-20180805-01-2.html" target="_blank">7</a> </font></td> </tr>
下のように抽出したいです。
#01 桐生 [第6日 #ff9900 ■ ] 雨 雨 1 1 4 2 3,280 12 2 1 4 3 2,400 7
めんどくさいと思いますがお助けいただけないでしょうか。
回答1件
あなたの回答
tips
プレビュー