#課題
下記のようなHTMLにおいて、指定した要素間のテキストを取り出したいと考えています。
- HTMLのテーブルの合間に、aタグが入っています。
- aタグにはname属性があり、事前にマーカーとなるaタグ名がnameとしてリストアップされています。
- 抜き出したいテキストは、マーカーから次のマーカーまでに含まれるテキストです
#問題
下記のようにAタグを名前でリストアップすることはできました。
後は、Aタグに条件分岐をさせて、TXTを貯めていくような処理を考えています。
セレクトされたDOMの位置を起点として、クエリを動かすことは出来るのでしょうか?
python
1 2categories = ["#BIJ","#IPC","#DRJ",...] 3 4from pyquery import PyQuery 5pq = PyQuery(url) 6 7i=0 8for elem in pq.find('a'): 9 q = pq(elem).attr('name') 10 if q=categories[i]: 11 12 # aでセレクトされたDOMの位置を起点としてtdをセレクトしていく 13 txt = "" 14 for elem in pq.find('td'): 15 txt = txt + pq(elem).text() 16 #次のqまでのテキストを貯める
html
1<tr> 2 <td id="I34" class="I"> 3 <a name="34"/> 4 <a name="ABJ"/>(57)【要約】 5 </td> 6 <td id="B34" class="B"/> 7 <td id="M34" class="M"/> 8</tr> 9 10<tr> 11 <td id="I35" class="I"> 12 <a name="35"/>【課題】 13 </td> 14 <td id="B35" class="B"> 応力に対する特性を安定させる。</td> 15 <td id="M35" class="M"/> 16</tr> 17 18以下、略
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。