urlwatch について
特定サイトの Web ページを監視し、前回の取得した情報との差分を抽出できる Python 製のツールです。
https://github.com/thp/urlwatch
https://urlwatch.readthedocs.io/en/latest/index.html
やりたいこと
Yahoo の速報ニュースにおいて、タイトルと URL リンクが更新した際に検知・表示させたいと考えています。
試したこと
設定ファイル(urls.yaml)を次のように設定しました。
urlwatch
1kind: url 2name: Yahoo 3url: https://news.yahoo.co.jp/flash 4filter: 5 - xpath: //*[@id="contentsWrap"]/div[1]/div[2]/div/a
すると結果は以下のように HTML タグも表示されてしまいます。
-<a href="https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569" data-ylk="rsec:f_card1;slk:title;pos:1;" class="sc-evWYkj jcqJoz"><p class="sc-kbGplQ gtktrM">最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p> -<div class="sc-exdmVY feOeGK"> -<span class="sc-idjmjb igXEah">ABEMA TIMES</span><time class="sc-fHlXLc bpPQMq">9分前</time> +<a href=https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569 data-ylk=rsec:f_card1;slk:title;pos:1; class=sc-evWYkj jcqJoz><p class=sc-kbGplQ gtktrM>最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p> +<div class=sc-exdmVY feOeGK> +<span class=sc-idjmjb igXEah>ABEMA TIMES</span><time class=sc-fHlXLc bpPQMq>13分前</time> </div></a>
調査したこと
ドキュメントを確認したところ、Filter コマンドを使用することで、必要な情報のみ抽出できそうに見えます。
re.sub を使用して、正規表現で実現できるのでは考えておりますが、どのように書けばよいかわからない状況です。
ご教示頂きたいこと
理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない
https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569
どうぞよろしくお願いいたします。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2021/07/03 14:05
退会済みユーザー
2021/07/03 14:25 編集