質問編集履歴

誤字

2021/07/03 14:07

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -68,9 +68,9 @@
 理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
-**【第９２期ヒューリック杯棋聖戦】「カリスマ性感じる」　藤井棋聖の師匠・杉本八段
+**最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない
-https://news.yahoo.co.jp/articles/6dffae9dc386171cefa28f3cf5945d75a1e6550d**
+https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569**

丸投げの質問でしたので、加筆修正しました。

2021/07/03 14:07

投稿

退会済みユーザー

スコア0

test CHANGED Viewed

	@@ -1 +1 @@
1	- Python の ~~re.sub 関数を使って~~ HTML からリンクとタイトルのみ抽出したい
1	+ urlwatch で HTML からリンクとタイトルのみ抽出したい

test CHANGED Viewed

@@ -1,20 +1,72 @@
-例えば以下の HTML があります。
+# urlwatch について
+特定サイトの Web ページを監視し、前回の取得した情報との差分を抽出できる Python 製のツールです。
+https://github.com/thp/urlwatch
+https://urlwatch.readthedocs.io/en/latest/index.html
-```html
+# やりたいこと
-<a href="https://news.yahoo.co.jp/articles/6dffae9dc386171cefa28f3cf5945d75a1e6550d" data-ylk="rsec:f_card1;slk:title;pos:1;" class="sc-evWYkj jcqJoz" data-rapid_p="26"><p class="sc-kbGplQ gtktrM">【第９２期ヒューリック杯棋聖戦】「カリスマ性感じる」　藤井棋聖の師匠・杉本八段</p><div class="sc-exdmVY feOeGK"><span class="sc-idjmjb igXEah">産経新聞</span><time class="sc-fHlXLc bpPQMq">14分前</time></div></a>
+[Yahoo の速報ニュース](https://news.yahoo.co.jp/flash)において、タイトルと URL リンクが更新した際に検知・表示させたいと考えています。
+# 試したこと
+設定ファイル（urls.yaml）を次のように設定しました。
+```urlwatch
+kind: url
+name: Yahoo
+url: https://news.yahoo.co.jp/flash
+filter:
+  - xpath: //*[@id="contentsWrap"]/div[1]/div[2]/div/a
 ```
-上記から、Python の re.sub 関数を使って以下のみ抽出するにはどうすればよいでしょうか。
+すると結果は以下のように HTML タグも表示されてしまいます。
+```ここに言語を入力
+-<a href="https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569" data-ylk="rsec:f_card1;slk:title;pos:1;" class="sc-evWYkj jcqJoz"><p class="sc-kbGplQ gtktrM">最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p>
+-<div class="sc-exdmVY feOeGK">
+-<span class="sc-idjmjb igXEah">ABEMA TIMES</span><time class="sc-fHlXLc bpPQMq">9分前</time>
++<a href=https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569 data-ylk=rsec:f_card1;slk:title;pos:1; class=sc-evWYkj jcqJoz><p class=sc-kbGplQ gtktrM>最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p>
++<div class=sc-exdmVY feOeGK>
++<span class=sc-idjmjb igXEah>ABEMA TIMES</span><time class=sc-fHlXLc bpPQMq>13分前</time>
+ </div></a>
+```
+# 調査したこと
+[ドキュメント](https://urlwatch.readthedocs.io/en/latest/filters.html)を確認したところ、Filter コマンドを使用することで、必要な情報のみ抽出できそうに見えます。
+re.sub を使用して、正規表現で実現できるのでは考えておりますが、どのように書けばよいかわからない状況です。
+# ご教示頂きたいこと
+理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
 **【第９２期ヒューリック杯棋聖戦】「カリスマ性感じる」　藤井棋聖の師匠・杉本八段
@@ -22,8 +74,4 @@
-ご教示いただけますと幸いです。
-よろしくお願いいたします。
+どうぞよろしくお願いいたします。