質問編集履歴

2

誤字

2021/07/03 14:07

投稿

退会済みユーザー
test CHANGED
File without changes
test CHANGED
@@ -68,9 +68,9 @@
68
68
 
69
69
  理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
70
70
 
71
- **【第92期ヒューリック杯棋聖戦】カリスマ性感じる 藤井棋聖師匠・杉本八段
71
+ **最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです「完璧に指せたもは一局もない
72
72
 
73
- https://news.yahoo.co.jp/articles/6dffae9dc386171cefa28f3cf5945d75a1e6550d**
73
+ https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569**
74
74
 
75
75
 
76
76
 

1

丸投げの質問でしたので、加筆修正しました。

2021/07/03 14:07

投稿

退会済みユーザー
test CHANGED
@@ -1 +1 @@
1
- Python re.sub 関数を使って HTML からリンクとタイトルのみ抽出したい
1
+ urlwatch HTML からリンクとタイトルのみ抽出したい
test CHANGED
@@ -1,20 +1,72 @@
1
- 例えば以下の HTML があります。
1
+ # urlwatch について
2
+
3
+ 特定サイトの Web ページを監視し、前回の取得した情報との差分を抽出できる Python 製のツールです。
4
+
5
+ https://github.com/thp/urlwatch
6
+
7
+ https://urlwatch.readthedocs.io/en/latest/index.html
2
8
 
3
9
 
4
10
 
5
- ```html
11
+ # やりたいこと
6
12
 
7
- <a href="https://news.yahoo.co.jp/articles/6dffae9dc386171cefa28f3cf5945d75a1e6550d" data-ylk="rsec:f_card1;slk:title;pos:1;" class="sc-evWYkj jcqJoz" data-rapid_p="26"><p class="sc-kbGplQ gtktrM">【第92期ヒュー杯棋聖戦】「カリスマ性感じる」 藤井棋聖の師匠杉本八段</p><div class="sc-exdmVY feOeGK"><span class="sc-idjmjb igXEah">産経新聞</span><time class="sc-fHlXLc bpPQMq">14分前</time></div></a>
13
+ [Yahoo の速報ニュース](https://news.yahoo.co.jp/flash)において、タイトルと URLが更新した際に検知表示させたいと考えています。
8
14
 
9
15
 
16
+
17
+ # 試したこと
18
+
19
+ 設定ファイル(urls.yaml)を次のように設定しました。
20
+
21
+ ```urlwatch
22
+
23
+ kind: url
24
+
25
+ name: Yahoo
26
+
27
+ url: https://news.yahoo.co.jp/flash
28
+
29
+ filter:
30
+
31
+ - xpath: //*[@id="contentsWrap"]/div[1]/div[2]/div/a
10
32
 
11
33
  ```
12
34
 
13
35
 
14
36
 
15
- 上記から、Python の re.sub 関数を使って以下のみ抽出するはどうすばよでしょうか
37
+ すると結果は以下のよう HTML タグも表示さてしまます
38
+
39
+ ```ここに言語を入力
40
+
41
+ -<a href="https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569" data-ylk="rsec:f_card1;slk:title;pos:1;" class="sc-evWYkj jcqJoz"><p class="sc-kbGplQ gtktrM">最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p>
42
+
43
+ -<div class="sc-exdmVY feOeGK">
44
+
45
+ -<span class="sc-idjmjb igXEah">ABEMA TIMES</span><time class="sc-fHlXLc bpPQMq">9分前</time>
46
+
47
+ +<a href=https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569 data-ylk=rsec:f_card1;slk:title;pos:1; class=sc-evWYkj jcqJoz><p class=sc-kbGplQ gtktrM>最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p>
48
+
49
+ +<div class=sc-exdmVY feOeGK>
50
+
51
+ +<span class=sc-idjmjb igXEah>ABEMA TIMES</span><time class=sc-fHlXLc bpPQMq>13分前</time>
52
+
53
+ </div></a>
54
+
55
+ ```
16
56
 
17
57
 
58
+
59
+ # 調査したこと
60
+
61
+ [ドキュメント](https://urlwatch.readthedocs.io/en/latest/filters.html)を確認したところ、Filter コマンドを使用することで、必要な情報のみ抽出できそうに見えます。
62
+
63
+ re.sub を使用して、正規表現で実現できるのでは考えておりますが、どのように書けばよいかわからない状況です。
64
+
65
+
66
+
67
+ # ご教示頂きたいこと
68
+
69
+ 理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
18
70
 
19
71
  **【第92期ヒューリック杯棋聖戦】「カリスマ性感じる」 藤井棋聖の師匠・杉本八段
20
72
 
@@ -22,8 +74,4 @@
22
74
 
23
75
 
24
76
 
25
- ご教示いただけますと幸いです。
26
-
27
-
28
-
29
- よろしくお願いいたします。
77
+ どうぞよろしくお願いいたします。