質問編集履歴
2
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -68,9 +68,9 @@
|
|
68
68
|
|
69
69
|
理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
|
70
70
|
|
71
|
-
**
|
71
|
+
**最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない
|
72
72
|
|
73
|
-
https://news.yahoo.co.jp/articles/
|
73
|
+
https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569**
|
74
74
|
|
75
75
|
|
76
76
|
|
1
丸投げの質問でしたので、加筆修正しました。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
|
1
|
+
urlwatch で HTML からリンクとタイトルのみ抽出したい
|
test
CHANGED
@@ -1,20 +1,72 @@
|
|
1
|
-
|
1
|
+
# urlwatch について
|
2
|
+
|
3
|
+
特定サイトの Web ページを監視し、前回の取得した情報との差分を抽出できる Python 製のツールです。
|
4
|
+
|
5
|
+
https://github.com/thp/urlwatch
|
6
|
+
|
7
|
+
https://urlwatch.readthedocs.io/en/latest/index.html
|
2
8
|
|
3
9
|
|
4
10
|
|
5
|
-
|
11
|
+
# やりたいこと
|
6
12
|
|
7
|
-
|
13
|
+
[Yahoo の速報ニュース](https://news.yahoo.co.jp/flash)において、タイトルと URL リンクが更新した際に検知・表示させたいと考えています。
|
8
14
|
|
9
15
|
|
16
|
+
|
17
|
+
# 試したこと
|
18
|
+
|
19
|
+
設定ファイル(urls.yaml)を次のように設定しました。
|
20
|
+
|
21
|
+
```urlwatch
|
22
|
+
|
23
|
+
kind: url
|
24
|
+
|
25
|
+
name: Yahoo
|
26
|
+
|
27
|
+
url: https://news.yahoo.co.jp/flash
|
28
|
+
|
29
|
+
filter:
|
30
|
+
|
31
|
+
- xpath: //*[@id="contentsWrap"]/div[1]/div[2]/div/a
|
10
32
|
|
11
33
|
```
|
12
34
|
|
13
35
|
|
14
36
|
|
15
|
-
|
37
|
+
すると結果は以下のように HTML タグも表示されてしまいます。
|
38
|
+
|
39
|
+
```ここに言語を入力
|
40
|
+
|
41
|
+
-<a href="https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569" data-ylk="rsec:f_card1;slk:title;pos:1;" class="sc-evWYkj jcqJoz"><p class="sc-kbGplQ gtktrM">最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p>
|
42
|
+
|
43
|
+
-<div class="sc-exdmVY feOeGK">
|
44
|
+
|
45
|
+
-<span class="sc-idjmjb igXEah">ABEMA TIMES</span><time class="sc-fHlXLc bpPQMq">9分前</time>
|
46
|
+
|
47
|
+
+<a href=https://news.yahoo.co.jp/articles/eb49343e3993ba181b1f9d79dd8605a5bce89569 data-ylk=rsec:f_card1;slk:title;pos:1; class=sc-evWYkj jcqJoz><p class=sc-kbGplQ gtktrM>最年少防衛・九段昇段の藤井聡太棋聖「一人前になったという意識はないです」「完璧に指せたものは一局もない」</p>
|
48
|
+
|
49
|
+
+<div class=sc-exdmVY feOeGK>
|
50
|
+
|
51
|
+
+<span class=sc-idjmjb igXEah>ABEMA TIMES</span><time class=sc-fHlXLc bpPQMq>13分前</time>
|
52
|
+
|
53
|
+
</div></a>
|
54
|
+
|
55
|
+
```
|
16
56
|
|
17
57
|
|
58
|
+
|
59
|
+
# 調査したこと
|
60
|
+
|
61
|
+
[ドキュメント](https://urlwatch.readthedocs.io/en/latest/filters.html)を確認したところ、Filter コマンドを使用することで、必要な情報のみ抽出できそうに見えます。
|
62
|
+
|
63
|
+
re.sub を使用して、正規表現で実現できるのでは考えておりますが、どのように書けばよいかわからない状況です。
|
64
|
+
|
65
|
+
|
66
|
+
|
67
|
+
# ご教示頂きたいこと
|
68
|
+
|
69
|
+
理想としては、以下のようにタイトルとリンクのみ抽出できればと考えております。
|
18
70
|
|
19
71
|
**【第92期ヒューリック杯棋聖戦】「カリスマ性感じる」 藤井棋聖の師匠・杉本八段
|
20
72
|
|
@@ -22,8 +74,4 @@
|
|
22
74
|
|
23
75
|
|
24
76
|
|
25
|
-
ご教示いただけますと幸いです。
|
26
|
-
|
27
|
-
|
28
|
-
|
29
|
-
よろしくお願いいたします。
|
77
|
+
どうぞよろしくお願いいたします。
|