teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

1

回答が得られなかったため

2019/04/04 14:25

投稿

goki_gottan
goki_gottan

スコア168

title CHANGED
File without changes
body CHANGED
@@ -1,10 +1,12 @@
1
1
  requests-htmlで取得し、session.get(url)でスクレイピングしようと思います。
2
2
  リンク先URLは取得できるのですが、リンク元テキストはどのようにして取得するのでしょうか。
3
3
 
4
- bs4では様々な事が書かれておりますが、requests-htmlの資料は少ないです。
4
+ url = 'https://www.google.com'
5
+ response = session.get(url)
5
- article.absolute_linksとリンク元テキストを同じで取得したいです。
6
+ article = response.html.find('#ariticle_content')
7
+ article = response.html
6
8
 
7
- できましたら、別でそれぞれを取得するのではなく、URLを取得したらテキストを取得する という感じで、
8
- それぞれがリンク付けできていることが望ましいです。
9
+ t = list(article.absolute_links)
9
10
 
11
+ これでリンクURLはとれます。しかし、aタグのテキストはとれません。
10
- 何卒、宜くお願いいたします。
12
+ どうたらいい