pythonを用いたスクレイピングに取り組んでいます
対象のURLをリストとして取得し、http://やhttp://を削除して
新しくリストで書き込もうとしているのですが、変換されません。
どなたかご教授下さい。
もう一つ質問ですが、出力時のタグを取り除く方法はありますか(テキストのみを書き込みたい)
python
1from bs4 import BeautifulSoup 2import urllib.request 3 4# URL 5url = "https://ichiba.faq.rakuten.net/detail/000009756" 6# URLにアクセス 7html = urllib.request.urlopen(url) 8# HTMLをBeautifulSoupで扱う 9soup = BeautifulSoup(html, "html.parser") 10elems = soup.select("#faqDetailAnswer > div > p ") 11 12#リスト変換 13list = [] 14for a in elems: 15 newlist=elems.replace('https://', '').replace('http://', '') 16 list.append(newlist) 17 18 19# 書き込み 20with open('test.txt', 'w') as f: 21 for d in list: 22 f.write("%s\n" % d)
出力結果は以下のとおりです
<br/>http://www.catpart.xyz/<br/>http://www.radioterm.xyz/<br/>http://www.firstpaul.icu/<br/>http://www.oilafrica.icu/<br/>http://www.workyahoo.icu/<br/>http://www.iranma.icu/<br/>http://www.nydesign.icu/<br/>http://www.capitalenough.club/<br/>http://www.cruiseforce.club/<br/>http://www.argentinatechnical.xyz/<br/>http://www.b2bparts.xyz/<br/>http://www.topcare.icu/<br/>http://www.expressview.fun/<br/>http://www.vietnamturn.xyz/<br/>http://www.istanbulor.xyz/<br/>http://www.islamat.xyz/<br/>http://wwwcash.club/<br/>
回答1件
あなたの回答
tips
プレビュー