前提・実現したいこと
UtaTenという歌詞検索サイトから歌詞をスクレイピングしたいです。スクレイピングしたい歌詞
漢字にはひらがなでルビが振られているんですが、
そのせいで歌詞をスクレイピングすると、ルビも同時に取得してしまい、困っています。
ルビは要らないので取得したくないです。
unwrapメソッドを使って、クラス"rt"を削除しようとしてみたのですが上手くいきません。
申し訳ありませんが、ご教授ください。
以下のタグ構造は一部を抜粋したもの。
タグ構造
HTML
1<div class="medium"> 2 <span class="ruby"><span class="rb">桜</span><span class="rt">さくら</span></span>の<span class="ruby"><span class="rb">予報</span><span class="rt">よほう</span></span>も<span class="ruby"><span class="rb">虚</span><span class="rt">むな</span></span>しく<br> 3 <span class="ruby"><span class="rb">大雨</span><span class="rt">おおあめ</span></span>が<span class="ruby"><span class="rb">花</span><span class="rt">はな</span></span>を<span class="ruby"> 4 <span class="rb">散</span><span class="rt">ち</span></span>らせた<br> 5</div>
試したこと
Python
1import requests 2from bs4 import BeautifulSoup 3 4url = "https://utaten.com/lyric/sumika/%E6%98%A5%E5%A4%8F%E7%A7%8B%E5%86%AC/" 5 6headers = {'User-Agent':'Mozilla/5.0'} 7r = requests.get(url, headers=headers) 8soup = BeautifulSoup(r.text, "lxml") 9 10kashi = soup.find("div", class_="medium") 11print(kashi.text.strip())
出力
桜さくらの予報よほうも虚むなしく 大雨おおあめが花はなを散ちらせた 4月がつの風かぜ 少すこし寒さむくて 夜よるはまだ長ながくて (省略)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/09/26 10:37