webスクレイピングでRSSの内容を取得したい

###実現したいこと、発生している問題
社内環境下でwebページ（ロイター記事）のタイトルおよび記事内容のスクレイピングを行いたく、下記のソースコードを書きました。

実行したところ、

<title>記事タイトル</title> <description>［東京 XX日ロイター］記事本文 <div class="feedflare"><a href="http://以下省略</description>

と表示されました。

<title>や</title>、 <description>や<div class="feedflare"><a href="http://以下省略</description> といった部分を取り除いて抽出する場合、どのように加筆修正すれば良いでしょうか。

初歩的な質問で恐縮ですが、ご教示いただけますでしょうか。

なお、windows7、Internet Explorer(google chromeは使えません)、python3.6.1を使用しています。

###該当のソースコード
import requests
from bs4 import BeautifulSoup

proxies = {'http':'http://user:password@server:port'}

def getBS(url):
html = requests.get(url, proxies=proxies)
bsObj = BeautifulSoup(html.content, "html.parser")
return bsObj

htmlSource = getBS("http://feeds.reuters.com/reuters/JPBusinessNews")

for link in htmlSource.findAll("item"):
print(link.find("title"))
print(link.find("description"))

行動規範の内容に同意します

回答2件

ベストアンサー

BeautifulSoupを使っていれば.textまたは.get_text()でテキストのみ抽出できます。

元データを確認したうえで修正

元データRSS(XML)を確認したところdescription要素内には、本文に加え、<div～</a>のような表示用の要素？がテキストとして含まれていました。
これらはBeautifulSoupでは単なるテキストとして扱われるため、取り除かれません。
ちょっと無理やりですが、description部分をHTMLとみなして解析することで抽出できました。

検証コード

Python
1import requests
2from bs4 import BeautifulSoup
3import re
4
5url = 'http://feeds.reuters.com/reuters/JPBusinessNews'
6#url = 'http://feeds.reuters.com/reuters/healthNews'
7html = requests.get(url)
8root = BeautifulSoup(html.content, 'html.parser')
9
10for link in root.findAll("item"):
11    print(link.find("title").text)
12    print('-----')
13    desc = link.find('description').text
14    #print(desc)
15    
16    # 方法１：HTMLとみなして解析
17    desc = BeautifulSoup(desc,'html.parser')
18    desc = desc.text.rstrip()
19    
20    # 方法２：「本文～<div（など表示用の要素）～</a>」→「本文～」を抽出
21    # 一部の項目で正規表現が一致しない場合あり
22    #desc = re.match(r'(.*)<div',desc).group(1)
23
24    print(desc)
25    print('-----')

投稿2017/08/09 07:22

編集2017/08/09 10:09

can110

総合スコア38256

hiroki_0926

2017/08/09 08:32

回答ありがとうございます。 <title>や<dedescription>の表示は消えました。記事本文後の <div class="feedflare"><a href="http://feeds.reuters.com/~ といったものも消すにはどうしたら良いでしょうか？

can110

2017/08/09 09:02

なんだか元のXMLデータがおかしいですね。ちょっと確認してみます。

can110

2017/08/09 09:53

RSSのデータ構造には疎いのですが、とりあえず正規表現で抽出できました。 description要素のテキストをHTML元データとして、さらにbs4で解析してもよいかもしれません。

hiroki_0926

2017/08/09 23:26

抽出することが出来ました。再解析する手法があるのですね。どうもありがとうございました。

行動規範の内容に同意します

正規表現を使いましょう。
詳しくは、マニュアル「6.2. re — 正規表現操作」を読んでください。

例えば、こんな感じでしょうか？

python
1import re
2print re.match("<title>(.+)</title>", "<title>記事タイトル</title>").group(1)

投稿2017/08/09 02:05

CHERRY

総合スコア25171

hiroki_0926

2017/08/09 06:55

回答ありがとうございます。マニュアルを読み込んでみたのですが、さっぱりでした。。具体的にどのように書いたらよいでしょうか？

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

webスクレイピングでRSSの内容を取得したい

元データを確認したうえで修正

関連した質問