🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
RSS

RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

パース

パースとは、一定の文法に従って記述されたテキスト文書を解析し、データ構造の集合体に分解・変換することを呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

2171閲覧

フィードをパースする際にエラーが発生する

kajirita2002

総合スコア14

RSS

RSS(Really Simple Syndication)はブログのエントリやニュースの見出し、標準のフォーマットの音声やビデオなどを発行するために使われるウェブフィードのフォーマットの集合体です。

パース

パースとは、一定の文法に従って記述されたテキスト文書を解析し、データ構造の集合体に分解・変換することを呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/12/17 13:39

編集2019/12/18 17:11

RSSのフィードをパースしようとしてまずはフィードから全ての単語を取り出す関数を作ろうとしたのですがVScode上で以下のようなエラーが発生します。エラーを調べましたが

python

1import feedparser 2import re 3 4# RSSフィードのタイトルと、単語の頻度のディクショナリを返す 5 6 7def getwordcounts(url): 8 # フィードをパースする 9 d = feedparser.parse(url) 10 wc = {} 11 12 # 全てのエントリをループする 13 for e in d.entries: 14 if 'summary' in e: 15 summary = e.summary 16 else: 17 summary = e.description 18 # 単語のリストを洗い出す 19 words = getwords(e.title + ' ' + summary) 20 for word in words: 21 wc.setdefault(word, 0) 22 wc[word] += 1 23 return d.feed.title, wc 24 25 26def getwords(html): 27 # 全てのHTMLタグを取り除く 28 txt = re.compile(r'<[^>]+>').sub('', html) 29 30 # 全ての日アルファベット文字で分割する 31 words = re.compile(r'[^A-Z^a-z]+').split(txt) 32 # 小文字に変換する 33 return [word.lower() for word in words if word != ''] 34 35 apcount = {} 36 wordcounts = {} 37 feedlist = [line for line in open('feedlist.txt')] 38 for feedurl in feedlist: 39 try: 40 title, wc = getwordcounts(feedurl) 41 wordcounts[title] = wc 42 for word, count in wc.items(): 43 apcount.setdefault(word, 0) 44 if count > 1: 45 apcount[word] += 1 46 except: 47 print('Failed to parse feed %s' % feedurl) 48 wordlist = [] 49 for w, bc in apcount.items(): 50 frac = float(bc) / len(feedlist) 51 if frac > 0.1 and frac < 0.5: 52 wordlist.append(w) 53 54 out = open('blogdata.txt', 'w') 55 out.write('Blog') 56 for word in wordlist: 57 out.write('\t%d' % wc[word]) 58 out.write('\n') 59 for blog, wc in wordcounts.items(): 60 out.write(blog) 61 for word in wordlist: 62 if word in wc: 63 out.write('\t%d' % wc[word]) 64 else: 65 out.write('\t0') 66 out.write('\n') 67

と出てきます
これについて調べましたが原因が全くわからなかったため投稿しました。
よろしければご回答いただければ幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2019/12/17 14:07

この関数だけではほとんど判断できることがないので、コード全文を掲載するように編集してください。
kajirita2002

2019/12/18 17:11

コード全文を掲載しました
guest

回答1

0

import feedparserがどこかにあるとして、

  • feedparser.pyのようなファイル名のスクリプトがどこかに置いてある
  • feedparserという名前のディレクトリがある

場合、そのようなエラーになる可能性はあるでしょう。その場合はリネームしてください。

それ以外の場合はコード全文や環境、インストール方法など、詳しい情報を追記していただいた方が助言しやすいかと思います。

投稿2019/12/17 14:08

hayataka2049

総合スコア30935

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kajirita2002

2019/12/18 17:14

feedparser4.0というファイルがありfeedparserというファイルはないです。feedparser.pyもないです。
hayataka2049

2019/12/19 00:47

import feedparser print(feedparser)を実行してみてください。
kajirita2002

2019/12/20 06:02

すいません。feedparser.pyがあったのでリネームしてみて実行しましたが次のエラーがきてしまいました >>> import generatefeedvector Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Users/kajimurarita/Desktop/python_project/generatefeedvector.py", line 1, in <module> import feedparser ModuleNotFoundError: No module named 'feedparser' となりました
hayataka2049

2019/12/20 07:22

そもそもそのライブラリをインストールしていないorできていないのでは。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問