質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

3回答

3698閲覧

スクレイピングについて

haraguro

総合スコア8

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/03/25 11:23

前提・実現したいこと

質問
PythonでWikipediaから、情報をスクレイピングするシステムを作っています。
情報を取り出すのは成功したのですが、タグが邪魔です。
どうすれば良いでしょうか?

実は二つプランがあって、
一つは、単純にタグを消去する方法。
もう一つは、タグの間の文字列を取り出し、
結合させる方法。(例)<p>○○○</p>

発生している問題・エラーメッセージ

タグのせいで、文が読みにくい。
(ほぼ読めない)

該当のソースコード

Python

1mport requests 2from bs4 import BeautifulSoup 3print('検索したい言葉を入力してください。') 4word = input('>> ') 5try: 6 response = requests.get( 7 'https://ja.wikipedia.org/wiki/' + word).status_code 8 if response == 200: 9 print('該当する結果が存在します') 10 result = requests.get('https://ja.wikipedia.org/wiki/' + word).text 11 soup = BeautifulSoup(result, 'html.parser') 12 p = soup.find('p') 13 print(p) 14 elif response == 404: 15 print('該当する結果は存在しません') 16 else: 17 print('エラーが発生しました') 18except: 19 print('インターネットに接続されていません') 20

試したこと

地道にreplaceコマンドで消去

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

KojiDoi

2018/03/25 11:27

スクレイプしたものをどう使うつもりなのでしょうか? それによって最適解も違ってくると思います。
haraguro

2018/03/26 04:24

Wikipediaから、スクレイプして、辞書のようにしようと思っています。
guest

回答3

0

Wikipediaには、APIがあります(公式解説)。スクレイピングは行わず、APIで取得しましょう。

投稿2018/03/25 12:41

maisumakun

総合スコア145184

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

Wikipedia:データベースダウンロード

ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。 (強調は引用者による)

これも読むべし。
Wikipedia からスクレイピングして… とか言ってる人におすすめしたい,DBPedia からの情報抽出

投稿2018/03/26 04:33

編集2018/03/26 04:38
KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

文字だけを取り出したいのであれば、次のようなコードで実現できます。

python

1p = soup.find('p') 2print(p.text)

投稿2018/03/25 11:46

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問