質問するログイン新規登録

回答編集履歴

1

urllib\.requestの説明の追加と、「パーサー」を明記しました。

2016/07/24 10:36

投稿

argius
argius

スコア9396

answer CHANGED
@@ -1,6 +1,8 @@
1
1
  単にスクレイピングができれば良いのでしたら、
2
2
  `lxml.html`と`cssselect`を使うよりも、
3
- 最近は**BeautifulSoup**というモジュールの方が人気があるので、そちらを使った方が良いかもしれません。
3
+ 最近は**BeautifulSoup**というパーサーモジュールの方が人気があるので、そちらを使った方が良いかもしれません。
4
+ HTMLを取得する処理は、標準モジュールの`urllib.request`モジュールにします。
5
+ これらを組み合わせて使います。
4
6
 
5
7
  Windows7(64bit), Python3.5.2+Anaconda4.1.1で確認しましたが、上手く本文の`<p>`タグが取れました。
6
8