質問編集履歴
2
文法の謝り
title
CHANGED
|
File without changes
|
body
CHANGED
|
@@ -51,7 +51,7 @@
|
|
|
51
51
|
|
|
52
52
|
S3へのアップロードと、ダウンロードは成功しましたが、
|
|
53
53
|
|
|
54
|
-
同書籍、クロール実行時にSpiderからreadability-lxmlを利用して本文抽出を
|
|
54
|
+
同書籍、クロール実行時にSpiderからreadability-lxmlを利用して本文抽出を行なっていたように、
|
|
55
55
|
|
|
56
56
|
S3からダウンロードしたクロール済みhtmlファイルに対してreadability-lxmlで本文抽出した結果をElasticsearchへインデックス出来れば...と考えています。
|
|
57
57
|
|
1
文法の修正
title
CHANGED
|
File without changes
|
body
CHANGED
|
@@ -4,7 +4,7 @@
|
|
|
4
4
|
|
|
5
5
|
### 前提・実現したいこと
|
|
6
6
|
クローリングフレームワークのScrapyを使用してAWS S3のバケットにアップロードしたクロール結果htmlファイルを
|
|
7
|
-
Pythonプログラムから
|
|
7
|
+
Pythonプログラムから参照し、htmlから本文抽出して検索エンジンのElasticsearchにインデックスする正しい方法を教えていただきたいです。
|
|
8
8
|
|
|
9
9
|
今回は以下の書籍の内容を組み合わせて、実験を行なっています。
|
|
10
10
|
「Python クローリング&スクレイピング データ収集・解析のための実践開発ガイド」
|