質問するログイン新規登録

質問編集履歴

2

文法の謝り

2020/07/26 05:25

投稿

ken_chann
ken_chann

スコア12

title CHANGED
File without changes
body CHANGED
@@ -51,7 +51,7 @@
51
51
 
52
52
  S3へのアップロードと、ダウンロードは成功しましたが、
53
53
 
54
- 同書籍、クロール実行時にSpiderからreadability-lxmlを利用して本文抽出を利用していた下記のように、
54
+ 同書籍、クロール実行時にSpiderからreadability-lxmlを利用して本文抽出を行なっていたように、
55
55
 
56
56
  S3からダウンロードしたクロール済みhtmlファイルに対してreadability-lxmlで本文抽出した結果をElasticsearchへインデックス出来れば...と考えています。
57
57
 

1

文法の修正

2020/07/26 05:25

投稿

ken_chann
ken_chann

スコア12

title CHANGED
File without changes
body CHANGED
@@ -4,7 +4,7 @@
4
4
 
5
5
  ### 前提・実現したいこと
6
6
  クローリングフレームワークのScrapyを使用してAWS S3のバケットにアップロードしたクロール結果htmlファイルを
7
- Pythonプログラムからダウンロードし、htmlから本文抽出して検索エンジンのElasticsearchにインデックスする正しい方法を教えていただきたいです。
7
+ Pythonプログラムから参照し、htmlから本文抽出して検索エンジンのElasticsearchにインデックスする正しい方法を教えていただきたいです。
8
8
 
9
9
  今回は以下の書籍の内容を組み合わせて、実験を行なっています。
10
10
  「Python クローリング&スクレイピング データ収集・解析のための実践開発ガイド」