質問編集履歴

文法の謝り

2020/07/26 05:25

投稿

スコア12

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -51,7 +51,7 @@
 S3へのアップロードと、ダウンロードは成功しましたが、
-同書籍、クロール実行時にSpiderからreadability-lxmlを利用して本文抽出を利用していた下記のように、
+同書籍、クロール実行時にSpiderからreadability-lxmlを利用して本文抽出を行なっていたように、
 S3からダウンロードしたクロール済みhtmlファイルに対してreadability-lxmlで本文抽出した結果をElasticsearchへインデックス出来れば...と考えています。

文法の修正

2020/07/26 05:25

投稿

スコア12

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,7 +4,7 @@
 ### 前提・実現したいこと
 クローリングフレームワークのScrapyを使用してAWS S3のバケットにアップロードしたクロール結果htmlファイルを
-Pythonプログラムからダウンロードし、htmlから本文抽出して検索エンジンのElasticsearchにインデックスする正しい方法を教えていただきたいです。
+Pythonプログラムから参照し、htmlから本文抽出して検索エンジンのElasticsearchにインデックスする正しい方法を教えていただきたいです。
 今回は以下の書籍の内容を組み合わせて、実験を行なっています。
 「Python クローリング&スクレイピング データ収集・解析のための実践開発ガイド」