前提・実現したいこと
AWS Lambdaで、Webサイトの更新を検知する仕組みを作っています。
Webサイトのコンテンツを取得し、ハッシュ値を取って、保存してある値と比較することで更新を検知しています。
また、同様の仕組みをPHPを用いて動かしていますが、Lambda側のみで更新判定が発生する事象が発生しています。
発生している問題・エラーメッセージ
PHPとLambdaそれぞれが生成するmd5ハッシュですが
Lambda側のみで更新判定が発生するタイミングでは、PHP側とmd5ハッシュが異なります。
次の実行の際には、PHPが生成するハッシュと同じ値に戻っています。
調べた限りでは、Node.jsの側でデコードの失敗が発生しているようです。
該当のソースコード
PHP側ではfile_get_contents関数の戻り値をmd5ハッシュして判定しています。
PHP
1$content = file_get_contents("https://" . $host . $path);
Node.js側では、httpsモジュールで取得したコンテンツをmd5ハッシュして判定してます。
javascript
1function getRemoteContent(host, path) { 2 return new Promise((resolve, reject) => { 3 let _data = ""; 4 let req = https.request({ 5 host: host, 6 path: path, 7 port: 443, 8 method: 'GET' 9 }, function (res) { 10 res.on('data', (chunk) => { 11 _data += chunk; 12 }) 13 res.on('end', function () { 14 resolve(_data); 15 }) 16 }) 17 req.end(); 18 }) 19} 20// メインのハンドラでの呼び出し 21let content = await getRemoteContent(host, path);
試したこと
Lambda側で、更新判定が発生した際にはS3にコンテンツを記録する仕組みを追加し、ダウンロードしてdiffを取ってみました。
更新判定となるとき
<E3><81><AD><E3><81><BE><EF><BF><BD><EF><BF><BD><EF><BF><BD><E3><80><82></li>
更新判定とならないとき
<E3><81><AD><E3><81><BE><E3><81><99><E3><80><82></li>
更新判定とならないときに現れる、
<E3><81><99>というバイト列が、<Ef><BF><BD> ×3 になっています。
EFBFBDというバイト列は、デコードが失敗した際に現れる文字列のようです。
(参照) http://www.pppea.com/triflesthings/efbfbd.html
どのような呼び出し方をするとデコードの失敗を防げるのでしょうか。
あるいは、<E3><81><99>が正しくデコードされない原因はどのような点でしょうか。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。