質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
AWS Lambda

AWS Lambdaは、クラウド上でアプリを実行できるコンピューティングサービス。サーバーのプロビジョニングや管理を要せず複数のイベントに対してコードを実行します。カスタムロジック用いた他AWSサービスの拡張やAWSの規模やパフォーマンスを用いたバックエンドサービスを作成できます。

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

Q&A

解決済

1回答

1284閲覧

Node.js https モジュールでUnicodeのデコード失敗が発生している

nison-okrock

総合スコア0

AWS Lambda

AWS Lambdaは、クラウド上でアプリを実行できるコンピューティングサービス。サーバーのプロビジョニングや管理を要せず複数のイベントに対してコードを実行します。カスタムロジック用いた他AWSサービスの拡張やAWSの規模やパフォーマンスを用いたバックエンドサービスを作成できます。

Node.js

Node.jsとはGoogleのV8 JavaScriptエンジンを使用しているサーバーサイドのイベント駆動型プログラムです。

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

0グッド

0クリップ

投稿2021/10/24 23:13

編集2021/10/24 23:29

前提・実現したいこと

AWS Lambdaで、Webサイトの更新を検知する仕組みを作っています。
Webサイトのコンテンツを取得し、ハッシュ値を取って、保存してある値と比較することで更新を検知しています。

また、同様の仕組みをPHPを用いて動かしていますが、Lambda側のみで更新判定が発生する事象が発生しています。

発生している問題・エラーメッセージ

PHPとLambdaそれぞれが生成するmd5ハッシュですが
Lambda側のみで更新判定が発生するタイミングでは、PHP側とmd5ハッシュが異なります。
次の実行の際には、PHPが生成するハッシュと同じ値に戻っています。
調べた限りでは、Node.jsの側でデコードの失敗が発生しているようです。

該当のソースコード

PHP側ではfile_get_contents関数の戻り値をmd5ハッシュして判定しています。

PHP

1$content = file_get_contents("https://" . $host . $path);

Node.js側では、httpsモジュールで取得したコンテンツをmd5ハッシュして判定してます。

javascript

1function getRemoteContent(host, path) { 2 return new Promise((resolve, reject) => { 3 let _data = ""; 4 let req = https.request({ 5 host: host, 6 path: path, 7 port: 443, 8 method: 'GET' 9 }, function (res) { 10 res.on('data', (chunk) => { 11 _data += chunk; 12 }) 13 res.on('end', function () { 14 resolve(_data); 15 }) 16 }) 17 req.end(); 18 }) 19} 20// メインのハンドラでの呼び出し 21let content = await getRemoteContent(host, path);

試したこと

Lambda側で、更新判定が発生した際にはS3にコンテンツを記録する仕組みを追加し、ダウンロードしてdiffを取ってみました。
更新判定となるとき

<E3><81><AD><E3><81><BE><EF><BF><BD><EF><BF><BD><EF><BF><BD><E3><80><82></li>

更新判定とならないとき

<E3><81><AD><E3><81><BE><E3><81><99><E3><80><82></li>

更新判定とならないときに現れる、
<E3><81><99>というバイト列が、<Ef><BF><BD> ×3 になっています。
EFBFBDというバイト列は、デコードが失敗した際に現れる文字列のようです。
(参照) http://www.pppea.com/triflesthings/efbfbd.html
どのような呼び出し方をするとデコードの失敗を防げるのでしょうか。
あるいは、<E3><81><99>が正しくデコードされない原因はどのような点でしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

下記のように、
0. レスポンスに対してsetEncoding()を設定し、
0. chunkに対してtoString()で読み取ってあげると
問題なくデコードできました。現在チェックしているサイトはutf-8なのでこれで問題ないですが、サイトによってエンコードが異なる場合は別のアプローチが必要かもしれません。

Javascript

1function getRemoteContent(host, path) { 2 return new Promise((resolve, reject) => { 3 let _data = ""; 4 let req = https.request({ 5 host: host, 6 path: path, 7 port: 443, 8 method: 'GET' 9 }, function (res) { 10 res.setEncoding('utf8'); //変更箇所1 11 res.on('data', (chunk) => { 12 _data += chunk.toString(); //変更箇所2 13 }) 14 res.on('end', function () { 15 resolve(_data); 16 }) 17 }) 18 req.end(); 19 }) 20}

投稿2021/10/26 06:20

nison-okrock

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問