【AWS】PHPでS3に格納されている画像を取得する

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 2,739

sw34PildK

score 5

AWS S3のPHPからの操作に関しての質問です。

S3バケットに画像が10万枚ほどありまして、この画像のURLを一括で取得したいと思い、他のWEBサイトを参照しつつ以下のようなコード書きました。

require_once('aws.phar');
use Aws\S3\S3Client;
use Aws\S3\Exception\S3Exception;

date_default_timezone_set('Asia/Tokyo');

$key = '{key}';
$secret = '{secret}';
$region = 'us-east-1';

$S3 = S3Client::factory([
'credentials' => [
  'key' => $key,
  'secret' => $secret
],
'region' => $region,
'version' => '2006-03-01'
]);

ListAllObjects($S3, "{bucket_name}", $marker = null, $delimiter=null);

function ListAllObjects($S3, $bucket, $marker = null, $delimiter=null){
    $objects = $S3->ListObjects(array(
            'Bucket' => $bucket,
            'Marker' => $marker,
            'Delimiter' => $delimiter
    ));

    if(isset($objects["Contents"])){
        foreach ((array)$objects["Contents"] as $object) {
            if(substr($object['Key'],-1,1) != "/"){
                unset($latest);
                $latest = "s3://{$bucket}/{$object['Key']}";
                file_put_contents("export.csv", $latest . ",\n", FILE_APPEND);
            }
        }
        if($objects["IsTruncated"] === TRUE){
            $key = ltrim($latest,"s3://{$bucket}/");
            ListAllObjects($S3, $bucket, $key, $delimiter);
        }
    }
}


ここではわかりやすいように結果をcsvに落としています。

これを実行すると画像の取得量が多すぎるのかmemory exhaustedのエラーが出ます。

結果吐き出されたexport.csvを見るとどれについても同じURLが50回程度表示されていました。同じURLを取得することがなければmemory exaustedすることはないだろうと予想しているのですが、コードを見返してもなぜ同じ結果が複数回出力されるのかがわかりません。

これと違う方法でも構わないのですが、なんとかバケットに入っている画像すべてを取得したいです。何か解決方法がありましたらご教示いただきたいです。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

S3はその名の通り、拠点の異なるデータセンターに存在するストレージデバイスで管理されています。
ファイルを1つの拠点にUPLOADすると他の2拠点に対して同期するようになっています。

S3は、多くのストレージデバイスと異なり、S3バケットS3オブジェクトというものしかありません。
ファイルとフォルダは同じS3オブジェクトと認識されており、
S3バケット直下にすべてのオブジェクトが存在しています。
#システムが、URLの最後に"/"があったらフォルダというオブジェクトとみなすとしています。

bucket1 [bucket]
├ dir1/ [dir]
| └ dir2/ [dir]
|   └ file1 [File]
└ file2 [file]


の場合は

bucket1 [bucket]
├ dir1/ [obj]
├ dir1/dir2/ [obj]
├ dir1/dir2/file1 [obj]
└ file2 [obj]


のようになっています。

S3に対してLISTリクエストを発した場合は、内部的にLISTリクエストのjsonが発行されます。

オブジェクトを読み込み、これはファイルで、これはフォルダーという風に1個ずつ読み込んで
かつ、他のストレージにファイルがあるのか無いのかを確認して、
バッファに溜め込みリフレッシュされます。そのために、時間がかかります。

再度リクエストすると同じjsonクエリを発行しているため、
また頭から同じように読み込んでいきますのでキャッシュ化されていないため
同じ時間がかかりますし、同じ結果が返ってきます。

10万オブジェクトのリストを作成するのであれば、
フィルターを掛けて検索させないと無理かと思います。
単純にファイルリストを取得したいだけであれば AWS CLI を利用する方法もあります。
WEBで動かさない分、通信とか気にしなくて良いので良いかと思いますよ。
s3api list-objects-v2

 追記

AWSCLIは単純なCUIのコマンドです。

 1.EC2インスタンスにて以下をインストール 
yum install aws-cli
yum install jq

 2.AWSの設定ファイルを作成する 
aws configure

AWS Access Key ID []: AAAAAAAAAAAAAAAAAAAA ←自分のアクセスキーを入力する
AWS Secret Access Key []: AAAAAAAAAAAAAAAAAAAA ←自分のシークレットアクセスキーを入力する
Default region name []: ap-northeast-1 ←自分の使っているリージョンを入力する
Default output format []: json ←入力する

 3.接続確認 
aws s3 ls

 4.取得コマンドを実行する 

aws s3api list-objects-v2 --bucket [バケット名] | jq '.Contents[].Key' | sed s/\"//g 1> /tmp/s3list.txt 2> /tmp/s3list_err.txt

途中から始めたいならば

aws s3api list-objects-v2 --bucket [バケット名] --start-after [LISTのここから表示を始めるオブジェクト名] | jq '.Contents[].Key' | sed s/\"//g 1> /tmp/s3list.txt 2> /tmp/s3list_err.txt

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/05/24 13:59

    ご回答ありがとうございます!レスポンスが遅くなってしまい大変申し訳ありません。
    そうなのですね...CLIでやるしかなさそうですね...
    貼ってくださったリンク先でCLIをみたのですが、いまいちどのように使っていいのかわかりません。もしよろしければサンプルコードなど書いていただければと思うのですが、可能でしょうか?

    キャンセル

  • 2017/05/25 12:02

    追記しました。
    単純なCUIのコマンドです。

    キャンセル

  • 2017/05/26 16:48

    ありがとうございます!おかげさまで無事に取得できました!!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.21%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る