なぜdevise等の認証（パスワード）は非可逆なハッシュ化をしているのにログインが出来るのかが分からない

例えばdevise等の認証系ライブラリではパスワードを登録した際にその文字列がハッシュ化されDBに格納していると思います。
例えばログインする際、暗号化であれば例えばBASE64などは一定の法則があって復号化が可能で、DBに入っている文字列を復号化し入力した値を照らし合わせるということが出来ると思うのですが、非可逆なハッシュ文字列を用いて認証を出来る意味が良く分かりません。
同じ文字列をハッシュ化しても同じハッシュ化された文字列にはなりませんよね？
よろしくお願い致します。

行動規範の内容に同意します

回答7件

ベストアンサー

[追記]
一般的なユーザー登録と認証の概要だけの説明です。
セキュリティめっちゃ大事なので、概要をつかめたら是非他の人のアンサーを読んで考えてみたり、
devise本体の実装も読んでみてください。

※前提としてハッシュ関数は一方向の関数であり、同じ文字列を同じアルゴリズムでハッシュ化すると必ず同じハッシュ値が得られます。

ステップ①：ユーザー登録時

仮にパスワードにabcという文字列を指定するとします。

abcという文字列をSHA256でハッシュ化するとBA7816BF8F01CFEA414140DE5DAE2223B00361A396177A9CB410FF61F20015AD
という不可逆な文字列になるので、これをDBに登録しておきます。

ステップ②:ログイン時

ユーザーはログインする時にパスワードにabcという文字列を指定します。

プログラムはabcという文字列を同じアルゴリズム、この場合はSHA256でハッシュ化して、BA7816BF8F01CFEA414140DE5DAE2223B00361A396177A9CB410FF61F20015ADという文字列を作り、DBに登録されている文字列BA7816BF8F01CFEA414140DE5DAE2223B00361A396177A9CB410FF61F20015ADと比較します。

この場合2つの文字列は一致しているので、プログラムは「正しいパスワードが入力された」とみなすことができます。

DBにはハッシュ関数でハッシュ化された不可逆な情報しか登録されていないので、万が一漏洩した場合でも、本当のパスワードabcを知ることができません。

補足

ハッシュ化された値は不可逆ですが、SHA256でハッシュ化するとabcはBA7816BF8F01CFEA414140DE5DAE2223B00361A396177A9CB410FF61F20015ADという値になるよねということは周知の事実です。

世の中にはいろんな人がいて、入力値とハッシュ値のペアのデータベースを作成している人がいます。
そういったデータベースにはレインボーテーブルという名前がついています。
このデータベースを参照すると、ハッシュ値から元の入力値を調べることが可能だったりするので、ソルトという方法を使ってレインボーテーブルを参照する攻撃を回避します。

ソルトもよければ調べてみて下さい。

投稿2019/11/13 09:56

編集2019/11/19 15:04

wuzzy

総合スコア152

widget11

2019/11/14 09:21

皆さんがおっしゃっているようにハッシュ化は毎度違う値になると勘違いしていました。しかしレインボーテーブルという言葉初めて聞いたのですがめちゃくちゃ面白いです！ありがとうございます！

行動規範の内容に同意します

BAが決まってますが、凄く勘違いしていそうですし、セキュリティ上問題がある方法だけが示され続けるのも問題と思いますので…。

パスワードを登録した際にその文字列がハッシュ化されDBに格納していると思います。

質問においてこの部分が間違っています。完全に間違っているわけでは無く、正確にはこうです。

「パスワードを登録した際にその文字列とランダムに生成するソルトを組み合わせたものがハッシュ化されソルトと一緒にDBに格納している」

ソルトを使用しない方式(LDAP passwordの{MD5}と{SHA}とかわざとそうしている実装はある)や、バグでソルトが常に同じになる(実際にそういう製品があった)場合は、レインボーテーブル攻撃に脆弱になるといったセキュリティ上問題があるため、使用すべきではありません。deviseを含めた認証ライブラリの実装ではソルトは必ず使用しています。これらの実装では、登録時は、例え同じパスワードであっても、毎回ランダムに生成された異なるソルトが使用され、結果毎回異なるハッシュ値が生成され、DBにはソルトとハッシュ値の両方が保存されています。認証時は、パスワードとDBにあるソルトからハッシュ値を生成し、DB上のハッシュ値と比較するという方法を取っています。

投稿2019/11/15 23:50

raccy

総合スコア21853

退会済みユーザー

2019/11/16 00:35

BAにもレインボーテーブルとソルトの記述はあり、誤解と取れる質問者の記述も見当たりませんよ。啓蒙は大事ですが、概念の理解と実運用の際の大仰な注意は必ずしも同時にしなくてもいいと思います。それこそ誤解に繋がってしまうので。

raccy

2019/11/16 03:04

回答は質問者だけが見ているわけではありませんので、質問者が理解できているかどうかよりも、回答そのものが他の人に誤解無く理解できるかどうかを私は重視します。次に、セキュリティに関わる話は、それを説明するのにどんなに複雑なことであろうと、軽視してはいけないと私は考えています。大げさと言いますが、大げさにしてもまったく足りないぐらいと思っています。 dameoさんと私とでは回答に対する考え方や態度そのものが異なるようですので、そのことについて議論はしません。ただ、私は上の考えで、今後も回答もするし、コメントもすると言うだけです。

退会済みユーザー

2019/11/16 03:11

誤解のないということであれば、パスワードとソルトに分離せずに、元データとか言うべきだし、特定のアルゴリズムに必要な値はそれだけではないかもしれません。どこまで行ったら正確か、ということは個人的に主観でしかないと思いますよ。回答に対する考え方も態度も同じつもりですが、これ以上の議論は無駄かもしれませんね。

H40831

2019/11/19 00:14

横から恐縮です。 Teratailのメルマガから飛んできた現在勉強中の初心者ですが、個人的にはこちらの解説のおかげですごくわかりやすかったですし、おかげで自分も同様の誤解をしていたのですが解決しました。「概念の理解と実運用の際の大仰な注意は必ずしも同時にしなくてもいい」ということですが、初心者としては、同時には説明されなくていいけど、その回答(記事)上のどこかでは解説してほしいです。遠く離れた場所で説明されても、それとこれが結びつくかどうかの確信が持てません。なんだか散々な言われようだったので一応フォローさせていただきました。助かりました。

退会済みユーザー

2019/11/19 01:25

＋αを理解する余裕のある人と、＋αがあることによって元の理解に混乱を来す人がいるってことです。そもそも余裕のある人は自分で調べられるので、実運用の際にも間違えることはあまりありません。あと結びつく/つかないではなく、要件が全く違うので、実運用(設計)では再度現実に即した真剣なリスクの検討が必要なだけですよ。あと厳しいことは言ってないというか、そもそも責めてるわけでありません… 何を誤解してたのか知りませんが、解決してよかったですね。

退会済みユーザー

2019/11/21 23:47

この回答、なんでストレッチングへの言及がないのですか？ raccy さんの回答としては違和感があります。

raccy

2019/11/22 09:57

te2jiさんいや、誤解していそうな所だけ回答したからです。安全性について詳しく話をするとストレッチングだけでは無く、ハッシュアルゴリズム自体の安全性(MD5のような脆弱性が見つかっているとか、そもそも結果の空間が小さいとか)、ハッシュアルゴリズム自体のコスト(特にハードウェアで高速なものが作れるかどうか)、ソルト・パスワード・前ラウンドの結果を次ラウンドでどのように組み合わせるのかとか、話したらきりが無いですし、書籍一冊とは言わないまでも、論文一つにはなりそうですので。ストレッチングの回数、いわゆる反復回数やコストが自由に選択できるようなメジャーな実装って、bcryptぐらいでは無いでしょうか。でも、bcrypt($2y$のやつ)だとちゃんとコストも保存されるから、言及した方が良かったかなとは今更ながら思っていたりもします。

退会済みユーザー

2019/11/22 20:59

コメントありがとうございます。記述意図、理解しました。聞いてみてよかった。余談) php の PASSWORD_ARGON2I はひどい出力になってましたｗ bcrypt の出力はきれいですね。

行動規範の内容に同意します

同じ文字列をハッシュ化しても同じハッシュ化された文字列にはなりませんよね？

この勘違いが間違いのもとだと思います。

同じ文字列、同じハッシュ関数（、同じソルト文字列）の場合は、ハッシュ値は同じです。

そもそも、ハッシュ関数は大きなデータ(ファイル等)の同一性検査に使われ始めたものです。
ハッシュ値が同じことを以て、元の大きなデータ同士を直接コンペアすることなく、同一性を確認します。
「同じデータなら同じハッシュ値」がハッシュの一番重要な性質です。

投稿2019/11/13 13:35

otn

総合スコア86571

厳密に言えばハッシュは暗号ではありません。
暗号は「復号できなければならない」ので、一方向・多対一変換であるハッシュは暗号たり得ません。

ハッシュは「与えられたデータを、何らかの法則に従って計算した結果」であって、

同じ入力だと同じハッシュ値が返ってくる
違う入力に対しては基本的には別のハッシュ値が返ってくる
違う入力に対して、同一のハッシュ値が返ることはある（ハッシュの衝突）

特性を持っています。
そこで、データそのものを比べるのではなく、データから計算したハッシュ値を比べることで、「ほとんどの場合」入力の同一性をチェックすることに使える、というものです。
※加えてハッシュ値計算の手間はかかるものの、データそのものを全部比べるより資源を必要としないという利点があります

投稿2019/11/14 01:23

tacsheaven

総合スコア13707

maisumakun

2019/11/14 01:32

> ※加えてハッシュ値計算の手間はかかるものの、データそのものを全部比べるより資源を必要としないという利点がありますパスワードへ適用する場合、そのままでは総当たり攻撃に対して弱くなってしまうので、わざとハッシュ化自体に（ログイン時の1回ならどうということはない程度には）コストの掛かる手法を使って、攻撃コストを引き上げる「ストレッチング」が行われています。

行動規範の内容に同意します

例えばログインする際、暗号化であれば例えばBASE64などは一定の法則があって復号化が可能で、DBに入っている文字列を復号化し入力した値を照らし合わせるということが出来る

出来るといえば出来ますが、復号はしないのです。
同じようにハッシュ値を計算してそれが一致することを確認するだけです。
ハッシュ値にしているのは、単に平文のパスワードだと盗まれたらそのまま使われるからです。
ハッシュ値なら元のパスワードや同じハッシュ値になる文字列を探すのが困難になります。
困難さはアルゴリズムによって変わります。

同じ文字列をハッシュ化しても同じハッシュ化された文字列にはなりませんよね？

なります。

投稿2019/11/13 10:24

退会済みユーザー

総合スコア0

ステップ①：ユーザー登録時

ステップ②:ログイン時

補足

関連した質問