Modern-CryptoⅦ Cryptographic Hash Functions

Crypto

Publish Date: 2023-02-09

Update Date: 2024-07-20

Words Count: 2.9k

计算机科学上到处都是哈希函数，得益于哈希函数可以作为一种“压缩”的方式，进行诸如哈希表的构建。密码学上的哈希函数则要满足更多的性质。

Collision resistance

形式化：
对于$H:\{0,1\}^m\rightarrow \{0,1\}^n,m\geq n$对任何的PPT算法，无法找到一个碰撞，或者说对多项式的寻找方式，$x\neq x’,H(x)\neq H(x’)$,那么该函数抗碰撞。

$m>n$，则哈希函数必定会产生碰撞。只是对PPT敌手而言，只有极小概率能够找到碰撞。
可以看到，这里定义的哈希函数是unkeyed的，也因此是确定性的。然而，实际运用中，若要攻破这一哈希函数，便需要去找到一对碰撞，而碰撞的寻找是十分困难的。实际上，这里的unkeyed只是指$H(k,x)$中的k为公开常量，而非随机选定的意思。随机选定也就是我们之前讨论的PRF之类的了。

在密码学中的证明里，若结果依赖抗碰撞性，形式上我们考虑使用keyed哈希函数，实际上通常使用unkeyed哈希函数，并且同样能够满足抗碰撞。

Definition

Definition: Hash Functions

A hash Function with output length $l$ is a pair of PPT algorithm (Gen,H) satisfying

$s\leftarrow Gen(1^n),|s|\geq n$,作为k,并为所有人可知。
For a key s and $x\in\{0,1\}^*,H(s,x)$output a string in $\{0,1\}^{l(n)}$ if the input x is restricted to $|x|= l'(n),l'(n)\geq l(n)$，Gen，H)is a fixed-length hash Function.

collision-finding experiment

生成密钥s。
敌手被给定密钥$s$，输出信息$x$，$x’$保证两者长度相同并符合上述定义。
若$H(x)=H(x’)$，则返回1，否则返回0.

Definition:collision resistant in orcacle

(Gen,H) is a collision resistant if for every PPT $\mathcal{A}$ $$Pr_{s\leftarrow Gen(1^n)}[\mathcal{A}(s)\rightarrow(x\neq x')\land H(s,x)=H(s,x')]\leq negl(n)$$

weaker notions of security

第二原象性(Second-preimage or target-collision resistance)：对于给定的s和随机的x，找到$x’\neq x,H(s,x)=H(s,x’)$是极其困难的，
单向性(Preimage resistance or one-wayness) 给定s和y，y是$H(s,x)$的结果，找到$x’$（不一定非要$x\neq x’$），$H(s,x’)=y$

这是在更弱意义上的安全性。有了collision-resistance，这两个性质便都有了。若满足这两个小性质，便可以构造出单向函数。

Domain extension for CRHFs

如同先前一般，这里介绍通过操作模式进行扩展。

The Merkle Damgard transform

Chop input x with length $L=|x|$ into $B=\lceil \frac{L}{n}\rceil$,并在最后一块添加0以填充。$x_{B+1}=L$ 有以下形式化： $z_0=IV,z_i=h(z_{i-1},x_i)$ $h_{B+1}=H(x)$

在这里，由于原消息填充后有被碰撞的可能，例如111||000和1110||00填充后相同，因此最后一块设为L用于防碰撞。
这种构造方式是十分普遍的。在实际的哈希构造方案中基本都用到了该构造方式：MD5,SHA-1,SHA-2。

MD transform collision resistant

if $h$ is collision resistant, so is $H$.

对上述性质的证明过程，可以通过反证法，若H不满足该性质，则h也不满足抗碰撞。

顺带一提，我国密码学的王小云院士的一大工作便是找到杂凑(hash)函数的碰撞，也因她的工作，采用MD transform的MD5,SHA-1被证明是不安全的。实际运用中，最好采用SHA-2,或者不是MD transform形式的SHA-3算法。

Hash-and-MAC

有了hash函数后，对任意长度的明文m进行认证，可以采用“先对m进行hash，再对hash值进行mac计算”。MAC保证了攻击者无法对任何新的哈希值进行认证，而抗碰撞使攻击者无法找到对应的明文。

构造认证方案：
$\prod’=(Gen’,Mac’,Vrfy’)$
$Gen’(1^n)\rightarrow <s(Gen_H(1^n)),k(Gen)>$
$Mac_{<s,k>}'(m)=Mac_k(H^s(m))$
$Vrfy$满足canonical条件。

New Construct

若原$\prod$是安全的MAC，且$H$是抗碰撞的，则$\prod'$对任意长度的明文都是安全的MAC方案。

证明过程需要用到归约性证明，证明若敌手要攻破构造的方案，要么攻破MAC要么找到碰撞。

using Hash functions as MACs

在许多场合中，人们会错误的直接把密码学意义上的hash函数用于认证~~没有基本的密码学常识~~,这实际上是十分危险的。

$Naive$~~y**ng~~ MAC：$Mac_k(m)=H(k||m)$

但用hash函数构造MAC是可行的：

$Nested$ MAC（两密钥），若采用的哈希函数是PRF，则NMAC也是PRF，从而就是MAC。

顺带一提，NMAC原论文的h哈希函数默认直接带有PRF属性，所以直接使用了；但一般而言，h只是具有抗碰撞性质的哈希函数。
然而，现代的哈希函数基本都明确要求具有PRF属性，所以歪打正着，NMAC也能够保证安全性。

HMAC则是较为著名的一个方案了。它可以用于任意长度的消息，并用任意的哈希函数构造，较NMAC更加实用。

在HMAC之前，许多人不喜欢用CBC-MAC（太慢）而自己构造MAC，不能不说是一种安全性缺失。HMAC填补了这一漏洞。

Generic attacks on hash Functions

Birthday bound

看上去，对于哈希函数的攻击是十分困难的,最坏情况下要对所有的可能进行蛮力遍历才能得到一对碰撞。然而，生日悖论使攻击可能大大增强：

Birthday bound

若有q个独立均匀随机选取的元素从集合S中选取，$|S|=N$，则有： $$\frac{q(q-1)}{4N}\leq Pr[\exists i\neq j,y_i=y_j]\leq\frac{q^2}{2N}$$ 对于不均匀的选取，第一个不等式成立。

因此，要保证对于q(n)问询的敌手，$q(n)^2/2^\ell<<1$，即$\ell>2log(q(n))$

meaningful collisions

由于有意义的句子里有许多固定格式，理论上而言，可以通过调整较少数量的词来达到缩小搜索空间，从而使攻击更加容易成立。

Small space birthday attacks

相比普通生日攻击，该方法通过两倍的查询来换取存储空间的$O(1)$复杂度。

Applications

random oracle model(随机预言机)

有几种基于密码学上的哈希函数的构造方案，单凭哈希函数的抗碰撞、单向性是无法完成安全的。
对此，如果想要重新寻找基于底层哈希函数的可证明安全方案，那么找到这类方案前便无法使用；而如果使用现有的密码系统，除了设计者试图攻击未果这一事实外没有任何理由证明其安全性，这是不可接受的。

于是，便有一种看起来“取巧”的方案，在严格的可证明安全和没有任何证明中的一种方法：引入一个理想化的模型来证明密码的安全性，而这就是随机预言机。

~~有证明总比没有好对吧~~

随机预言机的定义：假设一个随机函数$H:\{0,1\}^*\rightarrow\{0,1\}^n$，其只能够被任何人查询计算，即输入$x$返回$H(x)$。

用另一种更加玄乎的话来说，在你给定输入前，随机预言机看起来像是完全均匀随机的函数(黑盒啊嗯)，原文甚至将随机预言机比作“in the sky”,但你朝天空喊一句$x$，它就会给你确定的回应$H(x)$,并且$H(x)$确定下来，无论你后面怎么输入给定的$x$，$H(x)$都是唯一的回应。

~~什么b比喻~~

在构造方案时，证明使用RO(随机预言机),而实际构建方案时，RO用密码学意义上的哈希函数实例化。

可以看到，这是一种启发式的证明，但在实际出乎意料的好用。

另外，随机预言机满足“可编程性”，在归约性证明中可以选定均匀的输出值。

pseudorandom generator

设随机预言机$H=\{0,1\}^{n/2}\rightarrow \{0,1\}^n$
则有$Pr_{y\leftarrow \{0,1\}^n}[\mathcal{A}^{H(\cdot)}(y)=1]-Pr_{x\leftarrow \{0,1\}^{n/2} }[\mathcal{A}^{H(\cdot) }(H(x))=1]=negl(n)$

则H便是PRG。

pseudorandom Function

$H=\{0,1\}^{2n}\rightarrow\{0,1\}^n$
$F_k(x)=H(k||x)$

则F便是PRF。

Collision resistant Hash Function

$H=\{0,1\}^*\rightarrow\{0,1\}^n$

其本身便可作为抗碰撞的哈希函数实例化。

以上所有的构造都用到了H(x)是uniform的性质，但没有可编程性。

需要注意的是，RO的使用直至现在都存在着争议，有人认为它并不能代表完全的安全，也有人认为我们并没有完全了解RO的性质，可能会有隐藏的问题。

Fingerprinting and deduplication

哈希函数可用于病毒检测，另外，也可以用于云存储等。

Merkle tree

上文提到哈希可以用于云存储。用户只要保存了哈希值，便可以通过哈希值来查询得到对应的云文件，从而对文件进行下载验证等操作。若要高效进行，可以采用Merkle tree这种数据结构。

其构造方法通俗而言，Merkle tree除了叶子节点的tag是对文件的哈希值，其余节点的tag都是对子节点的哈希值。

Merkle tree

若其底层的哈希函数是抗碰撞的，那么具有固定文件数量的Merkle Tree也是抗碰撞的。

客户端存储根节点的哈希值，而服务器维护Merkle Tree以及文件。若客户端需要对应的文件，服务器可以将文件和其Merkle Tree路径外的其他子节点上的所有哈希值(空间复杂度$O(log(n))$发向客户端，以让客户端验证文件完整性。

MAC and Hash for message authentication

MAC和Hash都可以用于认证，区别为：

MAC要求通信双方在通信前共享密钥，而哈希函数虽然不用密钥的存储，但要求能够安全存储哈希值。

basic password protocol

~~谁的密码明文存储啊？~~

~~原来是CSDN啊~~

现实中对密码进行哈希操作已经是稀松平常了。具有抗碰撞性的哈希就是好用。

然而，由于许多人采用弱密码，可以用在线字典攻击(攻击者对用户清单统一尝试较少密码)，也可以离线字典攻击(暴力查找H(w)=storaged password).
而batch离线字典攻击则假设敌手获取一整个存储密码的文件$F$，用事先准备的字典集合$Dict$对其进行离线字典攻击，这种方式更容易攻破其密码,时间复杂度为$|Dict|+|F|$

于是就有了public salt，也就是我们常说的加盐，即使在密码文件中公开存储盐值，也可以保证其时间复杂度大幅上升，攻击者必须遍历密码文件才能完成一次攻击尝试，于是时间复杂度为$O(|Dict|\times|F|)$

回到对于密码的哈希：如果哈希函数，例如SHA1执行过快，也就是单步执行过快，计算机也能在可接受的时间内完成计算。

于是就有“慢”哈希函数，或者多次应用哈希函数来减慢速度；或者如之前已经叙述过的“加盐”，抑或是服务器辅助的方法（密码学老师似乎就是搞这方向的，还搞了两篇自己的论文放在PPT，乐）。

ZzzRemake

https://zzzremake.github.io/2023/02/09/modern-cryptovii-cryptographic-hash-functions/

All articles in this blog are used except for special statements CC BY 4.0 reprint policy. If reproduced, please indicate source ZzzRemake !

Crypto hash

Comment

Modern-CryptoⅧ Practical Construction of symmetric key primitives

私钥密码学最后一部分：用对称密钥的密码学原语构建实用的方案。

2023-02-13 Crypto

Crypto

Modern-CryptoⅥ CCA-Security＆Authenticated Encryption

CCA安全相关以及与AE方案的联系

2023-02-05 Crypto

Crypto CCA AE