（转）为什么应该放弃或减少使用MD5

MD5是一种常用的单向哈希算法。它被广泛用于以下几个用途：

检查数据是否一致。将两地存储的数据进行哈希，比较结果，如果结果一致就无需再进行数据比对。这是利用了其“抵抗冲突”(collision- resistant)的能力，两个不同的数据，其哈希值只有很小的几率一致。相当多数据服务，尤其是网盘服务，利用类似的做法来检测重复数据，避免重复上传。
存储用户密码。将密码哈希后的结果存储在数据库中，以做密码匹配。这是利用了其做为单向哈希的特点，从计算后的哈希值不能得到密码。
校验数据是否被篡改。将数据和数据哈希后的结果一并传输，用于检验传输过程中数据是否有损坏。这是利用了很难找到两个不同的数据，其哈希结果一致的特点。

下面我们将说明为什么对于上面三种用途, MD5都不适用。

第一个用途尤其可怕。这个用途的最大的问题是，MD5在现实中已经被发现有相当多的数据都可能导致冲突(Hash碰撞)。这意味着，如果用户提供数据 1，服务器已经存储数据 2。通过简单的MD5哈希方式检查重复，服务器上为用户保存的数据就是2。接下来发生的事情大家都知道了，就是用户数据丢了！
第二个用途很容易遭到rainbow table(彩虹表)攻击。
第三个用途里一般会在需要哈希的数据中混入某些秘密，也就是计算公式为md5(secret key + data)。但这样并不适合用于验证数据的完整性。这是因为，从理论上上来说，如果知道md5(secret key +X)，即使不知道secret key的内容, 仍然可能通过对X的分析，计算得到md5(secret key +Y），从而将X成功的替换成Y，导致接收方仍然认为数据是正确的。Understanding MD5 Length Extension Attack

上文是说 MD5算法在很多场合都不再安全，应该避免使用，并不是全面否定其他安全哈希算法。SHA-2系列算法在最近几年应该还是足够安全和可靠的。另外，按照计划，SHA-3系列的哈希算法也即将在近期公开发布。

因此，对读者而言，这篇文章最有意义的提示是：“在使用安全哈希算法时，考虑使用SHA-2系列算法乃至更高级别算法，而不是MD5“。

MD5最大的问题在于，通过我国的王晓云教授等学者的工作，md5已经被证明可以进行碰撞攻击。也就是说，攻击者可以产生两个应用程序，内容不一样，但是哈希值完全一样。

在云存储的应用场合中，这种危害表现为攻击者可以伪造一个Windows 的安装光盘，在其中嵌入木马，通过上述手段让MD5哈希值和微软官方发布的光盘一致，抢先上传到分享类网盘中。如果该网盘采用MD5检查重复文件（例如离线下载服务），木马就会被植入到希望下载原版光盘用户的电脑中。

这种攻击形式不是天方夜谈，根据微软官方的报告，一款名为Flame的木马就用了类似的手段。当然，这种方式目前还是非常高级的攻击手段。

另外，实际应用中我们也常需要验证对方发送的数据没有经过任何攻击者篡改。例如，微博的API（应用接口）服务就需要验证请求来自于一个合法的授权方，而不是一个借用第三方名义的攻击者。

使用私钥加密，公钥解密验证的方式是完全可行的，但是因为非对称加密算法执行效率低下。因此，很多时候会用类似MD5的哈希算法验证哈希值和内容一致来保证数据未被篡改。

从前一篇文章的描述可以看出，MD5在这种场景是不安全的，不过需要额外注意的是，即使SHA-2系列的算法用于这个场景也是不安全的，这个时候应该考虑使用HMAC系列的对称验证算法。这个问题的根源是，从理论上上来说，如果知道hash(secret key +X)，即使不知道secret key的内容, 仍然可能通过对X的分析，计算得到hash(secret key +Y），从而将X成功的替换成Y，导致接收误以为Y就是X。而HMAC尽管基于安全哈希算法，却能避免这个类型的攻击。

从开放API的实例来看，Flickr的API在早期犯过这个错误。

当然，如果用于验证通信中的数据是否因为信道干扰损坏（而非攻击者人为干扰），或者将数据进行足够均匀的分布，MD5还是完全称职的，甚至是优秀的。关于这方面的内容，如果读者有兴趣，欢迎通过微博或者评论反馈，我们也可以再行补充。

转自：
为什么应该放弃或减少使用MD5
为什么应该放弃或减少使用MD5【续】

关联算法：
Understanding MD5 Length Extension Attack
Rainbow table(彩虹表)：是一个庞大的、针对各种可能的字母组合预先计算好的哈希值的集合，不一定是针对MD5算法的，各种算法的都有，有了它可以快速的破解各类密码。越是复杂的密码，需要的彩虹表就越大，现在主流的彩虹表都是100G以上。 RainbowCrack Project Website
朴素模式匹配算法又称简单匹配算法或Brute-Force算法，它是字符串模式匹配中比较简单的一种算法。它从主串的第一个字符开始进行模式匹配，依次比较主串和模式串中的每个字符，若比较全部相等（模式匹配成功），则返回模式串中第一个字符在主串中的位置，否则主串指针从比较失败的字符处回溯到第二个字符开始重新和模式串进行匹配，这样依此下去，直到和模式串匹配成功或到主串的末尾（匹配不成功）为止。

（转）为什么应该放弃或减少使用MD5

猜你喜欢