参看

https://twitter.com/_mohemiv/status/1561044393880178689

@_mohemiv分享了一则消息,特定条件下两个解压密码对应同一个加密zip包。云海跟我说的这事,我几乎不上推特,各种原因吧。

Linux环境中测试步骤如下

a) 加密压缩

7z a x.zip /etc/passwd -mem=AES256 -p

提示输入密码时,用这个

Nev1r-G0nna-G2ve-Y8u-Up-N5v1r-G1nna-Let-Y4u-D1wn-N8v4r-G5nna-D0sert-You

b) 解压

7z e x.zip

提示输入密码时,用这个

pkH8a0AqNbHcdw8GrmSp

步骤a、b中的两组密码可以互换,加密时用短的,解密时用长的。

Windows环境中用7-Zip GUI测试时,注意选

压缩格式    zip (默认是7z)
加密算法    AES-256 (默认是ZipCrypto)

看着有点神奇,但这不是魔法,不是前述URL所说的"后门口令"。它有一个合理的解释,参看

https://twitter.com/Unblvr1/status/1561112433812463616

@Unblvr1解释了原理

ZIP uses PBKDF2, which hashes the input if it's too big. That hash (as raw bytes) becomes the actual password. Try to hash the first password with SHA1 and decode the hexdigest to ASCII.

他的意思是

$ echo -ne "Nev1r-G0nna-G2ve-Y8u-Up-N5v1r-G1nna-Let-Y4u-D1wn-N8v4r-G5nna-D0sert-You" | shasum
706b4838613041714e62486364773847726d5370  -

$ echo -ne "Nev1r-G0nna-G2ve-Y8u-Up-N5v1r-G1nna-Let-Y4u-D1wn-N8v4r-G5nna-D0sert-You" | shasum | cut -f1 -d' ' | xxd -r -p
pkH8a0AqNbHcdw8GrmSp

在限定条件下zip的密码逻辑有点奇怪,明文口令超长时对之求SHA1,用SHA1当密码;明文口令足够短时,直接用作密码。看7-Zip源码可以找出这段逻辑,了解多长算超长,我懒。

仔细看这个逻辑,理论上对步骤b中密码的字节流求"SHA1 Collision",有无穷多个碰撞等着你,只要"碰撞"对应可打印字符串,就可用作步骤a中密码。这种运算量太大,对普通人不现实,我连MD5碰撞都没试过,更别说SHA1碰撞。

换个思路,穷举超长字符串,计算SHA1,只要20个字节全部位于ASCII范围,就制造出了一对zip解压密码。这个运算量比"哈希碰撞 (SHA1 Collision)"小,我接着懒。

后记

未看7-Zip源码,但我看了一眼RFC 2898,理解了前述密码逻辑。

加密算法是AES-256,它需要32字节aes-key。无论输入password长短,均经PBKDF2算法变换得到32字节aes-key。PBKDF是"Password Based Key Derivation Function"的缩写,PBKDF2是PBKDF的一种,比如还有PBKDF1。

RFC 2898提到,PBKDF2算法所用伪随机数生成算法的一种示例是HMAC-SHA-1。后者有两个形参key、sth,在加密zip这个case里key对应password。HMAC-SHA-1算法内部对key有处理,key超过512-bits(64字节)时,对原始key求SHA1得到160-bits(20字节)新key;原始key未超过64字节时,直接用之。

因此,在限定条件下zip的密码逻辑不奇怪,那是PBKDF2/HMAC-SHA-1的标准动作,我肤浅了。步骤a中的长密码是71字节,超过64字节。

此处有点意思哈。对于限定条件下的zip密码,并非一寸长一寸强,64字节的长密码是其强度上限,再长反而将强度除至20字节,也不知是坑谁呢。