Python 文件校验应使用 SHA256 分块读取计算哈希值,避免内存溢出;必须以二进制模式打开文件,逐块更新 hash 对象并最终获取十六进制摘要。

Python 中做文件内容校验,核心是用哈希(hash)算法生成唯一摘要值,相同内容必得相同 hash,内容微变则 hash 剧变。常用算法有 md5、sha1、sha256 等,推荐优先用sha256——安全性高、碰撞概率极低。
为什么 不能直接读全文件到内存再 hash?
大文件(如几百 MB 或 GB 级)一次性读入内存会占用过多资源,甚至触发 MemoryError。稳妥做法是分块读取、逐块更新 hash 对象。
- 每次读取固定大小(如 8192字节),避免小块频繁 I / O 或大块爆内存
- 调用
hash_obj.update(chunk)持续累积计算,不拼接原始数据 - 最终调用
hash_obj.hexdigest()获取十六进制字符串结果
标准实现:安全读取 +SHA256 校验
以下为生产可用的函数模板,自动处理二进制读取、异常和资源释放:
import hashlib def file_sha256(filepath): hash_obj = hashlib.sha256() try: with open(filepath, "rb") as f: for chunk in iter(lambda: f.read(8192), b""): hash_obj.update(chunk) return hash_obj.hexdigest() except (OSError, IOError) as e: raise RuntimeError(f" 无法读取文件 {filepath}: {e}")
调用示例:print(file_sha256("data.zip")) → 输出 64 位小写 hex 字符串。
立即学习“Python 免费学习笔记(深入)”;
多算法支持与校验比对技巧
若需同时支持 MD5/SHA1 等,可将算法名作为参数传入;校验时注意大小写和空格——sha256sum命令输出默认含空格和文件名,提取时建议用 split()[0] 取首字段。
- Linux/macOS 下生成参考值:
sha256sum file.txt - Windows PowerShell:
Get-FileHash file.txt -Algorithm SHA256 | Format-List - 比对前统一转小写、去除首尾空格,避免因格式差异误判
常见误区提醒
校验失败不一定是文件损坏,更可能是操作疏漏:
- 用文本模式(
"r")打开二进制文件,会导致换行符误转换,必须用"rb" - 未重置 hash 对象就重复使用(如循环中未新建
hashlib.sha256()) - 忽略文件路径 编码 问题(尤其含中文路径),建议用
pathlib.Path或确保 UTF- 8 环境