LOAD DATA INFILE 报错主因是 secure_file_priv 限制,需查值并置 CSV 于指定目录;批量 INSERT 应合并语句、加事务、控每批 1000–5000 行;CSV 含特殊字符须设 FIELDS ENCLOSED BY ‘”‘ 等参数。

LOAD DATA INFILE 为什么本地文件总报错 ERROR 1290 (HY000)
MySQL 默认禁用本地文件导入,不是你路径写错了,是服务端配置卡住了。必须确认 secure_file_priv 的值——它要么是空(表示禁止所有本地加载),要么是一个具体目录(比如 /var/lib/mysql-files/),你的 CSV 文件必须放进去才能被 LOAD DATA INFILE 读到。
实操建议:
- 先执行
SHOW VARIABLES LIKE 'secure_file_priv';查当前限制 - 别用
LOAD DATA LOCAL INFILE—— 客户端开关常被禁用,且需额外加--local-infile=1启动 mysql 命令行 - Linux 下把 CSV 拷进
/var/lib/mysql-files/(或你查到的路径),再用绝对路径写LOAD DATA INFILE '/var/lib/mysql-files/data.csv' - 字段分隔符默认是
t,CSV 通常是逗号,务必加FIELDS TERMINATED BY ','
INSERT INTO … VALUES 批量插入时性能断崖式下降
单条 INSERT 插一万行,基本等于等一整杯咖啡凉透。MySQL 每次都走完整事务流程、写 redo log、刷盘,开销全在来回 IO 上。
实操建议:
- 把多行合并成一条语句:
INSERT INTO t(a,b) VALUES (1,2), (3,4), (5,6);—— 一次网络包、一次解析、一次锁表(如果没索引冲突) - 每批控制在 1000–5000 行之间:太小起不到批量效果,太大可能触发 max_allowed_packet 或锁等待
- 显式加事务包裹:
BEGIN; INSERT …… ; INSERT …… ; COMMIT;,否则每条INSERT都自动提交,性能更差 - 建表时已有大量索引?临时
DROP INDEX,插完再建,速度能差 5–10 倍
CSV 字段含换行、引号、逗号,LOAD DATA 直接错乱
标准 CSV 允许字段用双引号包裹,里面还能有换行和逗号,但 LOAD DATA INFILE 默认不识别这个规则,会把换行当行尾、把引号当普通字符,直接截断或报错 ERROR 1300 (HY000): Invalid utf8mb4 character string。
实操建议:
- 必须声明
FIELDS ENCLOSED BY '"',否则引号毫无意义 - 加上
LINES TERMINATED BY 'n'(Windows 是'rn'),避免系统换行符差异干扰 - 如果数据里真有双引号,得提前转义成两个双引号
""—— 这是 RFC 4180 规定,MySQL 只认这种 - 不确定格式是否干净?先用 Python 或 awk 抽几行
head -n 100 data.csv | cat -n看真实结构,别信文件名
Python pandas.to_sql() 看似方便,但线上千万别默认用
它底层就是拼 INSERT 语句,每行一条,默认还带 if_exists='append' + 自动建表,对大 CSV 来说,等于手动写一万条 INSERT,网络和解析开销拉满。
实操建议:
- 强制改用
method='multi':df.to_sql(……, method='multi'),能合并成一批VALUES,快 3–5 倍 - 更大文件(>10 万行)直接放弃
to_sql,用pandas.read_csv()加 chunksize 流式读,配合批量executemany()或生成临时 CSV 再LOAD DATA - 注意
dtype显式传给to_sql,否则 pandas 推断的object类型可能映射成TEXT,后续查询慢、索引失效 - SQLite 下倒可以放心用,但 MySQL / PostgreSQL 就别图省事了
真正卡住人的往往不是语法,而是 secure_file_priv 路径权限、CSV 换行符隐藏字符、或者 pandas 默认不批量。这些点不手动验证一遍,光看文档只会反复撞墙。