如何快速批量导入CSV数据到SQL_使用LOAD DATA或批量插入

1次阅读

LOAD DATA INFILE 报错主因是 secure_file_priv 限制，需查值并置 CSV 于指定目录；批量 INSERT 应合并语句、加事务、控每批 1000–5000 行；CSV 含特殊字符须设 FIELDS ENCLOSED BY ‘”‘ 等参数。

如何快速批量导入 CSV 数据到 SQL_使用 LOAD DATA 或批量插入

LOAD DATA INFILE 为什么本地文件总报错 `ERROR 1290 (HY000)`

MySQL 默认禁用本地文件导入，不是你路径写错了，是服务端配置卡住了。必须确认 secure_file_priv 的值——它要么是空（表示禁止所有本地加载），要么是一个具体目录（比如 /var/lib/mysql-files/），你的 CSV 文件必须放进去才能被 LOAD DATA INFILE 读到。

实操建议：

先执行 SHOW VARIABLES LIKE 'secure_file_priv'; 查当前限制
别用 LOAD DATA LOCAL INFILE —— 客户端开关常被禁用，且需额外加 --local-infile=1 启动 mysql 命令行
Linux 下把 CSV 拷进 /var/lib/mysql-files/（或你查到的路径），再用绝对路径写 LOAD DATA INFILE '/var/lib/mysql-files/data.csv'
字段分隔符默认是 t，CSV 通常是逗号，务必加 FIELDS TERMINATED BY ','

单条 INSERT 插一万行，基本等于等一整杯咖啡凉透。MySQL 每次都走完整事务流程、写 redo log、刷盘，开销全在来回 IO 上。

实操建议：

把多行合并成一条语句：INSERT INTO t(a,b) VALUES (1,2), (3,4), (5,6); —— 一次网络包、一次解析、一次锁表（如果没索引冲突）
每批控制在 1000–5000 行之间：太小起不到批量效果，太大可能触发 max_allowed_packet 或锁等待
显式加事务包裹：BEGIN; INSERT …… ; INSERT …… ; COMMIT;，否则每条 INSERT 都自动提交，性能更差
建表时已有大量索引？临时 DROP INDEX，插完再建，速度能差 5–10 倍

CSV 字段含换行、引号、逗号，`LOAD DATA` 直接错乱

标准 CSV 允许字段用双引号包裹，里面还能有换行和逗号，但 LOAD DATA INFILE 默认不识别这个规则，会把换行当行尾、把引号当普通字符，直接截断或报错 ERROR 1300 (HY000): Invalid utf8mb4 character string。

实操建议：

必须声明 FIELDS ENCLOSED BY '"'，否则引号毫无意义
加上 LINES TERMINATED BY 'n'（Windows 是 'rn'），避免系统换行符差异干扰
如果数据里真有双引号，得提前转义成两个双引号 "" —— 这是 RFC 4180 规定，MySQL 只认这种
不确定格式是否干净？先用 Python 或 awk 抽几行 head -n 100 data.csv | cat -n 看真实结构，别信文件名

它底层就是拼 INSERT 语句，每行一条，默认还带 if_exists='append' + 自动建表，对大 CSV 来说，等于手动写一万条 INSERT，网络和解析开销拉满。

实操建议：

强制改用 method='multi'：df.to_sql(……, method='multi')，能合并成一批 VALUES，快 3–5 倍
更大文件（>10 万行）直接放弃 to_sql，用 pandas.read_csv() 加 chunksize 流式读，配合批量 executemany() 或生成临时 CSV 再 LOAD DATA
注意 dtype 显式传给 to_sql，否则 pandas 推断的 object 类型可能映射成 TEXT，后续查询慢、索引失效
SQLite 下倒可以放心用，但 MySQL / PostgreSQL 就别图省事了

真正卡住人的往往不是语法，而是 secure_file_priv 路径权限、CSV 换行符隐藏字符、或者 pandas 默认不批量。这些点不手动验证一遍，光看文档只会反复撞墙。

发表于：数据库

近一天内

复制链接

转载说明：转载本网站任何内容，请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。

如何分析性能测试结果_mysql调优依据

如何处理SQL注入的SQL报错_实现自定义错误处理机制

SQL视图定义是否可以包含子查询_高效嵌套逻辑写法

mysql执行计划是在哪一步生成的_mysql优化流程解析

Sublime怎么做Base64编解码_Sublime如何转换Base64编码【方法】

如何快速批量导入CSV数据到SQL_使用LOAD DATA或批量插入

LOAD DATA INFILE 为什么本地文件总报错 `ERROR 1290 (HY000)`

INSERT INTO … VALUES 批量插入时性能断崖式下降

CSV 字段含换行、引号、逗号，`LOAD DATA` 直接错乱

Python pandas.to_sql() 看似方便，但线上千万别默认用

油条简单好用的在线工具站

如何编写SQL存储过程健壮性测试_模拟异常压力进行压测

C#怎么给图片进行灰度处理_C#如何实现图像滤镜效果【解析】

bootstrap如何修改默认的链接下划线样式

VSCode怎么使用Polacode插件生成带有漂亮Mac风格边框的代码分享截图

VSCode怎么设置文件图标主题_VSCode如何更换文件树的图标显示风格【妙招】

SQL使用JOIN进行数据迁移的技巧_利用连接条件过滤匹配数据

Sublime怎么编辑XML和XSLT_Sublime如何配置XML开发环境【技巧】

如何快速批量导入CSV数据到SQL_使用LOAD DATA或批量插入

LOAD DATA INFILE 为什么本地文件总报错 ERROR 1290 (HY000)

INSERT INTO … VALUES 批量插入时性能断崖式下降

CSV 字段含换行、引号、逗号，LOAD DATA 直接错乱

Python pandas.to_sql() 看似方便，但线上千万别默认用

LOAD DATA INFILE 为什么本地文件总报错 `ERROR 1290 (HY000)`

CSV 字段含换行、引号、逗号，`LOAD DATA` 直接错乱