Linux系统调用如何工作_用户态与内核态解析【指导】

5次阅读

系统调用是通过软中断或 syscall 指令触发的特权态切换，而非普通函数调用；用户态经 int 0x80 或 syscall 陷入内核态，切换栈、保存上下文、查表执行对应内核函数，glibc 仅做封装与错误处理。

Linux 系统调用如何工作_用户态与内核态解析【指导】

用户程序调用 open()、read() 这类“函数”时，实际执行的不是内核代码，而是 glibc 提供的封装——它最终通过 int 0x80（x86）或 syscall 指令（x86-64）主动陷入内核。这个过程强制 CPU 从用户态（ring 3）切到内核态（ring 0），并跳转到预设的中断处理入口。

关键点在于：用户栈被保留但不再可用；CPU 切换到内核栈；寄存器上下文被保存；内核根据传入的系统调用号（如 __NR_read = 0）查表找到对应内核函数（如 sys_read）。

glibc 封装会做参数校验、错误码转换（-1 → errno），但不参与真正的 I/O 或内存管理
直接写汇编调用 syscall 指令绕过 libc 是可行的，但需手动设置 %rax（调用号）、%rdi/%rsi/%rdx（参数），且失去可移植性
现代 x86-64 推荐用 syscall 指令而非 int 0x80，后者在 64 位下可能截断指针或触发兼容模式开销

Linux 使用分页机制实现地址空间隔离：每个进程有独立的页表，用户态只能访问标记为“user accessible”的页表项（PT_USER 位）。当 CPU 处于用户态时，若尝试访问内核地址（如 0xffff888000000000 起始的直接映射区），会触发 #PF（page fault）异常，由内核的缺页处理程序拦截并终止进程。

内核自身也受保护：CR0 寄存器的 WP（Write Protect）位开启后，即使在内核态，对只读页（如代码段、常量数据）的写操作也会触发异常——这防止了模块或驱动意外覆写内核关键结构。

copy_to_user() 和 copy_from_user() 不是简单 memcpy，它们会先用 access_ok() 检查地址是否落在当前进程的用户地址空间范围内，再逐页检查页表权限
用户传入的指针（如 buf 参数）必须是当前进程虚拟地址空间内的有效地址；传入内核地址（如 &some_kernel_var）会导致 -EFAULT
内核态不能直接使用用户栈，所有系统调用入口都会立即切换到 per-CPU 内核栈（通常 16KB），避免栈溢出影响内核稳定性

运行 strace -e trace=read ./a.out 显示一行 read(3, "hellon", 1024) = 6，但这背后至少发生三次 CPU 特权级切换：

user: call read() → enter kernel (1st switch) kernel: do_syscall_64() → sys_read() → vfs_read() → …… → copy_to_user() kernel: 返回前准备用户寄存器、恢复用户栈指针 → exit_to_user_mode() (2nd switch) user: read() 返回，但此时仍处于用户态；若后续有信号待投递，会再陷入内核处理（3rd switch）

每次切换涉及寄存器保存 / 恢复、TLB 刷新（部分架构）、栈切换，开销远高于普通函数调用。频繁小读写（如循环调用 read(fd, &c, 1)）性能极差，本质是把 I/O 变成了系统调用风暴。

系统调用号本身不跨架构：x86-64 的 __NR_read 是 0，arm64 也是 0，但寄存器传参约定不同（arm64 用 x0~x7）
strace 依赖 ptrace(PTRACE_SYSCALL) 在每次进入 / 退出系统调用时暂停目标进程，因此本身会显著拖慢被跟踪程序
真正零拷贝路径（如 splice()、io_uring）的目标就是减少甚至消除用户 / 内核间的数据拷贝和上下文切换次数

添加新系统调用需修改内核源码（arch/x86/entry/syscalls/syscall_table_64.c）、分配唯一调用号、提供稳定 ABI，并面临上游拒绝合入的风险。相比而言，字符设备驱动 + ioctl()、eBPF 程序、用户态协议栈（如 DPDK）、或 io_uring 提供的扩展接口更安全、灵活、无需重启内核。

新增系统调用一旦合入主线，就必须永久维护 ABI 兼容性，连参数语义都不能变——比如 stat() 的 struct layout 锁死几十年
Android 的 binder、Chrome OS 的 minijail 都没加新 syscall，而是基于现有机制（ioctl、seccomp、memfd_create）构建
真正需要内核介入的新功能（如 cgroup v2、landlock）都走 netlink、procfs、sysfs 等已有通道，而非塞进 syscall 表

用户态和内核态的边界清晰，但跨越它的成本比想象中高；多数优化方向不是“让系统调用更快”，而是“少调用几次”。

发表于：linux运维

近三天内

# access # ai # android # binder # chrome # errno # int # linux # linux系统 # Struct # switch # 为什么 # 封装 # 常量 # 循环 # 指针 # 接口 # 架构 # 栈

复制链接

转载说明：转载本网站任何内容，请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。

css 页面在不同屏幕比例下拉伸怎么办_使用百分比和相对单位

Linux 怎么排查 DNS 解析慢的问题？

Linux 写一个自动备份数据库的脚本

LinuxOOM问题排查流程_内存不足场景分析【教程】

mysql脏读不可重复读幻读是什么_mysql事务问题解析

Linux系统调用如何工作_用户态与内核态解析【指导】

系统调用不是函数调用，是软中断触发的特权切换

用户态和内核态的内存隔离靠页表和 CR0.WP 位保障

strace 看到的 read(3, “…”, 1024) 实际经历了三次上下文切换

自定义系统调用为什么现在几乎没人做

LinuxDevOps权限管理教程_发布权限与审计实践

Linux磁盘故障排查流程_只读与损坏场景解析【教程】

如何校验mysql配置是否生效_mysql配置验证方法

C++中的堆内存和栈内存有什么区别？(手动管理与自动分配)

javascript如何保证代码安全_有哪些常见的前端安全漏洞需要防范？

静鱼导航带后台导航引导页

如何使用Golang优化日志级别过滤_减少不必要输出开销

Python条件分支优化_复杂判断拆解说明【指导】

Linux系统调用如何工作_用户态与内核态解析【指导】

系统调用不是函数调用，是软中断触发的特权切换

用户态和内核态的内存隔离靠页表和 CR0.WP 位保障

strace 看到的 read(3, “…”, 1024) 实际经历了三次上下文切换

自定义系统调用 为什么 现在几乎没人做

自定义系统调用为什么现在几乎没人做