系统调用基本概念

为了和用户空间上运行的进程进行交互，内核提供了一组接口，透过该接口，应用程序可以访问硬件设备和其他操作系统资源。这组接口称为系统调用。
系统调用是用户空间和硬件设备之间添加的一个中间层，主要作用：
1）为用户空间提供一种硬件的抽象接口。
2）保证系统的稳定和安全。
3）每个进程都运行在虚拟系统中，而在用户空间和系统的其余部分提供这样一层公共接口，也是基于中间层的考虑。

Linux系统调用非常少，x86系统上大概250个系统调用（具体取决于特定体系结构）。

[======]

API、POSIX和C库

一般，应用程序通过应用程序编程接口（API）而非直接通过系统调用来编程。这样，应用程序使用的编程接口，并不需要跟内核提供的系统调用对应。一个API定义了一组应用程序使用的编程接口。

Unix中，最流行的应用编程接口是POSIX标准，而POSIX是由IEEE的一组标准组成，目的是提供一套大体上基于Unix 的可移植操作系统标准。
Linux与POSIX兼容；Windows NT提供了POSIX兼容库。

[======]

系统调用

系统调用在Linux中常称作syscalls，通常通过函数进行调用。
参数根据定义决定；返回long类型表示成功或错误，通常，0表示成功，非0表示错误。出错时，错误码写入errno全局变量，可通过perror库函数将其翻译为用户可理解字符串。

例如，getpid()系统调用，返回当前进程PID。内核实现：

asmlinkage long sys_getpid()
{
    return current->tgid;
}

注意：asmlinkage表示使用0个寄存器传递参数，也就是不用寄存器传参，常用于系统调用，确保是用栈传参。

#define asmlinkage __attribute__((regparm(0)))

系统调用号

Linux中，每个系统调用都被赋予一个独一无二、固定不变的系统调用号，用来关联系统调用。用户空间的进程执行一个系统调用时，该系统调用号酒杯用来指明到底要执行哪个系统调用；进程不会提及系统调用名称。

sys_ni_syscall() 代表未实现的系统调用，除了返回-ENOSYS外不做任何工作，该错误号专门针对无效的系统调用而设。如果一个系统调用被删除，或不可用，该函数就要负责“填补空位”。

可通过查看entry.s文件中的sys_call_table，查看系统调用表中所有已注册过的系统调用的列表。

系统调用的性能

Linux系统调用比其他许多操作系统执行得要快：上下文切换时间；进程内核优化得简洁、高效；系统调用处理程序和系统调用本身简洁。

[======]

系统调用处理程序

用户空间无法直接执行内核代码，不能直接调用内核空间中的系统调用，需要靠软中断实现：通过引发一个异常来促使系统切换到内核态去执行异常处理程序。这个异常处理程序实际上就是系统调用处理程序。
x86上，软中断（这里是软件中断）由int $0x80指令产生。该指令会触发一个异常导致系统切换到内核态，并执行第128号异常处理程序，而该程序正是相当于处理程序，名为system_call() 。该函数与硬件体系结构紧密相关，通常在entry.S文件中用汇编编写。

指定恰当的系统调用

所有系统调用陷入内核的方式都一样，必须把系统调用号一并传给内核。
x86上，系统调用号通过eax寄存器传递给内核。eax是x86汇编中通用寄存器的名称，32bit。EAX是累加器，是很多加法乘法指令的缺省寄存器。

system_call()检查给定系统调用号的有效性：如果系统调用号 >= NR_syscalls，函数返回-ENOSYS；否则，执行相应系统调用。

call *sys_call_table(, %eax, 4);

参数传递

除了系统调用号，大部分系统调用都还需要一些外部的参数输入。发生异常时，应该把这些参数从用户空间传递给内核。
最简单办法就是像传递系统调用号一样，把这些参数也存放在寄存器。如x86上，ebx, ecx, edx, esi, edi按顺序存放前五个参数；超过6个参数时，可以用一个单独寄存器存放指向这些参数的用户空间地址的指针。

给用户空间的返回值，也可以通过寄存器传递。x86上，返回值存放在eax中。

[======]

系统调用的实现

一个系统调用实现时，不需要太关心它和系统调用处理程序之间的关系。
给Linux内核添加一个系统调用很容易，难点在于设计和实现。

编写系统调用原则

1）决定用途
它要做什么？每个系统调用都应有一个明确用途，不推荐多用途的系统调用。ioctl()是反例。

2）确定新系统调用的参数、返回值、错误码
接口应该力求简洁，参数尽可能少。

3）设计接口时，尽量为将来多做考虑
是不是对函数做了不必要限制？系统调用设计得越通用越好，有一定可移植性。

4）不对系统调用做错误的假设，否则将来可能会崩溃
别对字节长度和字节序做假设。提供机制而不是策略。

参数验证

系统调用必须仔细检查所有参数是否合法，阻止不合法输入传递给内核。

用户指针有效性检查
最重要的一种检查就是检查用户提供的指针是否有效。在接收一个用户空间的指针之前，内核必须保证：

指针指向的内存区域属于用户空间。进程决不能哄骗内核去读内核空间的数据。
指针指向的内存区域有在进程的地址空间里，进程决不能哄骗内存去读其他进程的数据。
如果是读，读内存应该被标记为可读。如果是写，内存应该被标记为可写。进程决不能绕过内存访问限制。

内核提供2个方法来完成必须的检查，内核空间与用户空间间的数据来回拷贝。

copy_to_user() 向用户空间写入数据，需要3个参数：1）进程空间中的目的内存地址；2）内核空间中的源地址；3）需要拷贝的数据长度（bytes）。
copy_from_user() 从用户空间读取数据，和copy_to_user()相似，3个参数：1）内核空间中的目的地址；2）进程空间中的源地址；3）需要拷贝的数据长度。

如果执行成功，返回0；如果失败，2个函数返回的都是没能完成拷贝的数据的字节数。如果指针不合法，则系统调用返回标准-EFAULT （Bad address ）。

示例：silly_copy() 既用了copy_from_user() ，也用了copy_to_user() 。

asmlinkage long sys_silly_copy(unsigned long* src, unsigned long* dst, unsigned long len)
{
    unsigned long buf;
    /* 如果内核字长与用户字长不匹配, 则失败 */
    if (len != sizeof(buf))
        return -EINVAL;

    /* 将用户地址空间中的src拷贝进buf */
    if (copy_from_user(&buf, src, len))
        return -EFAULT;
    /* 将buf拷贝进用户地址空间中的dst */
    if (copy_to_user(dst, &buf, len))
        return -EFAULT;
    /* 返回拷贝的数据量 */
    return len;
}

注意：copy_to_user()和copy_from_user()都可能引起阻塞，当包含用户数据的页被换出到硬盘上而非物理内存上的时候，这种情况就会发生。此时，进程就会休眠，直到缺页处理程序将该页从硬盘重新换回物理内存。

合法权限检查
旧的Linux内核，可通过suser()来完成检查：检查用户是否是超级用户。
新的Linux内核，可通过capable()检查是否有权能对指定的资源进行操作：如果返回非0值，调用者就有权进行操作；返回0，则无权操作。i.e. capable(CAP_SYS_NICE)可以检查调用者是否有权改变其他进程nice值。
默认情况下，超级用户的进程有所有权利；非超级用户的进程没有任何权利。

例：下面系统调用展示了权能的使用

asmlinkage long sys_am_i_popular(void)
{
    /* 检查用户进程是否具有CAP_SYS_NICE 权能 */
    if (!capable(CAP_SYS_NICE))
        return -EPERM;
    /* 成功返回0 */
    return 0;
}

参见<linux/capability.h>，包含一份所有这些权能和其对应的权限的列表。

[======]

系统调用上下文

内核在执行系统调用的时候处于进程上下文，current指针指向当前任务（引发系统调用的那个进程）。

在进程上下文中，内核可以休眠（如系统调用阻塞或显式调用schedule()）并且可以被抢占。

能休眠，说明系统调用可以使用内核提供的绝大部分功能。
能被抢占，说明当前进程同样可以被其他进程抢占，而新进程可能使用相同系统调用，所以必须小心，保证该系统调用是可重入的。

当系统调用返回时，控制权仍在system_call()中，该函数最终会负责切换到用户空间并让用户进程继续执行下去。

绑定一个系统调用的最后步骤

编写完一个系统调用后，怎么注册成一个正式的系统调用？
1）在系统调用表（sys_call_table）最后加入一个表项。
2）对于所支持的各种体系结构，系统调用号都必须定义于<asm/unistd.h>。
3）系统调用必须被编译进内核映像（不能被编译成模块），将其放入kernel/下一个相关文件即可。

例：虚构系统调用foo()来考察添加一个系统调用的步骤。
1）把sys_foo加入系统调用表
对大多数体系结构来说，sys_call_table表位于entry.s

ENTRY(sys_call_table)
    .long sys_restart_syscall /* 0 */
    .long sys_exit
    .long sys_fork
    .long sys_read
    .long sys_write
    .long sys_open            /* 5 */
    ...
    .long sys_mq_notify       /* 281 */
    .long sys_mq_getsetattr
    .long sys_foo             /* 283, 新添项 */

2）把系统调用号加入<asm/unistd.h>

/* 本文件包含系统调用号 */
#define _NR_restart_syscall 0
#define _NR_exit            1
#define _NR_fork            2
#define _NR_read            3
#define _NR_write           4
#define _NR_open            5
...
#define _NR_mq_notify       281
#define _NR_getsetattr      282
#define _NR_foo             283  /* 新添项 */

3）实现foo()系统调用，将该系统调用编译进内核映像。
我们将其实现放入kernel/sys.c，当然也可以放进功能紧密的代码中。如果功能与调度相关，也可以放进kernel/sched.c。

#include <asm/thread_info.h>

/* 返回每个进程的内核栈大小 */
asmlinkage long sys_foo(void)
{
    return THREAD_SIZE;
}

OK，现在，可以在用户控件调用foo()系统调用了。

从用户控件访问系统调用

通常，系统调用靠C库支持，用户程序包含标准头文件和C库链接，即可使用系统调用（或者调用库函数，通过库函数实际调用）。
glibc库不支持直接调用系统调用，需要通过Linux本身提供的一组宏（_syscalln(), n=0..6，代表参数个数），会设置好寄存器并调用陷入指令。
e.g. open()系统调用定义

long open(const char* filename, int flags, int mode);

不靠glibc库支持，直接调用该系统调用的宏形式：

#define _NR_open 5 /* open的系统调用号 */
_syscall3(long, open, const char* ) /* 3代表open系统调用需要3个参数 */

这样，应用程序就可以直接调用open()

编写一个宏来用前面编写的foo()系统调用，然后写出测试代码

#define _NR_foo 283
_syscall0(long, foo) /* 0代表foo不需要参数 */

int main()
{
    long stack_size;
    stack_size = foo();
    printf("The kernel stack size is %ld\n", stack_size);
    return 0;
}

TIPS：建立一个新系统调用很容易，但并不不推荐通过系统调用的方式实现。

[======]

小结

1）描述了系统调用到底是什么，跟库函数和API的关系。
2）考察如何实现系统调用，以及执行系统调用的连锁反应：陷入内核，传递系统调用号和参数，执行正确的系统调用函数，并把返回值带回用户空间。
3）讨论如何添加系统调用，从用户空间调用系统调用。

[======]

原文链接: https://www.cnblogs.com/fortunely/p/15859962.html

欢迎关注

微信关注下方公众号，第一时间获取干货硬货；公众号内回复【pdf】免费获取数百本计算机经典书籍;

也有高质量的技术群，里面有嵌入式、搜广推等BAT大佬

原创文章受到原创版权保护。转载请注明出处：https://www.ccppcoding.com/archives/402753

非原创文章文中已经注明原地址，如有侵权，联系删除

关注公众号【高性能架构探索】，第一时间获取最新文章

转载文章受原作者版权保护。转载请注明原作者出处！

Linux系统调用

系统调用基本概念

API、POSIX和C库

系统调用

系统调用号

系统调用的性能

系统调用处理程序

指定恰当的系统调用

参数传递

系统调用的实现

编写系统调用原则

参数验证

系统调用上下文

绑定一个系统调用的最后步骤

从用户控件访问系统调用

小结

相关推荐