DOKK / manpages / debian 12 / manpages-ru / capabilities.7.ru
Capabilities(7) Miscellaneous Information Manual Capabilities(7)

ИМЯ

capabilities - обзор мандатов Linux

ОПИСАНИЕ

Для выполнения проверки прав доступа в обычных реализациях UNIX процессы разделяют на две категории: привилегированные (ID эффективного пользователя равен 0, как у суперпользователя или root), и не привилегированные (ID эффективного пользователя не равен нулю). Для привилегированных процессов все проверки прав в ядре не выполняются, а для не привилегированных процессов выполняется полная проверка на основе мандатов процесса (обычно, эффективного UID, эффективного GID и списка дополнительных групп).

Starting with Linux 2.2, Linux divides the privileges traditionally associated with superuser into distinct units, known as capabilities, which can be independently enabled and disabled. Capabilities are a per-thread attribute.

Список мандатов

В следующим списке показаны мандаты, реализованные в Linux, а также операции или поведение, которые эти мандаты разрешают:

Позволяет включать или выключать аудит ядра; изменять фильтрующие правила аудита; получать состояние аудита и фильтрующие правила.
Позволяет читать протокол аудита через многоадресный сокет netlink.
Позволяет записывать данные в журнал аудита ядра.
Позволяет использовать возможности, которые могут приводить к блокированию приостановки системы (epoll(7) EPOLLWAKEUP, /proc/sys/wake_lock).
Employ privileged BPF operations; see bpf(2) and bpf-helpers(7).
This capability was added in Linux 5.8 to separate out BPF functionality from the overloaded CAP_SYS_ADMIN capability.
Update /proc/sys/kernel/ns_last_pid (see pid_namespaces(7));
employ the set_tid feature of clone3(2);
read the contents of the symbolic links in /proc/pid/map_files for other processes.
This capability was added in Linux 5.9 to separate out checkpoint/restore functionality from the overloaded CAP_SYS_ADMIN capability.
Позволяет выполнять произвольные изменения файловых UID и GID (смотрите chown(2)).
Позволяет пропускать проверки доступа к файлу на чтение, запись и выполнение (DAC (discretionary access control) — избирательный контроль доступа).
Позволяет пропускать проверки доступа к файлу на чтение и доступа к каталогу на чтение и выполнение;
Позволяет вызывать open_by_handle_at(2);
Позволяет использовать linkat(2) с флагом AT_EMPTY_PATH для создания ссылки на файл, заданным файловым дескриптором.
Позволяет пропускать проверки доступа для операций, которые обычно требуют совпадения UID файловой системы процесса и UID файла (например, chmod(2), utime(2)), исключая операции, охватываемые CAP_DAC_OVERRIDE и CAP_DAC_READ_SEARCH;
Позволяет изменять флаги иноды (смотрите ioctl_iflags(2)) у произвольных файлов;
Позволяет устанавливать списки контроля доступа (ACL) произвольных файлов;
Позволяет игнорировать закрепляющий бит при удалении файла;
Позволяет изменять расширенные пользовательские атрибуты закреплённого каталога, принадлежащего любому пользователю;
Позволяет задавать O_NOATIME для произвольных файлов в open(2) и fcntl(2).
Позволяет не очищать биты режима set-user-ID и set-group-ID при изменении файла;
Позволяет устанавливать бит set-group-ID на файл, у которого GID не совпадает с битом файловой системы или любыми дополнительными GID вызывающего процесса.
Lock memory (mlock(2), mlockall(2), mmap(2), shmctl(2));
Allocate memory using huge pages (memfd_create(2), mmap(2), shmctl(2)).
Позволяет не выполнять проверки доступа для операций с объектами System V IPC.
Позволяет не выполнять проверки при отправке сигналов (смотрите kill(2)). Сюда относится использование ioctl(2) с операцией KDSIGACCEPT.
Позволяет устанавливать аренду на произвольные файлы (смотрите fcntl(2)).
Позволяет устанавливать флаги иноды FS_APPEND_FL и FS_IMMUTABLE_FL (смотрите ioctl_iflags(2)).
Разрешает изменять настройку MAC или состояние. Реализован в Smack Linux Security Module (LSM).
Позволяет замещать мандатный контроль доступа (MAC). Реализован в Smack LSM.
Позволяет создавать специальные файлы с помощью mknod(2).
Позволяет выполнять различные сетевые операции:
настройку интерфейса;
управление IP МЭ, трансляцией адресов и ведением учёта;
изменять таблицы маршрутизации;
привязываться к любому адресу для прозрачного проксирования;
set type-of-service (TOS);
очищать статистику драйвера;
включать режим захвата (promiscuous);
включать многоадресные рассылки (multicasting);
использовать setsockopt(2) для включения следующих параметров сокета: SO_DEBUG, SO_MARK, SO_PRIORITY (для приоритетов вне диапазона 0 - 6), SO_RCVBUFFORCE и SO_SNDBUFFORCE.
Позволяет привязывать сокет к привилегированным портам домена интернета (номера портов меньше 1024).
(не используется) Позволяет осуществлять широковещание с сокета и прослушивание многоадресных рассылок.
Позволяет использовать сокеты RAW и PACKET;
позволяет привязываться к любому адресу для прозрачного проксирования.
Employ various performance-monitoring mechanisms, including:
Позволяет вызывать perf_event_open(2);
employ various BPF operations that have performance implications.
This capability was added in Linux 5.8 to separate out performance monitoring functionality from the overloaded CAP_SYS_ADMIN capability. See also the kernel source file Documentation/admin-guide/perf-security.rst.
Позволяет выполнять произвольные действия с GID процесса и списком дополнительных GID;
Позволяет подделывать GID при передаче мандатов сокета через доменные сокеты UNIX;
Позволяет записывать отображение идентификатора группы в пользовательское пространство (смотрите user_namespaces(7)).
Устанавливает произвольные мандаты на файл.
Since Linux 5.12, this capability is also needed to map user ID 0 in a new user namespace; see user_namespaces(7) for details.
Если файловые мандаты поддерживаются (т. е., начиная с Linux 2.6.24): позволяет добавлять любой мандат из ограничивающего набора вызывающей нити в её наследуемый набор; отзывать мандаты из ограничивающего набора (с помощью prctl(2) с операцией PR_CAPBSET_DROP); изменять флаги securebits.
If file capabilities are not supported (i.e., before Linux 2.6.24): grant or remove any capability in the caller's permitted capability set to or from any other process. (This property of CAP_SETPCAP is not available when the kernel is configured to support file capabilities, since CAP_SETPCAP has entirely different semantics for such kernels.)
Позволяет выполнять произвольные действия с UID процесса (setuid(2), setreuid(2), setresuid(2), setfsuid(2));
Позволяет подделывать UID при передаче мандатов сокета через доменные сокеты UNIX;
Позволяет записывать отображение идентификатора пользователя в пользовательское пространство (смотрите user_namespaces(7)).
Note: this capability is overloaded; see Notes to kernel developers below.
Позволяет выполнять следующие задачи управления системой: quotactl(2), mount(2), umount(2), pivot_root(2), swapon(2), swapoff(2), sethostname(2), and setdomainname(2);
Позволяет выполнять привилегированные операции syslog(2) (начиная с Linux 2.6.37, для этих операций нужно использовать CAP_SYSLOG);
Позволяет выполнять команду VM86_REQUEST_IRQ vm86(2);
access the same checkpoint/restore functionality that is governed by CAP_CHECKPOINT_RESTORE (but the latter, weaker capability is preferred for accessing that functionality).
perform the same BPF operations as are governed by CAP_BPF (but the latter, weaker capability is preferred for accessing that functionality).
employ the same performance monitoring mechanisms as are governed by CAP_PERFMON (but the latter, weaker capability is preferred for accessing that functionality).
Позволяет выполнять операции IPC_SET и IPC_RMID над произвольными объектами System V IPC;
Позволяет перезаписывать ограничение ресурса RLIMIT_NPROC;
perform operations on trusted and security extended attributes (see xattr(7));
Позволяет использовать lookup_dcookie(2);
Позволяет использовать ioprio_set(2) для назначения классов планирования ввода-вывода IOPRIO_CLASS_RT и (до Linux 2.6.25) IOPRIO_CLASS_IDLE;
Позволяет подделывать PID при передаче мандатов сокета через доменные сокеты UNIX;
Позволяет превышать /proc/sys/fs/file-max, системное ограничение на количество открытых файлов, в системных вызовах, открывающих файлы (например, accept(2), execve(2), open(2), pipe(2));
Позволяет задействовать флаги CLONE_*, которые создают новые пространства имён с помощью clone(2) и unshare(2)) (начиная с Linux 3.8 для создания пользовательских пространств имён больше никаких мандатов не требуется);
Позволяет получать доступ к информации о привилегированном событии perf;
Позволяет вызывать setns(2) (требуется CAP_SYS_ADMIN в пространстве имён назначения);
Позволяет вызывать fanotify_init(2);
Позволяет выполнять привилегированные операции KEYCTL_CHOWN и KEYCTL_SETPERM в keyctl(2);
Позволяет выполнять операцию MADV_HWPOISON в madvise(2);
Позволяет задействовать TIOCSTI в ioctl(2) для вставки символов во входную очередь терминала, отличного от управляющего терминала вызывающего;
Позволяет задействовать устаревший системный вызов nfsservctl(2);
Позволяет задействовать устаревший системный вызов bdflush(2);
Позволяет выполнять различные привилегированные операции ioctl(2) над блочными устройствами;
Позволяет выполнять различные привилегированные операции ioctl(2) над файловой системой;
Позволяет выполнять привилегированные операции ioctl(2) над устройством /dev/random (смотрите random(4));
Позволяет устанавливать фильтры seccomp(2) без начальной установки атрибута нити no_new_privs;
Позволяет изменять правила разрешения/запрета для групп управления устройствами;
Позволяет задействовать операцию ptrace(2) PTRACE_SECCOMP_GET_FILTER для получения дампа фильтров seccomp трассируемого;
Позволяет задействовать операцию ptrace(2) PTRACE_SETOPTIONS для приостановки защиты seccomp трассируемого (т. е., флаг PTRACE_O_SUSPEND_SECCOMP);
perform administrative operations on many device drivers;
modify autogroup nice values by writing to /proc/pid/autogroup (see sched(7)).
Позволяет использовать reboot(2) и kexec_load(2).
Позволяет использовать chroot(2);
Позволяет изменять пространство имён монтирования с помощью setns(2).
Позволяет загружать и выгружать модули ядра (смотрите init_module(2) и delete_module(2));
before Linux 2.6.25: drop capabilities from the system-wide capability bounding set.
Lower the process nice value (nice(2), setpriority(2)) and change the nice value for arbitrary processes;
Позволяет назначать политики планирования реального времени для вызывающего процесса и назначать политики планирования и приоритеты для произвольных процессов (sched_setscheduler(2), sched_setparam(2), sched_setattr(2));
Позволяет выполнять привязку к ЦП для произвольных процессов (sched_setaffinity(2));
Позволяет назначать класс планирования ввода-вывода и приоритет для произвольных процессов (ioprio_set(2));
Позволяет применять migrate_pages(2) к произвольным процессам для их перемещения на произвольные узлы;
Позволяет применять move_pages(2) к произвольным процессам;
Позволяет использовать флаг MPOL_MF_MOVE_ALL в mbind(2) и move_pages(2).
Позволяет использовать acct(2).
Позволяет трассировать любой процесс с помощью ptrace(2);
Позволяет применять get_robust_list(2) к произвольным процессам;
Позволяет перемещать данные в/из памяти произвольного процесса с помощью process_vm_readv(2) и process_vm_writev(2);
Позволяет изучать процессы с помощью kcmp(2).
Позволяет выполнять операции ввода-вывода из портов (iopl(2) и ioperm(2));
Разрешает доступ к /proc/kcore;
Позволяет задействовать операцию FIBMAP в ioctl(2);
Позволяет открывать устройства для доступа к специальным регистрам x86 (MSR, смотрите msr(4));
Позволяет обновлять /proc/sys/vm/mmap_min_addr;
Позволяет создавать отображения памяти по адресам меньше значения, заданного в /proc/sys/vm/mmap_min_addr;
Позволяет отображать файлы в /proc/bus/pci;
Позволяет открывать /dev/mem и /dev/kmem;
Позволяет выполнять различные команды устройств SCSI;
Позволяет выполнять определённые операции с устройствами hpsa(4) и cciss(4);
Позволяет выполнять некоторые специальные операции с другими устройствами.
Позволяет использовать зарезервированное пространство файловых систем ext2;
Позволяет делать вызовы ioctl(2), управляющие журналированием ext3;
Позволяет превышать ограничение дисковой квоты;
Позволяет увеличивать ограничения по ресурсам (смотрите setrlimit(2));
Позволяет перезаписывать ограничение ресурса RLIMIT_NPROC;
Позволяет превышать максимальное количество консолей при выделении консоли;
Позволяет превышать максимальное количество раскладок;
Позволяет использовать более чем 64hz прерывания из часов реального времени;
Позволяет назначать значение msg_qbytes очереди сообщений System V больше ограничения /proc/sys/kernel/msgmnb (смотрите msgop(2) и msgctl(2));
Позволяет обходить ограничитель ресурса RLIMIT_NOFILE для файловых дескрипторов, находящихся в процессе передачи («в полёте», in-flight), когда файловые дескрипторы передаются в другой процесс через доменный сокет UNIX (смотрите unix(7));
override the /proc/sys/fs/pipe-size-max limit when setting the capacity of a pipe using the F_SETPIPE_SZ fcntl(2) command;
Позволяет использовать F_SETPIPE_SZ для увеличения вместимости канала больше чем ограничение, задаваемое в /proc/sys/fs/pipe-max-size;
override /proc/sys/fs/mqueue/queues_max, /proc/sys/fs/mqueue/msg_max, and /proc/sys/fs/mqueue/msgsize_max limits when creating POSIX message queues (see mq_overview(7));
Позволяет задействовать операцию prctl(2) PR_SET_MM();
set /proc/pid/oom_score_adj to a value lower than the value last set by a process with CAP_SYS_RESOURCE.
Позволяет настраивать системные часы (settimeofday(2), stime(2), adjtimex(2)) и часы реального времени (аппаратные).
Позволяет использовать vhangup(2); задействовать различные привилегированные операции ioctl(2) с виртуальными терминалами.
Позволяет выполнять привилегированные операции syslog(2). Смотрите в syslog(2) какие операции требуют прав.
Позволяет просматривать адреса ядра, показываемые в /proc и других интерфейсах, когда значение /proc/sys/kernel/kptr_restrict равно 1 (смотрите описание kptr_restrict в proc(5)).
Позволяет вызывать что-либо при пробуждении системы (устанавливать таймеры CLOCK_REALTIME_ALARM и CLOCK_BOOTTIME_ALARM).

Старая и текущая реализации

Для полной реализации мандатов требуется:

Для всех привилегированных операций ядро должно проверять, имеет ли нить требуемый мандат в его эффективном наборе.
Ядро должно предоставлять системные вызовы, позволяющие получать и изменять наборы мандатов нити.
Файловая система должна поддерживать присоединение мандатов к исполняемому файлу для того, чтобы при исполнении файла у процесса повышались права согласно этим мандатам.

Before Linux 2.6.24, only the first two of these requirements are met; since Linux 2.6.24, all three requirements are met.

Замечания разработчикам ядра

При добавлении новых возможностей ядра, которые должны регулироваться мандатом, нужно учитывать некоторые моменты.

Цель мандатов — разделить возможности суперпользователя на части, и если программа с одним или несколькими мандатами будет скомпрометирована, то её возможности нанести вред системе будут меньше, чем от такой же программы, выполняемой с правами суперпользователя.
Вы можете создать новый мандат для новой возможности или привязать возможность к одному из существующих мандатов. Чтобы сохранить набор мандатов приемлемого размера, последний вариант предпочтителен, если нет неопровержимых доводов за первый вариант (есть также техническое ограничение: размер набора мандатов в настоящее время ограничен 64 битами).
Для определения какой существующий мандат мог бы лучше подойти новой возможности, просмотрите список мандатов, представленный выше. Выясните, есть ли другие возможности, требующие мандатов, которые всегда будут использоваться вместе с новой возможностью. Если новая возможность бесполезна без этих других возможностей, то нужно использовать тот же мандат как у других возможностей.
Не используйте CAP_SYS_ADMIN, если этого можно избежать! С ним связана большая часть существующих проверок мандатов (смотрите часть списка выше). Его оправданно можно называть «новым суперпользователем», так как с одной стороны, он даёт широкий спектр полномочий, а с другой его широкий спектр действия означает, что данный мандат требуется многим привилегированным программам. Не делайте проблему хуже. Новые возможности, которые должны быть связаны с CAP_SYS_ADMIN должны сильно совпадать с существующими, использующими данное хранилище.
Если действительно необходимо создать новый мандат для новой возможности, не делайте или называйте его как «только для этой возможности». То есть, например, добавление очень специализированного CAP_SYS_PACCT было бы, вероятно, ошибкой. Вместо этого попытайтесь идентифицировать и назвать новый мандат более вместительным понятием, в которое могут войти и другие будущие возможности.

Наборы мандатов нити

Каждая нить имеет следующие наборы мандатов, содержащие ноль или более перечисленных выше мандатов:

Ограничивающий набор эффективных мандатов, которыми наделяется нить. Этот набор также ограничивает список мандатов, которые могут быть добавлены в наследуемый набор для нити, которая не имеет мандата CAP_SETPCAP в своём эффективном наборе.
Если нить сбрасывает мандат в своём разрешительном наборе, то она не сможет получить его назад (если только не выполняется execve(2) для программы с set-user-ID-root или программа, чьи соответствующие мандаты файла предоставляют этот мандат).
Этот набор мандатов сохраняется при вызове execve(2). Наследуемые мандаты остаются наследуемыми при выполнении любой программы, и наследуемые мандаты добавляются в разрешительный набор, если выполняющаяся программа имеет соответствующие установленные биты в файловом наследуемом наборе.
Так как наследуемые мандаты, обычно, не сохраняются после execve(2), если выполнение происходит не от суперпользователя, то для приложений, которым нужно выполнять вспомогательные программы с повышенными мандатами, нужно использовать наружные мандаты (ambient capabilities), описанные ниже.
Данный набор мандатов используется ядром при выполнении проверок прав нити.
Ограничивающий набор мандатов — это механизм, который можно использовать для ограничения мандатов, которые могут быть получены при execve(2).
Начиная с Linux 2.6.25 данный набор мандатов есть у каждой нити. В старых ядрах ограничивающий набор мандатов был системным свойством, единым для всех нитей в системе.
For more details, see Capability bounding set below.
Данный набор мандатов сохраняется после execve(2) для непривилегированных программ. Для набора наружных мандатов (ambient capability set) соблюдается правило, что ни один мандат не сможет быть наружным, если он одновременно разрешающий и наследуемый.
Набор наружных мандатов можно непосредственно изменять с помощью prctl(2). Наружные мандаты автоматически понижаются, если понижаются соответствующие разрешительные или наследуемые мандаты.
При запуске программы, у которой изменяются UID или GID из-за set-user-ID или set-group-ID, или у которой установлен любой набор файловых мандатов, наружный набор будет очищен. Наружные мандаты добавляются в разрешающий набори назначаются в эффективный набор при вызове execve(2). Если из-за наружных мандатов увеличиваются разрешающий и эффективный наборы при execve(2), то это не вызывает режима безопасного выполнения, описанного в ld.so(8).

A child created via fork(2) inherits copies of its parent's capability sets. For details on how execve(2) affects capabilities, see Transformation of capabilities during execve() below.

Using capset(2), a thread may manipulate its own capability sets; see Programmatically adjusting capability sets below.

Начиная с Linux 3.2, файл /proc/sys/kernel/cap_last_cap содержит числовое значение самого большого мандата, поддерживаемого работающим ядром; это может быть использовано для определения наибольшего бита, который может быть установлен в наборе мандатов.

Файловые мандаты

Since Linux 2.6.24, the kernel supports associating capability sets with an executable file using setcap(8). The file capability sets are stored in an extended attribute (see setxattr(2) and xattr(7)) named security.capability. Writing to this extended attribute requires the CAP_SETFCAP capability. The file capability sets, in conjunction with the capability sets of the thread, determine the capabilities of a thread after an execve(2).

Три файловых набора мандатов:

Эти мандаты автоматически разрешаются нити независимо от унаследованных мандатов нити.
Этот набор объединяется (AND) с унаследованным набором нити для определения, какие унаследованные мандаты будут включены в разрешительный набор нити после execve(2).
В действительности, это не набор, а одиночный бит. Если бит включён, то при вызове execve(2) все новые разрешённые мандаты нити будут также добавлены в эффективный набор. Если бит выключен, то после execve(2) ни один из новых разрешённых мандатов не будет добавлен в новый эффективный набор.
Enabling the file effective capability bit implies that any file permitted or inheritable capability that causes a thread to acquire the corresponding permitted capability during an execve(2) (see Transformation of capabilities during execve() below) will also acquire that capability in its effective set. Therefore, when assigning capabilities to a file (setcap(8), cap_set_file(3), cap_set_fd(3)), if we specify the effective flag as being enabled for any capability, then the effective flag must also be specified as enabled for all other capabilities for which the corresponding permitted or inheritable flag is enabled.

Версии расширенного атрибута файловых мандатов

С целью расширяемости ядро поддерживает схему кодирования номера версии внутри расширенного атрибута security.capability, который используется в реализации файловых мандатов. Эти номера версий введены только для реализации и непосредственно не видны приложениям пользовательского пространства. В настоящее время поддерживаются следующие версии:

Первоначальная реализация файловых мандатов, поддерживает 32-битные маски файловых мандатов.
В данной версии поддерживаются 64-битные маски файловых мандатов, и и новый номер версии стал необходим для поддержки мандатов более 32. Ядро продолжает прозрачно поддерживать выполнение файлов с 32-битными масками мандатов 1-й версии, но при добавлении мандатов к файлам, у которых их ещё не было, или при изменение мандатов существующих файлов, оно автоматически использует схему 2-й версии (или, возможно, схему 3-ей версии как описано далее).
Версия 3 файловые мандатов предоставляет поддержку файловых мандатов пространства имён (описано далее).
Как и в версии 2, версия 3 имеет 64-битную маску файловых мандатов. Но в дополнении, в расширенном атрибуте security.capability кодируется ID суперпользователя пространства имён (ID суперпользователя пространства имён — это значение, на которое отображается пользовательский ID 0 этого пространства имён в изначальном пользовательском пространстве имён).
Файловые мандаты версии 3 могут сосуществовать с мандатами версии 2; то есть в современной системе Linux одни файлы могут быть с мандатами версии 2, а другие с версией 3.

До Linux 4.14 типом мандата расширенного атрибута, который мог быть присоединён к файлу, был только атрибут VFS_CAP_REVISION_2. Начиная с Linux 4.14 версия расширенного атрибута security.capability, присоединённого к файлу, зависит от обстоятельств, при которых был создан атрибут.

Начиная с Linux 4.14, расширенный атрибут security.capability автоматически создаётся (или преобразуется) как атрибут версии 3 (VFS_CAP_REVISION_3), если оба условия истинны:

Нить, записывающая атрибут, расположена не в изначальном пользовательском пространстве имён (более точно: нить располагается в пользовательском пространстве имён отличном от того, из которого смонтирована нижележащая файловая система).
Нить имеет мандат CAP_SETFCAP поверх файловой иноды, то есть (a) нит имеет мандат CAP_SETFCAP в своём собственном пользовательском пространстве имён; и (b) UID и GID файловой иноды отображаются в пользовательское пространство имён записывающего.

При создании расширенного атрибута security.capability с типом VFS_CAP_REVISION_3 ID суперпользователя пользовательского пространства имён создающей нити сохраняется в расширенном атрибуте.

Но при создании или изменении расширенного атрибута security.capability из привилегированной (CAP_SETFCAP) нити, находящейся в пространстве имён, в котором смонтирована нижележащая файловая система (обычно, это изначальное пользовательское пространство имён), автоматически вызывает создание атрибута с версией 2 (VFS_CAP_REVISION_2).

Заметим, что создании расширенного атрибута security.capability версии 3 происходит автоматически. То есть когда приложение пользовательского пространства записывает (setxattr(2)) атрибут security.capability в формате версии 2 ядра автоматически создаёт версию атрибут версии 3, если атрибут создаётся в условиях, описанных выше. И, соответственно, кода атрибут security.capability версии 3 возвращается (getxattr(2)) процессу, расположенному в пользовательском пространстве имён, которое было создано с ID суперпользователя (или потомком этого пользовательского пространства имён), атрибут (автоматически) упрощается до версии 2 (т. е., возвращаемое значение имеет размер атрибута версии 2 и не включает ID суперпользователя). Эти автоматические преобразования позволяют не переписывать требуемые инструменты пользовательского пространства (например, setcap(1) и getcap(1)) для создания и получения атрибута security.capability версии 3.

Заметим, что файл может иметь расширенный атрибут security.capability версии 2 или версии 3, но не оба одновременно: создание или изменение расширенного атрибута security.capability автоматически приведёт к изменению версии согласно условиям, в которых он изменяется.

Преобразование мандатов при execve()

При execve(2) ядро вычисляет новые мандаты процесса по следующему алгоритму:


P'(ambient) =     (привилегированный файл) ? 0 : P(ambient)
P'(permitted)   = (P(inheritable) & F(inheritable)) |

(F(permitted) & P(bounding)) | P'(ambient) P'(effective) = F(effective) ? P'(permitted) : P'(ambient) P'(inheritable) = P(inheritable) [т. е., не изменяется] P'(bounding) = P(bounding) [т. е., не изменяется]

где:

значение набора мандатов нити до execve(2)
значение набора мандатов нити после execve(2)
файловый набор мандатов

Опишем подробней правила преобразования описанного выше мандата:

Набор мандатов ambient появился начиная с Linux 4.3. При определении преобразования набора ambient в execve(2) привилегированный файл — это файл, имеющий один из этих мандатов, или у него установлен бит set-user-ID или set-group-ID.
До Linux 2.6.25 ограничивающий набор мандатов был общесистемным атрибутом, общим для всех нитей. Его значение использовалось для вычисления нового разрешительного набора в execve(2) таким же образом как для P(bounding), показанном выше.

Замечание: во время изменений мандатов, описанных выше, файловые мандаты могут игнорироваться (считаться пустыми) по тем же причинам что и игнорируются биты set-user-ID и set-group-ID; смотрите execve(2). Файловые мандаты также игнорируются, если ядро было загружено с параметром no_file_caps.

Note: according to the rules above, if a process with nonzero user IDs performs an execve(2) then any capabilities that are present in its permitted and effective sets will be cleared. For the treatment of capabilities when a process with a user ID of zero performs an execve(2), see Capabilities and execution of programs by root below.

Проверка на безопасность двоичных файлов, не отзывчивых к мандатам

Двоичный файл, не отзывчивый к мандатам (capability-dumb binary) — это приложение, которое помечено как имеющее файловые мандаты, но не преобразованное для работы с программным интерфейсом libcap(3) для управления своими мандатами (иначе говоря, это обычная set-user-ID-root программа, у которой указали файловые мандаты, но код которой не был изменён для понимания мандатов). У таких приложений на файле установлен эффективный файловый мандатный бит, из-за чего при исполнении файла у его процесса в эффективном наборе автоматически включаются разрешительные мандаты. Если ядро считает файл с установленным эффективным файловым мандатным битом не отзывчивым к мандатам, то выполняются проверки, описанные далее.

When executing a capability-dumb binary, the kernel checks if the process obtained all permitted capabilities that were specified in the file permitted set, after the capability transformations described above have been performed. (The typical reason why this might not occur is that the capability bounding set masked out some of the capabilities in the file permitted set.) If the process did not obtain the full set of file permitted capabilities, then execve(2) fails with the error EPERM. This prevents possible security risks that could arise when a capability-dumb application is executed with less privilege than it needs. Note that, by definition, the application could not itself recognize this problem, since it does not employ the libcap(3) API.

Мандаты и выполнение программ с правами root

Чтобы отразить обычную семантику UNIX, ядро выполняет специальные действия с файловыми мандатами, когда процесс с UID 0 (корневой) выполняет программу и когда выполняется программа с set-user-ID-root.

After having performed any changes to the process effective ID that were triggered by the set-user-ID mode bit of the binary—e.g., switching the effective user ID to 0 (root) because a set-user-ID-root program was executed—the kernel calculates the file capability sets as follows:

(1)
If the real or effective user ID of the process is 0 (root), then the file inheritable and permitted sets are ignored; instead they are notionally considered to be all ones (i.e., all capabilities enabled). (There is one exception to this behavior, described in Set-user-ID-root programs that have file capabilities below.)
(2)
Если эффективный ID пользователя процесса равен 0 (root) или файловый эффективный бит фактически установлен, то файловый эффективный бит условно считается равным единице (включен).

Затем эти условные значения файлового набора мандатов используются, как описано выше, для вычисления преобразования мандатов процесса при execve(2).

Таким образом, когда процесс с ненулевым UID запускает с помощью execve(2) программу с set-user-ID-root, у которой нет присоединённых мандатов, или когда процесс, чей реальный и эффективный UID равны нулю, запускают программу через execve(2), вычисление новых разрешённых мандатов упрощается до:


P'(permitted)   = P(inheritable) | P(bounding)
P'(effective)   = P'(permitted)

В связи с этим, процесс получает все мандаты в своих разрешительном и эффективном наборе мандатов , за исключением заглушаемых ограничивающим набором мандатов. (В вычислении P'(permitted), значение P'(ambient) можно сократить, так как оно определяется корректным поднабором P(inheritable).)

Специальное действие для ID пользователя 0 (root), описанное в этом абзаце, можно отключить с помощью механизма securebits, описанного далее.

Программы set-user-ID-root с файловыми мандатами

There is one exception to the behavior described in Capabilities and execution of programs by root above. If (a) the binary that is being executed has capabilities attached and (b) the real user ID of the process is not 0 (root) and (c) the effective user ID of the process is 0 (root), then the file capability bits are honored (i.e., they are not notionally considered to be all ones). The usual way in which this situation can arise is when executing a set-UID-root program that also has file capabilities. When such a program is executed, the process gains just the capabilities granted by the program (i.e., not all capabilities, as would occur when executing a set-user-ID-root program that does not have any associated file capabilities).

Заметим, что файлу программы можно назначить пустой набор мандатов, и таким образом возможно создать программу с set-user-ID-root, которая изменяет эффективный и сохранённый set-user-ID процесса, исполняющего программу, на 0, но не даёт мандаты этому процессу.

Ограничивающий набор мандатов

Ограничивающий набор мандатов — это механизм безопасности, который можно использовать для ограничения мандатов, которые могут быть получены при execve(2). Ограничивающий набор используется так:

При execve(2) ограничивающий набор мандатов складывается (AND) с файловым разрешительным набором мандатов, и результат этой операции назначается разрешительному набору мандатов нити. Таким образом, ограничивающий набор мандатов ограничивает разрешённые мандаты, которые может предоставить исполняемый файл.
(начиная с Linux 2.6.25) Ограничивающий набор мандатов служит ограничивающим набором мандатов, которые нить может добавить в свой наследуемый набор с помощью capset(2). Это означает, что если мандат отсутствует в ограничивающем наборе мандатов, то нить не может добавить этот мандат в свой наследуемый набор даже, если он есть в разрешительном наборе мандатов и поэтому не может сохранить данный мандат в разрешительный набор при вызове execve(2) для файла, который имеет мандат в своём наследуемом наборе.

Заметим, что ограничивающий набор скрывает файловые разрешительные мандаты, но не наследуемые мандаты. Если нить имеет мандат в своём наследуемом наборе, который отсутствует в ограничивающем наборе, то она по-прежнему обладает этим мандатом в своём разрешительном наборе при выполнении файла, который имеет мандат в своём наследуемом наборе.

В зависимости от версии ядра ограничивающий набор мандатов является либо системным свойством, либо атрибутом процесса.

Ограничивающий набор мандатов начиная с Linux 2.6.25

Начиная с Linux 26.25, ограничивающий набор мандатов является атрибутом нити (системного ограничивающего набора мандатов, описываемого далее, больше нет).

Ограничивающий набор наследуется при fork(2) от нити родителя и сохраняется при execve(2).

Нить может удалять мандаты из своего ограничивающего набора мандатов с помощью вызова prctl(2) с операцией PR_CAPBSET_DROP при наличии мандата CAP_SETPCAP. После удаления мандата из ограничивающего набора обратно его восстановить невозможно. Нить может определить наличие мандата в своём ограничивающем наборе с помощью вызова prctl(2) с операцией PR_CAPBSET_READ.

Removing capabilities from the bounding set is supported only if file capabilities are compiled into the kernel. Before Linux 2.6.33, file capabilities were an optional feature configurable via the CONFIG_SECURITY_FILE_CAPABILITIES option. Since Linux 2.6.33, the configuration option has been removed and file capabilities are always part of the kernel. When file capabilities are compiled into the kernel, the init process (the ancestor of all processes) begins with a full bounding set. If file capabilities are not compiled into the kernel, then init begins with a full bounding set minus CAP_SETPCAP, because this capability has a different meaning when there are no file capabilities.

Удаление мандата из ограничивающего набора не удаляет его из наследуемого набора нити. Однако это предотвращает от добавления мандата обратно в наследуемый набор нити в будущем.

Ограничивающий набор мандатов до Linux 2.6.25

Before Linux 2.6.25, the capability bounding set is a system-wide attribute that affects all threads on the system. The bounding set is accessible via the file /proc/sys/kernel/cap-bound. (Confusingly, this bit mask parameter is expressed as a signed decimal number in /proc/sys/kernel/cap-bound.)

Только процесс init может задавать мандаты в ограничивающем наборе мандатов; помимо этого, суперпользователь (точнее, процесс с мандатом CAP_SYS_MODULE) может только удалять мандаты из набора.

В стандартной системе в ограничивающем наборе мандатов всегда удаляется мандат CAP_SETPCAP. Чтобы убрать это ограничение (опасно!), нужно изменить определение CAP_INIT_EFF_SET в include/linux/capability.h и пересобрать ядро.

The system-wide capability bounding set feature was added to Linux 2.2.11.

Влияние изменения пользовательского ID на мандаты

Для сохранения привычной семантики при переходе от 0 к ненулевым пользовательским ID, ядро делает следующие изменения наборов мандатов нити при изменении у нити реального, эффективного, сохранённого ID и пользовательского ID файловой системы (с помощью setuid(2), setresuid(2) или подобных):

If one or more of the real, effective, or saved set user IDs was previously 0, and as a result of the UID changes all of these IDs have a nonzero value, then all capabilities are cleared from the permitted, effective, and ambient capability sets.
Если эффективный пользовательский ID изменяется с 0 на ненулевое значение, то все мандаты удаляются из эффективного набора мандатов.
Если эффективный пользовательский ID изменяется с ненулевого значения на 0, то разрешительный набор копируется в эффективный набор.
Если пользовательский ID файловой системы изменяется с 0 на ненулевое значение (смотрите setfsuid(2)), то следующие мандаты удаляются из эффективного набора: CAP_CHOWN, CAP_DAC_OVERRIDE, CAP_DAC_READ_SEARCH, CAP_FOWNER, CAP_FSETID, CAP_LINUX_IMMUTABLE (начиная с Linux 2.6.30), CAP_MAC_OVERRIDE и CAP_MKNOD (начиная с Linux 2.6.30). Если пользовательский ID файловой системы изменяется с ненулевого значения на 0, то любой из мандатов, включённых в разрешительный набор, включается в эффективном наборе.

Если нить, у которой один или более пользовательских ID равно 0, хочет предотвратить удаление разрешительных мандатов при сбросе всех пользовательских ID в ненулевые значения, то она может использовать флаг SECBIT_KEEP_CAPS в securebits, описанный далее.

Программное изменение наборов мандатов

Нить может получать и изменять свои разрешительные, действующие и наследуемые наборы мандатов с помощью системных вызовов capget(2) и capset(2). Однако для этой цели лучше использовать cap_get_proc(3) и cap_set_proc(3) из пакета libcap. Следующие правила применяются при изменении наборов нити:

Если вызывающий не имеет мандата CAP_SETPCAP, то новый наследуемый набор должен быть поднабором комбинации существующего наследуемого и разрешительного наборов.
(начиная с Linux 2.6.25) Новый наследуемый набор должен быть поднабором комбинации существующего наследуемого и ограничивающего наборов.
Новый разрешительный набор должен быть поднабором существующего разрешительного набора (т. е., невозможно приобрести разрешительные мандаты, которых нить не имеет).
Новый эффективный набор должен быть поднабором нового разрешительного набора.

Флаги securebits: организация исключительно мандатного окружения

Starting with Linux 2.6.26, and with a kernel in which file capabilities are enabled, Linux implements a set of per-thread securebits flags that can be used to disable special handling of capabilities for UID 0 (root). These flags are as follows:

Установка этого флага позволяет нити иметь один или более 0 UIDов, чтобы оставить мандаты в разрешительном наборе, когда она переключается все свои UIDы в ненулевые значения. Если этот флаг не установлен, то переключение такого UID приводит к тому, что нить теряет все мандаты в этих наборах. Этот флаг всегда сбрасывается при execve(2).
Заметим, что даже с установленным флагом SECBIT_KEEP_CAPS эффективные мандаты нити очищаются, когда она переключает свой эффективный UID на ненулевое значение. Однако, если нить устанавливает этот флаг и её эффективный UID уже не равен нулю и затем нить переключает все другие UID в ненулевые значения, то эффективные мандаты не будут очищены.
Установка флага SECBIT_KEEP_CAPS игнорируется, если указан флаг SECBIT_NO_SETUID_FIXUP (этот флаг предоставляет надмножество свойств первого флага).
Этот флаг предоставляет возможности старой операции PR_SET_KEEPCAPS вызова prctl(2).
Setting this flag stops the kernel from adjusting the process's permitted, effective, and ambient capability sets when the thread's effective and filesystem UIDs are switched between zero and nonzero values. See Effect of user ID changes on capabilities above.
If this bit is set, then the kernel does not grant capabilities when a set-user-ID-root program is executed, or when a process with an effective or real UID of 0 calls execve(2). (See Capabilities and execution of programs by root above.)
Установка этого флага запрещает повышение наружных мандатов посредством prctl(2)с операцией PR_CAP_AMBIENT_RAISE.

Каждый из перечисленных выше «базовых» флагов имеет дополнительный флаг «блокировки». Установка любого из флагов «блокировки» необратима и запрещает дальнейшие изменения соответствующего «базового» флага. Флаги блокировки: SECBIT_KEEP_CAPS_LOCKED, SECBIT_NO_SETUID_FIXUP_LOCKED, SECBIT_NOROOT_LOCKED и SECBIT_NO_CAP_AMBIENT_RAISE_LOCKED.

Флаги securebits можно изменять и получать с помощью вызова prctl(2) с операциями PR_SET_SECUREBITS и PR_GET_SECUREBITS. Для изменения флагов требуется мандат CAP_SETPCAP. Заметим, что константы SECBIT_* доступны только после включения в код заголовочного файла <linux/securebits.h>.

Флаги securebits наследуются дочерними процессами. При execve(2) все флаги сохраняются, за исключением SECBIT_KEEP_CAPS, который всегда сбрасывается.

Приложение может использовать следующий вызов для собственной блокировки и помещение всех своих потомков в окружение, в котором есть только один способ добавить права — запустить программу со связанными с ней файловыми мандатами:


prctl(PR_SET_SECUREBITS,

/* SECBIT_KEEP_CAPS off */
SECBIT_KEEP_CAPS_LOCKED |
SECBIT_NO_SETUID_FIXUP |
SECBIT_NO_SETUID_FIXUP_LOCKED |
SECBIT_NOROOT |
SECBIT_NOROOT_LOCKED);
/* установка/блокировка SECBIT_NO_CAP_AMBIENT_RAISE
не требуется */

Программы set-user-ID-root с отдельными пространствами имён пользователя

Программе set-user-ID, чей UID совпадает с UID создателя пространства имён пользователя, будут предоставлены мандаты в разрешительном и эффективном наборах, при выполнении любого процесса внутри этого пространства имён или в любом дочернем пространстве имён пользователя.

The rules about the transformation of the process's capabilities during the execve(2) are exactly as described in Transformation of capabilities during execve() and Capabilities and execution of programs by root above, with the difference that, in the latter subsection, "root" is the UID of the creator of the user namespace.

Файловые мандаты пространства имён

Traditional (i.e., version 2) file capabilities associate only a set of capability masks with a binary executable file. When a process executes a binary with such capabilities, it gains the associated capabilities (within its user namespace) as per the rules described in Transformation of capabilities during execve() above.

Так как файловые мандаты версии 2 предоставляются выполняющемуся процессу независимо от того, в каком пользовательском пространстве имён он располагается, то только привилегированным процессам разрешено связывать мандаты с файлом. Здесь «привилегированным» считается процесс, имеющий мандат CAP_SETFCAP в пользовательском пространстве имён, в котором была смонтирована файловая система (обычно, изначальное пользовательское пространство имён). Это ограничение в определённых случаях делает файловые мандаты бесполезными. Например, в контейнерах пользовательских пространств имён может требоваться возможность создания двоичных файлов, которые предоставляют мандаты только процессам, выполняемым внутри контейнера, но не процессам, выполняемым вне контейнера.

Linux 4.14 added so-called namespaced file capabilities to support such use cases. Namespaced file capabilities are recorded as version 3 (i.e., VFS_CAP_REVISION_3) security.capability extended attributes. Such an attribute is automatically created in the circumstances described in File capability extended attribute versioning above. When a version 3 security.capability extended attribute is created, the kernel records not just the capability masks in the extended attribute, but also the namespace root user ID.

Подобно двоичному файлу с файловыми мандатами VFS_CAP_REVISION_2 файл с файловыми мандатами VFS_CAP_REVISION_3 предоставляет мандаты процессу при execve(). Однако мандаты предоставляются только, если двоичный файл, выполняемый процессом, располагается в пользовательском пространстве имён, в котором UID 0 отображается в ID суперпользователя, сохранённого в расширенном атрибуте, или когда выполняется процессом, располагаемом в потомке такого пространства имён.

Взаимодействие с пользовательскими пространствами имён

Дополнительную информацию о связи мандатов с пространствами пользователя смотрите в user_namespaces(7).

СТАНДАРТЫ

Стандарты, описывающие мандаты, отсутствуют, но реализация мандатов в Linux основывается на изъятом черновике стандарта POSIX.1e; смотрите https://archive.org/details/posix_1003.1e-990310.

ЗАМЕЧАНИЯ

При попытке запуска strace(1) над исполняемыми файлами с мандатами (или с установленным битом set-user-ID-root), вам может понадобиться параметр -u <имя_пользователя>. Например так:


$ sudo strace -o trace.log -u ceci ./myprivprog

From Linux 2.5.27 to Linux 2.6.26, capabilities were an optional kernel component, and could be enabled/disabled via the CONFIG_SECURITY_CAPABILITIES kernel configuration option.

The /proc/pid/task/TID/status file can be used to view the capability sets of a thread. The /proc/pid/status file shows the capability sets of a process's main thread. Before Linux 3.8, nonexistent capabilities were shown as being enabled (1) in these sets. Since Linux 3.8, all nonexistent capabilities (above CAP_LAST_CAP) are shown as disabled (0).

В пакете libcap содержится набор процедур для установки и получения мандатов; он удобнее и менее подвержен изменениям, чем интерфейс предоставляемый capset(2) и capget(2). Также данный пакет предоставляет программы setcap(8) и getcap(8) . Его можно найти здесь:
https://git.kernel.org/pub/scm/libs/libcap/libcap.git/refs/.

Before Linux 2.6.24, and from Linux 2.6.24 to Linux 2.6.32 if file capabilities are not enabled, a thread with the CAP_SETPCAP capability can manipulate the capabilities of threads other than itself. However, this is only theoretically possible, since no thread ever has CAP_SETPCAP in either of these cases:

In the pre-2.6.25 implementation the system-wide capability bounding set, /proc/sys/kernel/cap-bound, always masks out the CAP_SETPCAP capability, and this can not be changed without modifying the kernel source and rebuilding the kernel.
If file capabilities are disabled (i.e., the kernel CONFIG_SECURITY_FILE_CAPABILITIES option is disabled), then init starts out with the CAP_SETPCAP capability removed from its per-process bounding set, and that bounding set is inherited by all other processes created on the system.

СМ. ТАКЖЕ

capsh(1), setpriv(1), prctl(2), setfsuid(2), cap_clear(3), cap_copy_ext(3), cap_from_text(3), cap_get_file(3), cap_get_proc(3), cap_init(3), capgetp(3), capsetp(3), libcap(3), proc(5), credentials(7), pthreads(7), user_namespaces(7), captest(8), filecap(8), getcap(8), getpcaps(8), netcap(8), pscap(8), setcap(8)

Файл include/linux/capability.h в дереве исходного кода ядра Linux.

ПЕРЕВОД

Русский перевод этой страницы руководства был сделан Azamat Hackimov <azamat.hackimov@gmail.com>, Dmitriy S. Seregin <dseregin@59.ru>, Dmitry Bolkhovskikh <d20052005@yandex.ru>, Katrin Kutepova <blackkatelv@gmail.com>, Yuri Kozlov <yuray@komyakino.ru> и Иван Павлов <pavia00@gmail.com>

Этот перевод является бесплатной документацией; прочитайте Стандартную общественную лицензию GNU версии 3 или более позднюю, чтобы узнать об условиях авторского права. Мы не несем НИКАКОЙ ОТВЕТСТВЕННОСТИ.

Если вы обнаружите ошибки в переводе этой страницы руководства, пожалуйста, отправьте электронное письмо на man-pages-ru-talks@lists.sourceforge.net.

5 февраля 2023 г. Linux man-pages 6.03