Mr Dk.'s BlogMr Dk.'s Blog
  • 🦆 About Me
  • ⛏️ Technology Stack
  • 🔗 Links
  • 🗒️ About Blog
  • Algorithm
  • C++
  • Compiler
  • Cryptography
  • DevOps
  • Docker
  • Git
  • Java
  • Linux
  • MS Office
  • MySQL
  • Network
  • Operating System
  • Performance
  • PostgreSQL
  • Productivity
  • Solidity
  • Vue.js
  • Web
  • Wireless
  • 🐧 How Linux Works (notes)
  • 🐧 Linux Kernel Comments (notes)
  • 🐧 Linux Kernel Development (notes)
  • 🐤 μc/OS-II Source Code (notes)
  • ☕ Understanding the JVM (notes)
  • ⛸️ Redis Implementation (notes)
  • 🗜️ Understanding Nginx (notes)
  • ⚙️ Netty in Action (notes)
  • ☁️ Spring Microservices (notes)
  • ⚒️ The Annotated STL Sources (notes)
  • ☕ Java Development Kit 8
GitHub
  • 🦆 About Me
  • ⛏️ Technology Stack
  • 🔗 Links
  • 🗒️ About Blog
  • Algorithm
  • C++
  • Compiler
  • Cryptography
  • DevOps
  • Docker
  • Git
  • Java
  • Linux
  • MS Office
  • MySQL
  • Network
  • Operating System
  • Performance
  • PostgreSQL
  • Productivity
  • Solidity
  • Vue.js
  • Web
  • Wireless
  • 🐧 How Linux Works (notes)
  • 🐧 Linux Kernel Comments (notes)
  • 🐧 Linux Kernel Development (notes)
  • 🐤 μc/OS-II Source Code (notes)
  • ☕ Understanding the JVM (notes)
  • ⛸️ Redis Implementation (notes)
  • 🗜️ Understanding Nginx (notes)
  • ⚙️ Netty in Action (notes)
  • ☁️ Spring Microservices (notes)
  • ⚒️ The Annotated STL Sources (notes)
  • ☕ Java Development Kit 8
GitHub
  • 📝 Notes
    • Algorithm
      • Algorithm - Bloom Filter
      • Algorithm - Disjoint Set
      • Algorithm - Fast Power
      • Algorithm - KMP
      • Algorithm - Monotonic Stack
      • Algorithm - RB-Tree
      • Algorithm - Regular Expression
      • Algorithm - Sliding Window
      • Online Judge - I/O
    • C++
      • C++ - Const
      • C++ File I/O
      • C++ - Object Layout
      • C++ - Operator Overload
      • C++ - Polymorphism
      • C++ STL algorithm
      • C++ STL map
      • C++ STL multimap
      • C++ STL priority_queue
      • C++ STL set
      • C++ STL string
      • C++ STL unordered_map
      • C++ STL vector
      • C++ - Smart Pointer
      • C++ - Template & Genericity
    • Compiler
      • ANTLR - Basic
      • Compiler - LLVM Architecture
      • Compiler - Multi-version GCC
    • Cryptography
      • Cryptography - Certbot
      • Cryptography - Digital Signature & PKCS #7
      • Cryptography - GPG
      • Cryptography - JWT
      • Cryptography - Keystore & Certificates
      • Cryptography - OAuth 2.0
      • Cryptography - Java 实现对称与非对称加密算法
      • Cryptography - TLS
    • DevOps
      • DevOps - Travis CI
    • Docker
      • Docker - Image & Storage Management
      • Docker - Image
      • Docker - Libcontainer
      • Docker - Multi-Arch Image
      • Docker - Multi-Stage Build
      • Docker - Network
      • Docker - Orchestration & Deployment
      • Docker - Overview
      • Docker - Service Building
      • Docker - Volume & Network Usage
      • Docker - Volume
      • Linux - Control Group
      • Linux - Namespace
    • Git
      • Git - Branch & Merge
      • Git - Cached
      • Git - Cherry Pick
      • Git - Commit
      • Git - Patch
      • Git - Proxy
      • Git - Rebase
      • Git - Reset
      • Git - Stash
      • Git - Theme for Git-Bash
    • Java
      • JVM - Synchronized
      • JVM - Volatile
      • Java - Annotation 注解
      • Java - BIO & NIO
      • Java - Class Path
      • Java - Condition and LockSupport
      • Java - Current Timestamp
      • Java - Deep Copy
      • Java - 运行环境配置
      • Java - Equals
      • Java - Exporting JAR
      • Java - Javadoc
      • Java - Lock
      • Java - Maven 项目构建工具
      • Java - References
      • Java - Reflection Mechanism
      • Java - String Split
      • Java - Thread Pool
      • Java - Thread
      • Tomcat - Class Loader
      • Tomcat - Container
    • Linux
      • addr2line
      • cut
      • df
      • du
      • fallocate
      • find
      • fio
      • grep
      • groupadd
      • gzip
      • head / tail
      • hexdump
      • iostat
      • iotop
      • kill
      • ldd
      • lsof
      • ltrace / strace
      • mpstat
      • netstat
      • nm
      • pidstat
      • pmap
      • readlink
      • readlink
      • rpm2cpio / rpm2archive
      • sort
      • tee
      • uniq
      • useradd
      • usermod
      • watch
      • wc
      • which
      • xargs
    • MS Office
      • MS Office - Add-in Dev
      • MS Office - Application
    • MySQL
      • InnoDB - Architecture
      • InnoDB - Backup
      • InnoDB - Checkpoint
      • InnoDB - Critical Features
      • InnoDB - Files
      • InnoDB - Index
      • InnoDB - Insert Buffer
      • InnoDB - Lock
      • InnoDB - Partition Table
      • InnoDB - Table Storage
      • MySQL - Server Configuration
      • MySQL - Storage Engine
    • Network
      • Network - ARP
      • Network - FTP
      • Network - GitHub Accelerating
      • HTTP - Message Format
      • HTTP - POST 提交表单的两种方式
      • Network - Proxy Server
      • Network - SCP
      • Network - SSH
      • Network - TCP Congestion Control
      • Network - TCP Connection Management
      • Network - TCP Flow Control
      • Network - TCP Retransmission
      • Network - Traceroute
      • Network - V2Ray
      • Network - WebSocket
      • Network - Windows 10 Mail APP
      • Network - frp
    • Operating System
      • Linux - Kernel Compilation
      • Linux - Multi-OS
      • Linux - Mutex & Condition
      • Linux - Operations
      • Linux: Package Manager
      • Linux - Process Manipulation
      • Linux - User ID
      • Linux - Execve
      • OS - Compile and Link
      • OS - Dynamic Linking
      • OS - ELF
      • Linux - Image
      • OS - Loading
      • OS - Shared Library Organization
      • OS - Static Linking
      • Syzkaller - Architecture
      • Syzkaller - Description Syntax
      • Syzkaller - Usage
      • Ubuntu - Desktop Recover (Python)
      • WSL: CentOS 8
    • Performance
      • Linux Performance - Perf Event
      • Linux Performance - Perf Record
      • Linux Performance - Perf Report
      • Linux Performance - Flame Graphs
      • Linux Performance - Off CPU Analyze
    • PostgreSQL
      • PostgreSQL - ANALYZE
      • PostgreSQL - Atomics
      • PostgreSQL - CREATE INDEX CONCURRENTLY
      • PostgreSQL - COPY FROM
      • PostgreSQL - COPY TO
      • PostgreSQL - Executor: Append
      • PostgreSQL - Executor: Group
      • PostgreSQL - Executor: Limit
      • PostgreSQL - Executor: Material
      • PostgreSQL - Executor: Nest Loop Join
      • PostgreSQL - Executor: Result
      • PostgreSQL - Executor: Sequential Scan
      • PostgreSQL - Executor: Sort
      • PostgreSQL - Executor: Unique
      • PostgreSQL - FDW Asynchronous Execution
      • PostgreSQL - GUC
      • PostgreSQL - Locking
      • PostgreSQL - LWLock
      • PostgreSQL - Multi Insert
      • PostgreSQL - Plan Hint GUC
      • PostgreSQL - Process Activity
      • PostgreSQL - Query Execution
      • PostgreSQL - Spinlock
      • PostgreSQL - Storage Management
      • PostgreSQL - VFD
      • PostgreSQL - WAL Insert
      • PostgreSQL - WAL Prefetch
    • Productivity
      • LaTeX
      • Venn Diagram
      • VuePress
    • Solidity
      • Solidity - ABI Specification
      • Solidity - Contracts
      • Solidity - Expressions and Control Structures
      • Solidity - Layout and Structure
      • Solidity - Remix IDE
      • Solidity - Slither
      • Solidity - Types
      • Solidity - Units and Globally Available Variables
    • Vue.js
      • Vue.js - Environment Variable
    • Web
      • Web - CORS
      • Web - OpenAPI Specification
    • Wireless
      • Wireless - WEP Cracking by Aircrack-ng
      • Wireless - WPS Cracking by Reaver
      • Wireless - wifiphisher

OS - ELF

Created by : Mr Dk.

2020 / 06 / 26 0:26

Nanjing, Jiangsu, China


过去几个月也没少碰 ELF 文件,一些知识总结在了项目文档中。本文内容来自于 程序员的自我修养 - 链接、装载与库,俞甲子 石凡 潘爱民著。


About the Format

编译器编译后生成的文件叫做目标文件。从结构上讲,它已经符合可执行文件的格式,只是没有被链接,因此一些符号和地址可能还没有被调整。目前流行的可执行文件格式有 Windows 下的 PE (Portable Executable) 和 Linux 下的 ELF (Executable Linkable Format),它们都是 COFF (Common File Format) 的变种。目标文件就是 Windows 下的 .obj 或 Linux 下的 .o,也基本使用了对应的可执行文件格式。另外,动态链接库 (.dll / .so) 与静态链接库 (.lib / .a) 也使用相同的格式。ELF 格式的文件分类就有以下几种:

  • 可重定位文件 (Relocatable File) - 目标文件
  • 可执行文件 (Executable File)
  • 共享目标文件 (Shared Object File)
  • 核心转储文件 (Core Dump File)

Sections

目标文件包含了机器代码、数据,另外还有一些符号表、调试信息、字符串等。目标文件将这些信息按不同的属性分段 (section) 存储。比如,指令分为一个段,数据分为一个段。

  • .text - 代码
  • .data - 已初始化的全局变量和局部静态变量
  • .bss - 未初始化的全局变量和局部静态变量 (只是预留位置,在文件中不占据空间)
  • .rodata - 只读数据,支持 C++ 的 const 关键字

分段的原因是,一般来说指令是只读的,数据是可读可写的,OS 可以将这两个区域的虚拟内存分别设置只读权限和可读写权限,防止程序指令被意外修改。另外,当系统中运行程序的多个副本时 (多进程),指令是相同的,因而可以被共享。目前的 CPU cache 一般也都被设置为数据 cache 和指令 cache 分离。

文件中还有段表 (section table),其中包含描述每一个段信息的段描述符。编译器、链接器、装载器依靠段表来定位和访问段属性。段描述符记录了除段具体内容以外的所有信息,对于编译器和链接器来说,主要关注段的 类型 和 标志位:

  • 在类型上,代码、数据都属于 SHT_PROGBITS (程序段),另外还有字符串、符号、动态链接等段类型
  • 在标志位上,SHF_WRITE (可写),SHF_ALLOC (在进程中需要分配空间),SHF_EXECINSTR (进程空间可执行)

Relocation Table

对于需要重定位的段,ELF 中还有有类似 .rel.* 的 重定位表。如,.text 对应 .rel.text。重定位表段的类型为 SHT_REL,其中记录了代码段中的重定位信息。

String Table

ELF 中还有专门用于保存字符串的段,类型为 SHT_STRTAB。这样其它的 section 中可以通过引用该段中的下标来引用字符串。比如每个段的名称就被专门保存在一个段中。


Symbol

在链接中,目标文件之间的相互拼合实际上是目标文件之间对函数和变量地址的引用。一个目标文件 定义 了变量或函数,另一个目标文件 引用 了变量或函数。每个函数和变量都有自己独特的名字,避免链接过程中与其它名称混淆。在链接中,函数和变量统称为 符号 (symbol)。

每个目标文件中都有一个符号表,每个符号对应一个符号值。对于变量和函数来说,符号值就是它们的地址。符号表中的符号可能用于:

  • 定义在本目标文件内的 全局符号,可被其它目标文件引用
  • 本目标文件引用的 全局符号,而没有被定义在本目标文件 (外部符号)
  • 段名
  • 局部符号 (只在编译单元内部可见,对链接没有作用)
  • 目标文件指令与代码行的对应关系

其中,全局符号是链接过程最关注的部分。ELF 文件中的符号表是一个名为 .symtab 的段,是一个由多个符号结构体组成的数组。每个符号结构体记录的信息有,符号名、符号值、符号占据空间大小、符号类型和绑定信息、符号所在段等。

typedef struct
{
  Elf64_Word	st_name;		/* Symbol name (string tbl index) */
  unsigned char	st_info;		/* Symbol type and binding */
  unsigned char st_other;		/* Symbol visibility */
  Elf64_Section	st_shndx;		/* Section index */
  Elf64_Addr	st_value;		/* Symbol value */
  Elf64_Xword	st_size;		/* Symbol size */
} Elf64_Sym;

通过符号类型和绑定信息,可以确定符号是全局符号还是局部符号,符号是一个函数还是一个变量:

  • STB_LOCAL
  • STB_GLOBAL
  • STB_WEAK

通过符号所在段,可以判断符号是否定义在当前目标文件中:

  • Section 下标
  • SHN_ABS - 绝对值,如文件名
  • SHN_COMMON - 未初始化的全局符号定义
  • SHN_UNDEF - 符号在本目标文件中被引用,但定义在其它目标文件中

另外,在链接器的链接脚本中还有一些特殊符号。程序并没有定义它们,但是可以直接声明它们并使用:

  • __executable_start - 程序起始地址
  • __etext - 代码段结束地址
  • _edata - 数据段结束地址
  • _end - 程序结束地址

符号修饰与函数签名

如果直接用函数名作为符号名,意味着要链接该库的目标文件中不能使用与该库中函数和变量相同的符号名,否则就会出现符号名冲突。C++ 在设计时就考虑到了这个问题,通过 name space 解决这个问题。

C++ 编译器在编译源代码时,会对函数和变量名进行 修饰,并作为符号名。该符号名中包含:

  • 函数名
  • 函数参数类型
  • 所在类与 name space
  • ...

不同的编译器的修饰方式各有不同。


Debug Information

在编译时多加一个选项,可以在目标文件中生成很多个用于调试的段。这些信息可能会占用很大的空间,甚至比程序本身的代码和数据还大好几倍。当程序发布前,Linux 下可以使用 strip 去掉 ELF 文件中的调试信息。


Edit this page on GitHub
Prev
OS - Dynamic Linking
Next
Linux - Image