PE文件格式

三千风雨三千雪 三千风雪我在写
流了一共三千血 你却始终不了解


简介

PE文件使用的是一个平面地址空间,所有的代码和数据都合并在一起,组成了一个很大的结构;
文件被分为不同的区块(Section,又成为区段或节等),区块中包含代码和数据,各个区块按页边界对齐;
区块没有大小限制,是一个连续结构;每一个块都有其自己的属性,如是否包含代码,是否可读可写等;


PE文件的构成

MS-DOS头部

每个PE文件都是以一个DOS程序开始的,其作用是一旦程序在DOS下执行,DOS就可以识别出这是一个有效的执行体,然后运行紧随的MZ header的DOS stub,即DOS块;
PE文件第一个字节就是MS-DOS头部,称为IMAGE_DOS_HEADER,其结构是这样的:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
typedef struct _IMAGE_DOS_HEADER 
{
+00h WORD e_magic // DOS可执行文件标记"MZ"
+02h WORD e_cblp // 文件最后页的字节数
+04h WORD e_cp // 文件页数
+06h WORD e_crlc // 重定义元素个数
+08h WORD e_cparhdr // 头部尺寸,以段落为单位
+0ah WORD e_minalloc // 所需的最小附加段
+0ch WORD e_maxalloc // 所需的最大附加段
+0eh WORD e_ss // 初始的SS值(相对偏移量)
+10h WORD e_sp // 初始的SP值
+12h WORD e_csum // 校验和
+14h WORD e_ip // 初始的IP值,DOS代码入口ip
+16h WORD e_cs // 初始的CS值,DOS代码入口cs
+18h WORD e_lfarlc // 重分配表文件地址
+1ah WORD e_ovno // 覆盖号
+1ch WORD e_res[4] // 保留字
+24h WORD e_oemid // OEM标识符(相对e_oeminfo)
+26h WORD e_oeminfo // OEM信息
+28h WORD e_res2[10] // 保留字
+3ch LONG e_lfanew // 指向PE文件头"PE",0,0
}

其中最为重要的是e_magic和e_lfanew;
e_magic的值为5A4Dh,e_lfanew的值则是指出PE头的文件偏移位置,占用4个字节;
MS-DOS头部

PE文件头

在D0Sstub之后紧跟的就是PE文件头,”PE Header”是PE相关结构NT映射头(IMAGE_NT_HEADERS)的简称,其中包含许多PE装载器可以用到的主要字段;
PE文件头的指针:

1
PNTHeader = ImageBase + dosHeader->e_lfanew

IMAGE_NT_HEADERS是由3个字段组成的结构:

1
2
3
4
5
IMAGE_NT_HEADERS STURST
+00h Signature DWORD ;PE文件标识
+04h FileHeader IMAGE_FILE_HEADER
+18h OptionalHeader IMAGE_OPTIONAL_HEADER32
IMAGE_NT_HEADERS ENDS

字段前数字表示到PE文件头的偏移量,Signature字段被设置为0x00004550,即ASCII的”PE00”;

IMAGE_FILE_HEADER

其中IMAGE_FILE_HEADER又是一个结构,其结构如下:

1
2
3
4
5
6
7
8
9
IMAGE_FILE_HEADER STRUCT
+00h Machine WORD ;运行平台
+06h NumberOfSections WORD ;文件区块数
+08h TimeDateStamp DWORD ;文件创建时间
+0Ch PointerToSymbolTable DWORD
+10h NumberOfSymbols DWORD
+14h SizeOfOptionalHeader WORD ;IMAGE_OPTIONAL_HEADER32结构的大小
+16h Characteristics WORD ;文件属性
IMAGE_FILE_HEADER ENDS

其中字段依次如下图:
IMAGE_FILE_HEADER 结构

IMAGE_OPTIONAL_HEADER32

IMAGE_OPTIONAL_HEADER32也是一个结构而且比较大,但是这个结构只是一个可选结构,其不足以定义PE文件属性,所以里面包含的字段也比较多;
其结构如下,字段前数字仍然是到PE文件头的偏移量:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
IMAGE_OPTIONAL_HEADER32 STRUCT
+18H Magic WORD
+1Ah MajorLinkerVersion BYTE
+1Bh MinorLinkerVersion BYTE
+1Ch SizeOfCode DWORD
+20h SizeOfInitializedData DWORD
+24h SizeOfUninitializedData DWORD
+28h AddressOfEntryPoint DWORD
+2Ch BaseOfCode DWORD ;代码区块起始RVA
+30h BaseOfData DWORD ;数据区块起始RVA
+34h ImageBase DWORD ;程序默认载入基址
+38h SectionAlignment DWORD ;内存中区块对齐值
+3Ch FileAlignment DWORD ;文件中区块对齐值
+40h MajorOperatingSystemVersion WORD
+42h MinorOperatingSystemVersion WORD
+44h MajorImageVersion WORD
+46h MinorImageVersion WORD
+48h MajorSubsystemVersion WORD
+4Ah MinorSubsystemVersion WORD
+4Ch Win32versionValue DWORD
+50h SizeOfImage DWORD
+54h SizeOfHeaders DWORD
+58h CheckSum DWORD
+5Ch Subsystem WORD
+5Eh DllCharacteristics WORD
+60h SizeOfStackReserve DWORD
+64h SizeOfStackCommit DWORD
+68h SizeOfHeapReserve DWORD
+6Ch SizeOfHeapCommit DWORD
+70h LoaderFlags DWORD
+74h NumberOfRvaAndSizes DWORD
+78h DataDirectory IMAGE_DATA_DIRECTORY 16 DUP ;数据目录表
IMAGE_OPTIONAL_HEADER32 ENDS

其中比较重要的就是数据目录表IMAGE_DATA_DIRECTORY,其结构如下:

1
2
3
4
IMAGE_DATA_DIRECTORY    STRUCT
VirtualAddress DWORD ;数据块的起始RVA
Size DWORD ;数据块长度
IMAGE_DATA_DIRECTORY ENDS

数据目录表中总共有16个成员:
IMAGE_DATA_DIRECTORY 结构
PE文件在定位输出表,输入表和资源等重要的数据时,就是从IMAGE_DATA_DIRECTORY结构开始的
如图:
IMAGE_DATA_DIRECTORY 结构
158h位置是数据目录表的第一项,值为0,所以这个程序的输出表地址和大小都为0,即这个程序没有输出表;160h位置是数据表的第二项,表示输入表的RVA为2A000h,大小为3ch;

区块表

紧跟IMAGE_NT_HEADERS 的就是区块表,它是一个IMAGE_SECTION_HEADER数据数组;每个数组包含了所关联的区块的信息,比如位置、长度、属性等;
IMAGE_SECTION_HEADER结构定义如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
IAMGE_SECTION_HEADER STURCT
Name BYTE8 DUP ;8字节的块名
union Misc
PhysicalAddress DWORD
VirtualSize DWORD
ENDS
VistualAddress DWORD ;区块的RVA地址
SizeOfRawData DWORD ;在文件中对齐后的尺寸
PointerToRelocations DWORD ;在文件中的偏移
PointerToLinenumbers DWORD
NumberOfRelocations WORD
NumberOfLinenumbers WORD
Characteristics DWORD ;区块的属性
IMAGE_SECTION_HEADER ENDS

IAMGE_SECTION_HEADER 中的字段依次对应如下图:
IAMGE_SECTION_HEADER 结构
每个IMAGE_SECTION_HEADER的大小是40字节,区块的个数通过IMAGE_FILE_HEADER->NumberOfSections 来确定
其中比较重要的是VistualAddress 和 PointerToRelocations,上面图中显示的.text段的VistualAddress地址,即RVA为1000h,PointerToRelocations的值也是1000h,即在文件中的偏移为1000h;
而这两个数相减就是△k,即

1
File_Offset = RVA - △k;

File_Offsetd的值就是PointerToRelocations的值,在上图中.text区块的△k = RVA - File_Offset = 1000h - 1000h = 0h;
需要注意的:不是在整个文件中△k都不变的,因为页边界的不一样,不同区块在磁盘中与内存中的差值不同,即△k不同;
如果我们设初始内存的地址,即基地址为ImageBase,内存中实际地址为VA,则有:

1
File_Offset = VA - ImageBase - △k;

这里给一张图作参考:
应用程序加载映射示意图

输入表

输入表以一个IMAGE_IMPORT_DESCRIPTOR(IID)数组开始,每个被PE文件隐式链接的DLL有一个IID;
IMAGE_IMPORT_DESCRIPTOR结构如下:

1
2
3
4
5
6
7
8
9
10
IMAGE_IMPORT_DESCRIPTOR STRUCT
union ;00h
Charateristics DWORD ;
OriginalFirstThunk DWORD ;包含指向输入表名称表(INT)的RVA
ends
TimeDataStamp DWORD
ForwarderChain DWORD
Name DWORD ;DLL的名称指针,也是一个RVA
FirstThunk DWORD ;包含指向输入表(IAT)的RVA
IMAGE_IMPORT_DESCRIPTOR ENDS

寻找输入表的基本方法:PE文件头偏移80h的位置找到指向输入表的地址,假设是Addr,不过这个地址是RVA,需要用这个值减去△k,才是输入表的在文件中的偏移地址,需要注意的是找△k时,要先确定Addr在哪个区块中,然后再用该区块的RVA减去该区块的PointerToRawData才是△k;至于区块的RVA和PointerToRawData就在IAMGE_SECTION_HEADER结构中看了;
至于找到输入表后,找输入表中的字段时,就可以直接用字段指向的RVA减去上面计算出的△k,然后得到文件偏移地址了;
PE文件加载后的IAT:
应用程序加载映射示意图

输出表

输出表一般不存在于EXE文件中,大部分在DLL文件中的;当一个DLL函数被EXE或另外一个DLL文件使用时,它就被”输出了”(Exported),其中输出信息被保存在输出表中,DLL文件通过输出表向系统提供输出函数名、序号、入口地址等信息;
输出表是数据目录表中的第一个成员,指向IMAGE_EXPORT_DIRECTORY结构,简称IED;
IED结构如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14

IMAGE_EXPORT_DIRECTORY STRUCT
DWORD Characteristics ;//未使用,总是定义为0
DWORD TimeDateStamp ;//文件生成时间
WORD MajorVersion ;//未使用,总是定义为0
WORD MinorVersion ;//未使用,总是定义为0
DWORD Name ;//模块的真实名称的RVA
DWORD Base ;//基数,加上序数就是函数地址数组的索引值
DWORD NumberOfFunctions ;//导出函数的总数
DWORD NumberOfNames ;//输出函数名称表(ENT)里的条目总数
DWORD AddressOfFunctions ;// RVA from base of image指向输出函数地址的RVA
DWORD AddressOfNames ;// RVA from base of image指向输出函数名字的RVA
DWORD AddressOfNameOrdinals ;// RVA from base of image向输出函数序号的RVA
IMAGE_EXPORT_DIRECTORY ENDS

输出表的查询和输入表查询的方法是一样的;
下图是一个输出表的格式及其中的3个阵列:
一个典型的输出表

资源

Windows程序的各种界面称为资源,包括加速键、位图、光标、对话框、图标等,在PE文件的所有结构中,资源部分是最为复杂的;
资源用类似于磁盘目录结构的方式来保存,目录通常包含3层;
第1层目录类似一个文件系统的根目录,每个根目录下的条目总是它自己权限下的一个目录;第2层目录中的每一个都对应于一个资源类型(字符串表、菜单、对话框等);第2层资源类型目录下是第3层目录;
目录结构如图:
资源的树形结构

资源表位于数据目录表的第3项,共动态分配字节,其中结构体中的成员指出的RVA偏移量都是对于此结构体的地址作为基地址;
IMAGE_RESOURCE_DIRECTORY结构长度为16字节,共6个字段,定义如下:

1
2
3
4
5
6
7
8
9
IMAGE_RESOURCE_DIRECTORY STRUCT 
{
+00h DWORD Characteristics ; 理论上为资源的属性,不过事实上总是0
+04h DWORD TimeDateStamp ; 资源的产生时刻
+08h WORD MajorVersion ; 理论上为资源的版本,不过事实上总是0
+0Ah WORD MinorVersion
+0Ch WORD NumberOfNamedEntries ; 以名称(字符串)命名的入口数量(重要)
+0Eh WORD NumberOfIdEntries ; 以ID(整型数字)命名的入口数量(重要)
}IMAGE_RESOURCE_DIRECTORY ENDS

资源目录入口结构:

1
2
3
4
5
IMAGE_RESOURCE_DIRECTORY_ENTRY STRUCT
{
+10h DWORD Name ; 目录项的名称字符串指针或ID,高位为1时指向子结构体一
+14h DWORD OffsetToData ; 目录项指针,高位为1时指向子结构体二
};IMAGE_RESOURCE_DIRECTORY_ENTRY ENDS

资源数据入口:

1
2
3
4
5
6
7
IMAGE_RESOURCE_DATA_ENTRY STRUCT
{
+00h DWORD OffsetToData ; 资源数据的RVA(重要)
+04h DWORD Size ; 资源数据的长度(重要)
+08h DWORD CodePage ; 代码页, 一般为0
+0Ch DWORD Reserved ; 保留字段
};IMAGE_RESOURCE_DATA_ENTRY ENDS


总结

PE结构大部分结构是这些,当然还有一些结构没有指出,如果要深入了解PE结构,那么最好的方法就是编写一个PEload工具,在编写的过程中,会更深入的理解PE结构;
最后在一个放一个PE文件结构全局图,基本包含了PE结构中的所有结构:
PE结构

文章目录
  1. 1. 简介
  2. 2. PE文件的构成
  • MS-DOS头部
  • PE文件头
    1. 1. IMAGE_FILE_HEADER
    2. 2. IMAGE_OPTIONAL_HEADER32
    3. 3. 区块表
    4. 4. 输入表
    5. 5. 输出表
    6. 6. 资源
    7. 7. 总结
  • ,