简介

Lua语言对于游戏开发与相关逆向分析的人来说并不陌生。Lua语言凭借其高效、简洁与跨平台等多种特性，一直稳立于游戏、移动APP等特定的开发领域中。

目前Lua主要有5.1、5.2、5.3共三个版本。5.1版本的Lua之所以目前仍然被广泛使用的原因之一，是由于另一个流行的项目LuaJit采用了该版本Lua的内核。单纯使用Lua来实现的项目中，5.2与5.3版本的Lua则更加流行。这里主要以Lua版本5.2为例，通过分析它生成的Luac字节码文件，完成Lua程序的初步分析，为以后更深入的反汇编、字节码置换与重组等技能打下基础。

Lua与Luac

Lua与Python一样，可以被定义为脚本型的语言，与Python生成pyc字节码一样，Lua程序也有自己的字节码格式luac。Lua程序在加载到内存中后，Lua虚拟机环境会将其编译为Luac（下面文中Luac与luac含义相同）字节码，因此，加载本地的Luac字节码与Lua源程序一样，在内存中都是编译好的二进制结构。

为了探究Luac的内幕，我们需要找到合适的资料与工具来辅助分析Luac文件。最好的资料莫过于Lua的源码，它包含了Lua相关知识的方方面面，阅读并理解Luac的构造与Lua虚拟机加载字节码的过程，便可以通透的了解Luac的格式。但这里并不打算这么做，而采取阅读第三方Lua反编译工具的代码。主要原因是：这类工具的代码往往更具有针对性，代码量也会少很多，分析与还原理解Luac字节码文件格式可以省掉不少的时间与精力。

luadec与unlua是最流行的Luac反汇编与反编译工具，前者使用C++语言开发，后者使用Java语言，这两个工具都能很好的还原与解释Luac文件，但考虑到Lua本身采用C语言开发，并且接下来打算编写010 Editor编辑器的Luac.bt文件格式模板，010 Editor的模板语法类似于C语言，为了在编码时更加顺利，这里分析时主要针对luadec。

Luac文件格式

一个Luac文件包含两部分：文件头与函数体。文件头格式定义如下：

typedef struct {
    char signature[4];   //".lua"
    uchar version;
    uchar format;
    uchar endian;
    uchar size_int;
    uchar size_size_t;
    uchar size_Instruction;
    uchar size_lua_Number;
    uchar lua_num_valid;
    uchar luac_tail[0x6];
} GlobalHeader;

第一个字段signature在lua.h头文件中有定义，它是LUA_SIGNATURE，取值为“\033Lua"，其中，\033表示按键。LUA_SIGNATURE作为Luac文件开头的4字节，它是Luac的Magic Number，用来标识它为Luac字节码文件。Magic Number在各种二进制文件格式中比较常见，通过是特定文件的前几个字节，用来表示一种特定的文件格式。

version字段表示Luac文件的格式版本，它的值对应于Lua编译的版本，对于5.2版本的Lua生成的Luac文件，它的值为0x52。

format字段是文件的格式标识，取值0代表official，表示它是官方定义的文件格式。这个字段的值不为0，表示这是一份经过修改的Luac文件格式，可能无法被官方的Lua虚拟机正常加载。

endian表示Luac使用的字节序。现在主流的计算机的字节序主要有小端序LittleEndian与大端序BigEndian。这个字段的取值为1的话表示为LittleEndian，为0则表示使用BigEndian。

size_int字段表示int类型所占的字节大小。size_size_t字段表示size_t类型所占的字节大小。这两个字段的存在，是为了兼容各种PC机与移动设备的处理器，以及它们的32位与64位版本，因为在特定的处理器上，这两个数据类型所占的字节大小是不同的。

size_Instruction字段表示Luac字节码的代码块中，一条指令的大小。目前，指令Instruction所占用的大小为固定的4字节，也就表示Luac使用等长的指令格式，这显然为存储与反编译Luac指令带来了便利。

size_lua_Number字段标识lua_Number类型的数据大小。lua_Number表示Lua中的Number类型，它可以存放整型与浮点型。在Lua代码中，它使用LUA_NUMBER表示，它的大小取值大小取决于Lua中使用的浮点数据类型与大小，对于单精度浮点来说，LUA_NUMBER被定义为float，即32位大小，对于双精度浮点来说，它被定义为double，表示64位长度。目前，在macOS系统上编译的Lua，它的大小为64位长度。

lua_num_valid字段通常为0，用来确定lua_Number类型能否正常的工作。

luac_tail字段用来捕捉转换错误的数据。在Lua中它使用LUAC_TAIL表示，这是一段固定的字符串内容："\x19\x93\r\n\x1a\n"。

在文件头后面，紧接着的是函数体部分。一个Luac文件中，位于最上面的是一个顶层的函数体，函数体中可以包含多个子函数，子函数可以是嵌套函数、也可以是闭包，它们由常量、代码指令、Upvalue、行号、局部变量等信息组成。

在Lua中，函数体使用Proto结构体表示，它的声明如下：

typedef struct {
    //header
    ProtoHeader header;
    //code
    Code code;
    // constants
    Constants constants;
    // functions
    Protos protos;
    // upvalues
    Upvaldescs upvaldescs;
    // string
    SourceName src_name;
    // lines
    Lines lines;
     
    // locals
    LocVars loc_vars;
     
    // upvalue names
    UpValueNames names;
} Proto;

ProtoHeader是Proto的头部分。它的定义如下：

typedef struct {
    uint32 linedefined;
    uint32 lastlinedefined;
    uchar numparams;
    uchar is_vararg;
    uchar maxstacksize;
} ProtoHeader;

ProtoHeader在Lua中使用lua_Debug表示，lua_Debug的作用是调试时提供函数的行号，函数与变量名等信息，只是它部分字段的信息在生成Luac字节码时，最终没有写入Luac文件中。linedefined与lastlinedefined是定义的两个行信息。numparams表示函数有几个参数。is_vararg表示参数是否为可变参数列表，例如这个函数声明：

function f1(a1, a2, ...)
    ......
end

这点与C语言类似，三个点“…”表示这是一个可变参数的函数。f1()在这里的numparams为2，并且is_vararg的值为1。

maxstacksize字段指明当前函数的Lua栈大小。值为2的幂。

在ProtoHeader下面是函数的代码部分，这里使用Code表示。Code存放了一条条的Luac机器指令，每条指令是一个32位的整型大小。Code定义如下：

struct Code {
    uint32 sizecode;
    uint32 inst[];
} code;

sizecode字段标识了接下来的指令条数。inst则存放了当前函数所有的指令，在Lua中，指令采用Instruction表示，它的定义如下：

#define LUAI_UINT32unsigned int
typedef LUAI_UINT32 lu_int32;
typedef lu_int32 Instruction;

当LUAI_BITSINT定义的长度大于等于32时，LUAI_UINT32被定义为unsigned int，否则定义为unsigned long，本质上，也就是要求lu_int32的长度为32位。

接下来是Constants，它存放了函数中所有的常量信息。定义如下：

typedef struct {
    uint32 sizek;
    Constant constant[];
} Constants;

sizek字段标识了接下来Constant的个数。constant则是Constant常量列表，存放了一个个的常量信息。的定义如下：

typedef struct {
    LUA_DATATYPE const_type;
    TValue val;
} Constant;

LUA_DATATYPE是Lua支持的各种数据类型结构。如LUA_TBOOLEAN表示bool类型，使用lua_Val表示；LUA_TNUMBER表示数值型，它可以是整型，使用lua_Integer表示，也可以是浮点型，使用lua_Number表示；LUA_TSTRING表示字符串。这些所有的类型信息使用const_type字段表示，大小为1字节。

TValue用于存放具体的数据内容。它的定义如下：

typedef struct {
    union Value {
        //GCObject *gc;     /* collectable objects */
        //void *p;          /* light userdata */
        lua_Val val;        /* booleans */
        //lua_CFunction f;  /* light C functions */
        lua_Integer i;      /* integer numbers */
        lua_Number n;       /* float numbers */
    } value_;
} TValue;

对于LUA_TBOOLEAN，它存放的值可以通过Lua中提供的宏bvalue来计算它的值。

对于LUA_TNUMBER，它存放的可能是整型，也可能是浮点型，可以直接通过nvalue宏自动进行类型判断，然后获取它格式化后的字符串值。对于Lua的5.3版本，对nvalue宏进行了改进，可以使用ivalue宏获取它的整型值，使用fltvalue宏来获取它的浮点值。

对于LUA_TSTRING，它存放的是字符串信息。可以使用rawtsvalue宏获取它的字符串信息。而写入Luac之后，这里的信息实则是64位的值存放了字符串的大小，并且紧跟着后面是字符串的内容。

接下来是Protos，它表示当前函数包含的子函数信息。定义如下：

typedef struct(string level) {
    uint32 sizep;
    Proto proto[];
} Protos

sizep字段表示当前函数包含的子函数的数目。所谓子函数，指的是一个函数中包含的嵌套函数与闭包。如下面的代码：

function Create(n) 
    local function foo1() 
        print(n) 
    end
    local function foo2() 
        n = n + 10 
    end
    return foo1,foo2
end

Create()函数包含了foo1()与foo2()两个子函数，因此，这里sizep的值为2。proto表示子函数信息，它与父函数使用一样的结构体信息。因此，可见Lua的函数部分使用了一种树式的数据结构进行数据存储。

Upvaldescs与UpValueNames共同描述了Lua中的UpValue信息。当函数中包含子函数或团包，并且访问了函数的参数或局部变量时，就会产生UpValue。如上面的Create()函数，foo1()与foo2()两个子函数都访问了参数n，因此，这里会产生一个UpValue，它的名称为“n”。

Upvaldesc的定义如下：

typedef struct {
    uchar instack;
    uchar idx;
} Upvaldesc;

instack字段表示UpValue是否在栈上创建的，是的话取值为1，反之为0。idx字段表示UpValue在UpValue数据列表中的索引，取值从0开始。

UpValueNames存放了当前函数中所有UpValue的名称信息，它的定义如下：

typedef struct {
    uint32 size_upvalue_names;
    UpValueName upvalue_name[];
} UpValueNames;

size_upvalue_names字段表示UpValueName条目的数目，每一条UpValueName存放了一个UpValue的名称，它的定义如下：

typedef struct {
    uint64 name_size;
    char var_str[];
} UpValueName;

name_size字段是符号串的长度，var_str为具体的字符串内容。

SourceName存放了当前Luac编译前存放的完整文件名路径。它的定义如下：

typedef struct {
    uint64 src_string_size;
    char str[];
} SourceName

SourceName的定义与UpValueName一样，两个字段分别存放了字符串的长度与内容。

Lines存放了所有的行号信息。它的定义如下：

typedef struct {
    uint32 sizelineinfo;
    uint32 line[];
} Lines;

sizelineinfo字段表示当前函数所有的行总数目。line字段存放了具体的行号。

LocVars存放了当前函数所有的局部变量信息，它的定义如下：

typedef struct {
    uint32 sizelocvars;
    LocVar local_var[];
} LocVars;

sizelocvars字段表示局部变量的个数。local_var字段是一个个的局部变量，它的类型LocVar定义如下：

typedef struct {
    uint64 varname_size;
    char varname[];
    uint32 startpc;
    uint32 endpc;
} LocVar;

varname_size字段是变量的名称长度大小。varname字段存放了变量的名称字符串内容。startpc与endpc是两个指针指，存储了局部变量的作用域信息，即它的起始与结束的地方。

到此，一个Luac的文件格式就讲完了。

010 Editor模板语法

为了方便分析与修改Luac二进制文件，有时候使用010 Editor编辑器配合它的文件模板，可以达到很直观的查看与修改效果，但010 Editor官方并没有提供Luac的格式模板，因此，决定自己动手编写一个模板文件。

010 Editor支持模板与脚本功能，两者使用的语法与C语言几乎一样，只是有着细微的差别与限制，我们看看如何编写010 Editor模板文件。

创作场景

Lua 程序逆向之 Luac 文件格式分析（上）