Facebook调试iOS文件损坏的过程

Facebook 工程师 Slobodan Predolac 和 Nicolas Spielberg 最近描述了他们如何解决了一个顽固的移动调试问题，并且使崩溃频率降低了50% 以上。在此过程中，他们展示了若干通用的技巧以及Facebook 发开的工具，这些对不断快速增长的大型代码库会有所帮助。

Predolac 和 Spielberg 回顾说，此 bug 开始的时候有点像 Core Data 崩溃。他们首先使用 Facebook 自己的工具 Hipal 和 Scuba 从崩溃日志中查找和搜集数据，分析的结果是 Core Data 错误编码没有统一的规律。

在查找问题的根源时，Facebook 开发软件的方式是阻碍此过程的障碍之一，因为 Facebook 以月为发布周期，而且有数百名开发人员向各发布版本提交代码。所以，这两位工程师在文中描述说，“即使我们能够缩小引入 bug 的时间范围，也无法隔离数千次代码提交来纠错”。况且每次的版本发布都经过 A/B 测试，这就更难区分“到底是代码还是配置导致了该问题”。

证明以上方式行不通后，Facebook 的工程师开始做出不同的假设，在排除了若干假设后，他们试着验证下一个假设，那就是 Core Data 是该问题的根本原因所在。于是他们找到了“一段受影响的代码，他们可以很容易地将这块代码从 Core Data 切换为 SQLite，用以验证他们的假设”。

之后没多久，他们就收到崩溃报告，报告指出某文件被“可恶的线程或进程”重写了。这说明查找问题的方向是正确的，但是在“庞大的代码库中”顺利找到此线程或进程看起来不是一件容易的事情。他们采取的方法是在打开 SQLite 文件之前打开一个诱饵文件，这样就能捕捉到进行写文件操作的线程，然后查看损坏的文件。通过此方法，他们在所有的附件中发现了一个相同的前缀：17 03 03 00 28，然后使用 lldb 中的以下命令设置了一个断点，用以查找试图向 POSIX write() 方法发送此内容的任意线程：


breakpoint set -n write -c "(*(char**) ($esp + 8))[0]==0x17 
   && (*(char**) ($esp + 8))[1]==0x03 
   && (*(char**) ($esp + 8))[2]==0x03 
   && (*(char**) ($esp + 8))[3]==0x00
   && (*(char**) ($esp + 8))[4]==0x28"

很快他们发现 SPDY 协议栈很可能就是罪魁祸首，接下来就验证该假设。他们使用 Fishhook 完成了验证的工作，这是 Facebook 开发的一款开源工具，它可以替换系统的 write 调用。


// setup a honeypot file
int trap_fd = open(…);
// Create new function to detect writes to the honeypot
static WRITE_FUNC_T original_write = dlsym(RTLD_DEFAULT, "write");
ssize_t corruption_write(int fd, const void *buf, size_t size) {
FBFatal(fd != trap_fd, @"Writing to the honeypot file");
return original_write(fd, buf, size);
}

// Replace the system write with our “checked version”
rebind_symbols((struct rebinding[1]){{(char *)"write", (void *)corruption_write}}, 1);

在第二天他们手中最新的崩溃报告显示，SSL 层在向一个 socket 中写数据，但这个 socket 之前已经被关闭，并且被重新分配给了出问题的数据库文件。

一旦在查明了崩溃的原因，修复问题仅仅花了几个小时就搞定了。

查看英文原文： Debugging iOS File Corruption at Facebook

感谢曹知渊对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作，请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博（ @InfoQ ）或者腾讯微博（ @InfoQ ）关注我们，并与我们的编辑和其他读者朋友交流。

创作场景

Facebook 调试 iOS 文件损坏的过程