2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

实现 TeX 的算法:回首编程技术的过去三十年

  • 2015-01-19
  • 本文字数:1847 字

    阅读完需:约 6 分钟

Glenn Vanderburg 是 LivingSocial 的工程主管,在最近的 ClojureConj 会议上,对他使用 Clojure 实现 TeX 算法的工作做了很有趣的叙述。在那个过程中,他发现在过去三十年间,编程技术已经发生了非常大的变化。

TeX 简史

首先,一些历史可能有助于说明 TeX 的重要性。Donald Knuth 在 1982 年发布了 TeX 1.0,32 年后,它仍然代表了计算机排版的先进状态,Glenn 说。此外,TeX 一直是少数几个提供了源代码的大型项目,人们可以从中学习。

TeX 是一部鸿篇巨制:它运行快速、可移植、产出优秀的结果,并且在三十年后它还在广泛使用中,只发现了很少缺陷。

Glenn 特别提到,很有趣的是,当 Knuth 收到他的巨著《计算机编程艺术》的第一页样张,就决定开始编写TeX,因为他发现排版“丑陋得让人失望”。这样,Knuth 开始编写程序,使得他的书看起来自己能够接受。当TeX 可用之后,因为快速排序而为人所知的 Tony Hoare 建议 Knuth 发布源代码,那样从此可以为学生所用,那时是 1982 年,互联网还没有出现,也没有太多源代码示例。这个目标让 Knuth 开始有了文学编程(Literate Programming)的冲动,最终TeX 的源代码在1986 年公诸于众。直到Linux 内核出现之前,它一直是世界上被最广泛阅读的代码,Glenn 说。

TeX 内部

TeX 架构是一个处理文本的管道,它会把文本切分成多种类型的对象,如页、段落、行、词等等,最终生成一个 DVI 文件。从 TeX 出现到现在已经有超过三十年,回顾过去,我们会惊奇的发现它仍然是非常“早期”的东西,Glenn 说。

TeX 源代码中有很多现在并不被认为是好的编程风格的例子,像:

  • 全局变量;
  • 一个字母的变量;
  • goto 语句;
  • 数百行长的过程;
  • 大量宏;
  • 重复代码;
  • 局部变量重用;
  • 到处都是单线程假设;
  • 可变性代码普遍存在

阅读这样的代码就像是在访问另一个时代 […] 在那本书出版的 1986 年,它代表了非常不错的编程方式,但很多方面现在已经过时了。

当时很多方式都是因为受到了当时可用硬件的限制,只有有限的计算能力和可用内存,据 Glenn 所说,Knuth 为了减少函数调用到最小程度做了非常大的努力,而那实在是太昂贵了。这使得 TeX 的代码库高度整合,从而“抽取出任何一个部分都无法独立使用”。

TeX 积极地使用技术来改善手动的操作,我们今天可能会真的看不起那些技术,但我们更应该仰视那些技术,因为要考虑到摩尔定律,不仅仅是那个定律,还有当时的语言实现技术。

使用 Clojure 重新实现 TeX:Cló

因此,Tex 可能并非是今天指导新手程序员的最佳示例,然而,Glenn 之所以要重新实现它,是因为它能够展示出编程技术已经发生了多大改变,并且能够提供真实的示例,说明从过程化转换到函数式语言的时候,算法会发生多大改变。

据 Glenn 所说,想要理解 TeX 代码的功能很困难,大多是因为它的简洁和极度优化,正如上面所概述的。最初,他试图让自己的设计尽可能和 TeX 保持一致。正如上面所说,Tex 严格地单线程执行,而在当今计算机领域,非常重要的一个目标就是利用已经可用的多核硬件。Clojure 非常有用的一种特性是,让他可以把 TeX 的基本管道实现为一系列函数,然后他可以替换线程宏,从而从串行执行模式转换到并行执行模式。“那让我开始做一些像比较两个苹果的工作。” Cló的实现当然要比 TeX 慢很多,但转换到并行执行带来了“巨大的收益”。

Glenn 发现另一个有趣的点是,他在某些时候不得不实现和 TeX 一样的优化。然而,不久他就意识到,那会让他无法使用在函数式语言中天然存在的非常好的抽象,从而让事情比应该的情况更加复杂。这也让他觉得不知道 TeX 的 API 受到了语言模式多么大的影响,特别是普遍的不可变性和单线程的假设。

对于 Glenn 最重要的反映来自于意识到编程技术有了多大的发展。如果我们回顾 1982 年的编程技术,就会看到:

  • 计算机运行缓慢,内存非常小;
  • 大多数程序员从未见过多核处理器,CPU 的字节和比特的大小都不一样;
  • 对于浮点算法没有 IEEE 标准;
  • 可移植性意味着要支持差不多 40 个不同的操作系统,每个都拥有不同的文件系统结构、不同的目录语法、不同的 I/O 和分配 API、字符集;
  • 不可能动态载入代码;
  • 优化编译器还是研究性项目;
  • 没有开源和免费的软件,你需要从头开始实现不可想象的基本内容、常用数据结构和流程。
  • 当版本控制可用的时候,功能还非常初级;
  • 人们还从未听说过自动化测试;
  • 今天的工具非常豪华,但也是多年来小步的改进逐渐得来的。

因此,对于我们还要继续改进编程技术的工作,Glenn 邀请大家首先享受已经存在的良好基础。

查看英文原文: Implementing TeX’s Algorithms: Looking Back at Thirty Years of Programming

2015-01-19 01:195306
用户头像

发布了 340 篇内容, 共 138.2 次阅读, 收获喜欢 13 次。

关注

评论

发布
暂无评论
发现更多内容

计算机的时钟(一):NTP协议

ElvinYang

架构师训练营第六周总结

陈靓-哲露

百万级别数据Excel导出优化

Throwable

架构设计 springboot

基础篇:JAVA基本类型

csc

Java Java 25 周年

架构师训练营第六周作业

烟雨濛濛

11个提高产品经理工作效率的必备工具,果断收藏

马踏飞机747

大数据 设计 产品经理

Newbe.Claptrap 框架中为什么用 Claptrap 和 Minion 两个词?

newbe36524

Docker .net core netcore ASP.NET Core

基础篇:Object对象

csc

Java Java 25 周年

架构师训练营第六周作业

Melo

Vagrant 快速入门

FeiLong

vagrant

list vs tupple

Leetao

Python 数据结构 Python基础知识

看动画学算法之:排序-冒泡排序

程序那些事

算法 动画 排序算法 轻松学

DolphinScheduler-1.3.0-dev功能体验

Eights

大数据 hadoop

数据分析之AB testing实战(附Python代码)

JackTian

Python 编程 程序员 数据分析 AB testing实战

并行流ParallelStream中隐藏的陷阱

Throwable

Java

3W字干货深入分析基于Micrometer和Prometheus实现度量和监控的方案

Throwable

Java 监控 Grafana Prometheus springboot

北京区块链规划重点发展海淀朝阳通州等区,加大对代币监管力度

CECBC

北京行动计划 四个高地 需求导向 为政务服务

SpringBoot2.x入门:应用打包与启动

Throwable

springboot

谈谈对分布式事务的一点理解和解决方案

Throwable

分布式 分布式事务 架构设计

修炼我们的智慧之眼

J.Smile

认知提升

SpringBoot 入门:02 - 实现 MVC

封不羁

Java spring springboot

大话设计模式 | 4. 装饰模式

Puran

C# 设计模式

云原生实践系列:概述

孤岛旭日

Serverless 微服务 Service Mesh 服务架构

“新基建”来了!云南三年投资3776亿!

CECBC

如何搭建Hive 环境

Rayjun

大数据 hive

玛雅密码社区不忘初心 共筑未来通证新经济

Geek_116789

ARST Week7

时之虫

ARTS 打卡计划

不会有人还不知道全文检索工具Lucene怎么用吧?文字长文教程

给你买橘子

Java 搜索引擎 lucene 程序员 开发工具

【计算机网络】网络层——路由器与路由选择协议

烫烫烫个喵啊

计算机网络 网络层

架构师训练营第六周总结

烟雨濛濛

iOS - CollectionViewCell对应不同flow layout的实例

teoking

ios

实现TeX的算法:回首编程技术的过去三十年_后端_Sergio De Simone_InfoQ精选文章