前言

我们珍视但无法许诺自己能够达成这样的理想：我们对于“无用的知识”无拘无束的追求，将会在未来如同以往一样结出硕果。…… 一所能够解放人类灵魂的机构，无论其毕业生是否作出所谓“有用”的贡献，其正当性就已经得到保证。一首诗歌、一首交响曲、一幅画卷、一条数学真理、一个科学事实，它们自身就已经包含了大学、学院以及研究所科学研究中需要或者要求的所有正当性。 ——Abraham Flexner，《无用以为用》

我建议你尝试你力所能及最困难的课程，因为只有当你挑战自我的时候才能够学到最多的知识……另外，我觉得CS121这门课真的很难。 ——Mark Zukerberg，2005

这本书是针对本科生的计算理论入门课程。本课程的课程目标如下：

学生们能够了解，计算在任何自然或者人造的系统中都存在，不仅仅存在于硅基现代计算机当中；
类似地，我们要超越将计算理解为极其重要的“工具”的观念，进一步认识到——计算是描述自然、物理、数学甚至社会学概念的洞察工具；
学生们能够了解“普遍性”的观念以及编码和数据的对偶性观念；
学生们应该了解如何从数学上定义计算，并使用这样的工具去证明（有时仅仅是猜想）计算的下界以及不可能的结果。
学生们要了解一些在现代理论计算机科学中出人意料的结果和发现，包含NP完全性的普遍性、交互的力量、随机性以及去随机的力量、用计算“难度”保证优质的加密，以及量子计算的无限可能。

我希望通过上述课程，学生们能够认识到计算的能力与隐患。这是因为，在许多不同的背景下，例如宏定义和脚本等等看似“静态”和“有限制”的内容与形式，我们都需要讨论“计算”在其中表现出的性质。学生们应该能够理清计算证明的逻辑，包含归约的核心观点以及“自引用”的证明（例如对角化证明中，我们通过将其自身编码作为输入以导出矛盾）。学生们应该明白，某些问题是固有的难解决的，同时他们也应该能够在面对一个新问题的时候，识别其是否难以解决。尽管本书仅仅是短浅地涉猎密码学，学生们也应该了解我们在密码学中使用计算难度的目的。不论如何，本书不会局限于特定的技巧，而是要让学生们具有一种全新的思维——将计算本身视为独立的对象来审视与探究，并展示这种思维如何带来深远洞见与广泛应用。

我写作本书的目标是以最简单的方式阐明计算理论中的概念，并且尝试让规范的记号与模型的核心理念更加好理解而不是晦涩难懂。我同时尝试利用学生们在编程方面的经验，拉近学生们与计算理论之间的关系（至少让教学内容更加有趣！），因此我使用了（高度简化）的编程语言来描述我们的计算模型。话虽如此，本书并不假定你对于任何特定编程语言驾轻就熟，而只要求你对“编程”这一总体概念有基本的熟悉。我们常常使用编程中的一些比喻和习惯，偶尔会提及Python、C或者Lisp等具体语言，但即使对于这些语言不熟悉，学生们也能毫无障碍地理解相关描述。

本书中的证明，包含通用图灵机的存在性、有限值函数的电路可计算性、Cook-Levin定理以及其它许许多多的定理，通常都是构造性和算法性的，因为他们的最终目的都是将一个程序转换为另一个程序。尽管不看代码就阅读证明是完全可能的，我坚信保留代码资源，并且在各实际问题上实现它们并观察其表现对于学生具体地理解定理内容是更加有效的。为了达到这个目的，我们搭建了一个辅助的网站（仍在开发中）以允许学生们在我们定义的不同的计算模型上运行这些程序。与此同时，本网站也可以观看某些定理的构造性证明。

前言1 致学生们

这一本书可能相当具有挑战性，主要原因是这本书中将各种计算理论的观点和技术融合到了一起。其中一些技巧是比较难以掌握的，不论是通过对角线论证证明停机问题的不可判定性，还是在NP完全问题归约中使用的组合工具，抑或是分析概率算法，再或者是通过讨论对抗过程从而证明密码学基本构件的安全性。

阅读这本书的最佳方法是积极地去阅读笔记，所以说我建议你准备好你的笔。当你阅读这本书的时候，我鼓励你不时地停下来并思考如下地问题：

当我陈述一个定理的时候，停下来并用一点时间尝试在你阅读证明之前自己证明这个定理。在这短短五分钟的尝试以后，你将会为能更好地理解标准证明而感到惊喜。
当你在阅读定义的时候，一定要保证你完全理解了定义的含义，以及哪些自然的例子能够成为定义所描述的对象。此外，一定要去思考定义背后的动机，以及是否有其它自然的方式来形式化这些概念。
积极地注意你阅读过程中，脑中浮现出的问题，并且考虑他们是否在阅读文本的过程中得到了解答。

一个普遍的规则是，理解定义比理解定理更加重要，理解定理比理解证明更加重要。不论如何，在你证明定理之前，你一定要理解它到底陈述的是什么，一定要了解定理中对象所涉及的定义。不论证明如何复杂，我会提供证明定理的“证明想法”。你可以在第一次阅读的时候自由地跳过正式的证明，而单独把注意力放在“证明想法”上面。

本书包含了一部分代码片段，但这并不代表他们是编程文本。实际上，在阅读本书的时候，你不必知道如何进行编程。我们使用代码的原因，仅仅是为了更加精确地描述计算过程。实际的实现细节对于我们而言是不重要的，因此我们将会强调以更多考量换取代码可读性的重要性，例如错误处理、代码封装，等等，这些技巧对于我们实际的编程是非常重要的。

但是这些努力是否值得？

这并不是一本简单的书，你有理由思考自己为什么自己要花费这么多精力在学习这本书之上。一个对于计算理论课程的经典辩护是，你可能会在你未来的工作中遇到这些概念。你可能会遇到一个非常困难的问题，而后续你会意识到它是一个NP完全问题；又或者，你会在未来找到应用你所学到的正则表达式的地方。这可能是实话，但是这本书的主要功用并不是教给你任何实用的工具或者技能，而是给予你一种全新的思考方式：一种在计算问题出现时、穿破重重看似无关的设定识别它们的思想，一种建模计算任务和问题的思想，以及通过以上两个思想进行推理的能力。

无论你如何运用这本书，我都相信学习这本书是非常重要的。这是因为，它包含了许多非常优美且基本的概念。在本世纪，计算与信息扮演了能量和物质在上世纪的角色——作为我们理解世界的基石，而并不仅仅是作为我们科技和经济的工具。这本书将会让你简单了解这些理论背后的内容，并且希望能够激发各位读者进一步学习和了解更多知识的动力。

前言 2 致未来的授课教师们

这本书虽然是我为哈佛大学课程所作，但是我希望其它授课教师也认为它大有裨益。从某种意义上来讲，它与卡内基梅隆大学和麻省理工学院开设的“计算理论导论”和“伟大的想法”等课程的内容是类似的。

这本书所使用的教学方法与其它传统书籍（例如Hopcroft和Ullman于1969年出版的教材以及Sipser在1997年出版的教材）最显著的不同，在于本书将不会从有限自动机开始建立计算模型。相反，我们将会从布尔电路出发来建立这一切。我们相信，布尔电路才是计算理论中比自动机更加基本的内容。（甚至也是更加实用的！）更重要的是，布尔电路是许多只会在介绍现代理论计算机理论的课程中才会被提及的诸概念的前置概念。这些理论理论包括现代密码学、量子计算、去随机化理论、一些对于证明 $P \neq = NP$ 的尝试，等等等等。甚至，在某些并不必须使用布尔电路的情况下，布尔电路能够极大地简化这些问题（例如在证明Cook-Levin定理时）。

不仅如此，我认为以布尔电路而不是有限自动机作为起始，还有许多教学上的理由。布尔电路是更加自然的计算模型，其与硅基电路联系紧密，能够与学生们的实践直接产生关联。按理来说，有限值函数往往比无限值函数更容易掌握，因为我们完全可以将它的真值表直接写出。“任何一个有限值函数都可以被布尔函数计算”，这样的简单但是重要的定理可以作为课程的一个极好的起点。更进一步，许多计算理论中的观点，例如编码和数据之间对偶关系的观点、“普遍性”的观点等等，我们都可以从这一理论中体悟出来。

紧随布尔电路，我们将会进入图灵机的学习，并且证明一些重要的结果，例如通用图灵机的存在、停机问题的不可计算性以及Rice’s Theorem。我们将会在了解图灵机和不可判定性之后讨论自动机，并将其作为限制型计算模型的例子（这一类机器的停机问题可以被高效解决）。

尽管按照电路——图灵机——自动机的顺序来介绍并不是我们的初衷，这个顺序与这些模型的发现的时间顺序是恰好吻合的。布尔代数可以追溯到Boole和DeMorgan在19世纪40年代的工作（尽管布尔电路的严格定义由Shannon在90年之后才给出）。Alan Turing在20世纪30年代定义了我们现在所称呼的“图灵机”，而有限自动机在1943年才在McCulloch和Pitts的工作中被正式提出。并且，直到1959年Rabin和Scott发表了他们重要的工作以后，自动机才逐渐被人们所了解。

更重要的是，尽管诸如有限自动机、正则表达式以及上下文无关语法在工程中非常重要，这些模型能够得到重用（不论是用于语法解析、分析生命周期和安全性还是用于软件定义路由表）绝大部分都要归因于他们是可控制的模型，我们可以轻易地通过它们来回答一些语义上的问题。在学生了解了通用计算模型的语义性质的不可判定性，它们可能会对这些实际应用上的想法感到叹为观止。

从电路入门使得我们证明Cook-Levin Theorem非常方便。事实上，我们的证明可以被一些Python程序完成。通过将这个证明与标准的归约结合，学生们能够直观地欣赏计算理论中的问题是如何被转化为图中独立集的存在性问题的。

这里，我们列举出一些与过往文献的不同：

为了衡量时间复杂度，我们使用在算法课中使用过的标准的RAM机器模型（隐式的）而不是图灵机。尽管这两个模型毫无疑问是多项式等价的，且两个模型上复杂度类 $P$ 和 $NP$ 以及 $EXP$ 没有任何区别，我们的选择使得记号 $O (n)$ 和 $O (n^{2})$ 之间的区别更加有意义。这样的选择使得这些更加细致的复杂度类型对应上学生们在算法课上学到的关于线性和二次时间的非正式定义（或者是对于需要他们手写代码的面试环节有所好处）（译者注：面试环节通常需要面试者在白板上手写代码，并给出时间复杂度分析）。
我们使用“函数”而不是“语言”。这就是说，与其说“图灵机 $M$ 判定语言 $L \subseteq {0, 1}^{*}$ ”，我们说它“计算了一个布尔函数 $F : {0, 1}^{*} \to {0, 1}$ ”（译者注： ${0, 1}^{*}$ 表示任意长度的二进制串，或者说0-1串）。“语言”这一术语兴起于Chomsky的1956年的工作，但是往往令人迷惑。“语言”相关的术语同时也使得讨论有关计算有多比特输出的函数的算法相关的概念非常的低效（包含一些非常基本的任务，例如讨论加法、乘法，等等）。但是，使用函数而不是语言意味着我们必须格外警惕学生可能会把“计算任务的规范”（函数）和“该任务的实现”（程序）搞混。另一方面，我们必须重复向学生强调和并训练他们要牢记这一点，无论使用何种记号。但是与此同时，本书同样会时不时提及“语言”相关的术语，以便于学生在课外查找相关资料。

上面教学大纲对于有限自动机和上下文无关语言的减免使得授课教师们能够讲授更多在现代理论课程之前所需要了解的知识。它们包括：随机性和计算，程序和证明之间的交互（包含哥德尔不完备定理、交互式证明系统、甚至包含一些Lambda演算、Curry-Howard同构）、密码学以及量子计算。

这本书提供了足以进行自学的细节。为了达到这个目的，每一个章节的开头都会列举这个章节的学习目标，末尾则会进行总结和回顾，行文之间穿插着“停顿框”以鼓励学生们停下来并求解一个问题或者检查他们是否在继续学习之前完全明白了前文所述的定义。

“第0章”的第五节提供了本书的一个“地图”，概括性地描述了不同章节的大概内容，同时还阐述了他们之间的依赖关系。这对于课程的规划是非常有益的。

致谢

这段文字正在持续更新，我收到了许多人的反馈，对此我深怀感激。Salil Vadhan 与我共同教授了这门课程的最初版本，在此过程中给予了我大量宝贵的反馈与洞见。Michele Amoretti 和 Marika Swanberg 仔细审阅了本书的若干章节，并提供了极其详尽且有益的评论。Dave Evans 和 Richard Xu 提交了许多 pull request，修正错误并改进措辞。感谢 Anil Ada、Venkat Guruswami 和 Ryan O’Donnell 分享他们在教授 CMU 15-251 时的经验与建议。感谢 Adam Hesterberg 和 Madhu Sudan 就使用本书教授 CS 121 的经验提出意见。Kunal Marwaha 提供了诸多评论，并在本书的技术制作方面给予了极大帮助。

感谢所有通过 GitHub 仓库 https://github.com/boazbk/tcs 发送评论、报告错别字或提交 issue 与 pull request 的人。特别感谢以下人士的宝贵反馈：Scott Aaronson、Michele Amoretti、Aadi Bajpai、Marguerite Basta、Anindya Basu、Sam Benkelman、Jarosław Błasiok、Emily Chan、Christy Cheng、Michelle Chiang、Daniel Chiu、Chi-Ning Chou、Michael Colavita、Brenna Courtney、Rodrigo Daboin Sanchez、Robert Darley Waddilove、Anlan Du、Juan Esteller、David Evans、Michael Fine、Simon Fischer、Leor Fishman、Zaymon Foulds-Cook、William Fu、Kent Furuie、Piotr Galuszka、Carolyn Ge、Jason Giroux、Mark Goldstein、Alexander Golovnev、Sayan Goswami、Maxwell Grozovsky、Michael Haak、Rebecca Hao、Lucia Hoerr、Joosep Hook、Austin Houck、Thomas Huet、Emily Jia、Serdar Kaçka、Chan Kang、Nina Katz-Christy、Vidak Kazic、Joe Kerrigan、Eddie Kohler、Estefania Lahera、Allison Lee、Benjamin Lee、Ondřej Lengál、Raymond Lin、Emma Ling、Alex Lombardi、Lisa Lu、Kai Ma、Aditya Mahadevan、Kunal Marwaha、Christian May、Josh Mehr、Jacob Meyerson、Leon Mlodzian、George Moe、Todd Morrill、Glenn Moss、Haley Mulligan、Hamish Nicholson、Owen Niles、Sandip Nirmel、Sebastian Oberhoff、Thomas Orton、Joshua Pan、Pablo Parrilo、Juan Perdomo、Banks Pickett、Aaron Sachs、Abdelrhman Saleh、Brian Sapozhnikov、Anthony Scemama、Peter Schäfer、Josh Seides、Alaisha Sharma、Nathan Sheely、Haneul Shin、Noah Singer、Matthew Smedberg、Miguel Solano、Hikari Sorensen、David Steurer、Alec Sun、Amol Surati、Everett Sussman、Marika Swanberg、Garrett Tanzer、Eric Thomas、Sarah Turnill、Salil Vadhan、Patrick Watts、Jonah Weissman、Ryan Williams、Licheng Xu、Richard Xu、Wanqian Yang、Elizabeth Yeoh-Wang、Josh Zelinsky、Fred Zhang、Grace Zhang、Alex Zhao 与 Jessica Zhu。在本书的排版与制作过程中，我使用了许多开源软件包，对此我满怀感激。特别感谢 Donald Knuth 与 Leslie Lamport 创造了 LaTeX，以及 John MacFarlane 开发了 Pandoc。David Steurer 编写了最初用于生成此文本的脚本。当前版本使用了 Sergio Correia 的 panflute。LaTeX 与 HTML 模板源自 Tufte LaTeX、Gitbook 和 Bookdown。感谢 Amy Hendrickson 提供的 LaTeX 咨询。Juan Esteller 与 Gabe Montague 最初用 OCaml 与 JavaScript 实现了 NAND* 编程语言。我使用 Jupyter 项目编写了补充代码片段。

最后，我要感谢我的家人：我的妻子 Ravit，以及我的孩子 Alma 与 Goren。撰写本书（以及相应的课程）占用了我大量时间，以至于 Alma 在她的五年级作文中写道：“大学不应当逼迫教授过度工作。”遗憾的是，我所能展示的成果，似乎只是 600 页极度枯燥的数学文字。

❗页面施工中: 目前状态: 创建教程中.

要求:

✅将所有numthm环境用灰色admonish(quote)框起.
✅标点符号统一为英文.
✅使用添加对文内特定位置的超链接.
✅使用添加引用.

⬛️重要概念框.

格式统一教程: 标题

原文存在一些对章节标题id的引用, 如([如](#templatetitle)). 这些统一替换成对章节文件名的引用([引用](chapter_x.md))

随机引的名人名言, 用quote括起 – 译者, 2025

学习目标

此处填写学习目标
一些目标
二些目标
三些目标

x.1 小节: 右侧花括号添加 #id 即可用于引用

渲染时看不到上面说的花括号, 实际语句是: ## x.1 小节: 右侧花括号添加 #id 即可用于引用 { #templatesection }
quote 可以带标题, 遵照原文即可. 当原文需要引用的时候, 就使用 quote.

如何解形如’平方与根的和等于某数’的方程

举例来说: “一个平方加上它的十倍平方根等于三十九迪拉姆. “ 换句话说, 求这样一个平方数: 它加上它自身的十倍平方根, 结果是三十九.

解法如下:
(见Chapter 3)

因此, 这个平方根为三, 对应的平方为九.

代码块照常写即可.

# 使用 Python 的 sqrt 函数来计算平方根
def solve_eq(b, c):
    # 根据 al-Khwarizmi 的方法求解 x^2 + b*x = c
    blablabla()
# 测试: 求解 x^2 + 10*x = 39
print(solve_eq(10, 39))

出现在公式中的函数名全部应该用 \text 框起, 如 $XOR$ ( $\text{XOR}$ ). 如果发现某个名字经常出现, 应该将其添加进./makros.txt. 如与( $AND),$ 或( $OR),$ 非( $NOT) .$ ( $\AND, \OR, \NOT$ )
example 环境的示例. 注意其中嵌套了代码, 所以使用了~~~ 取代 ```. admonish的title中如果需要使用公式, 反斜杠需要重复三次. 例如下方的标题就出现了 $\\\text{MAJ}$ .

例: 用 $AND,$ $OR$ 和 $NOT$ 写出多数函数 $MAJ$

考虑函数 $MAJ : {0, 1}^{3} \to {0, 1},$ 其定义如下:

(…)

我们也可以将公式 (3.1) 以“编程语言“的形式表示: 将其表达为一组指令, 用于在给定基本操作 $AND, OR, NOT$ 的情况下计算 $MAJ :$

def MAJ(X[0],X[1],X[2]):
    firstpair  = AND(X[0],X[1])
    secondpair = AND(X[1],X[2])
    thirdpair  = AND(X[0],X[2])
    temp       = OR(secondpair,thirdpair)
    return OR(firstpair,temp)

公式的引用: 在行间公式中添加 [{numeq}]{id}, 例如: $foo \to bar (1)$ 然后就可以直接引用: (1) ([{eqref: templatenumeq}])(为防止替换, 这里最外层的花括号替换成了方括号.)

x.1.1 依然是小节名示例. 小节名总是可以添加id.

所有 preprocessor numthm 引入的定理/例子/命题环境都需要套一个 admonish quote, 以和正文分隔开. book.toml中可以自定义这些环境. 已经定义了一些“常用缩写+c“为名的中文环境. 例如:

引理 1. 对于每个 $a, b \in {0, 1},$ 在输入 $a, b$ 时, 算法 3.1 输出 $a + b mod 2.$

练习 1 ( $AND$ 与 $OR$ 满足分配律). 证明: 对于任意 $a, b, c \in {0, 1},$ 都有 $a \land (b \lor c) = (a \land b) \lor (a \land c) .$

定义 1 (使用AON-CIRC程序计算一个函数). 设 $f : {0, 1}^{n} \to {0, 1}^{m},$ 且 $P$ 为一个具有 $n$ 个输入和 $m$ 个输出的有效 AON-CIRC 程序.
如果对于每个 $x \in {0, 1}^{n}$ 都有 $P (x) = f (x),$ 则称 $P$ 计算函数 $f$ .

numthm 的引用方式: 引理 1 ([{ref: templatelem}]) (为防止替换, 这里最外层的花括号替换成了方括号.)
小练习对应的 admonish solution 以及证明对应的 admonish proof 应该是 collapsible 的. 如:

解答

我们可以通过枚举 $a, b, c \in {0, 1}$ 的所有 $8$ 种可能取值来证明这一点, 但它也可以直接从标准的分配律推导出来.

假设我们将任意正整数视为“真“, 将零视为“假“. 那么对于每个数 $u, v \in N,$ $u + v$ 为正当且仅当 $u \lor v$ 为真, 而 $u \cdot v$ 为正当且仅当 $u \land v$ 为真.

这意味着对于每个 $a, b, c \in {0, 1},$ 表达式 $a \land (b \lor c)$ 为真当且仅当 $a \cdot (b + c)$ 为正, 而表达式 $(a \land b) \lor (a \land c)$ 为真当且仅当 $a \cdot b + a \cdot c$ 为正.

根据标准的分配律 $a \cdot (b + c) = a \cdot b + a \cdot c,$ 因此前者表达式为真当且仅当后者表达式为真.

对[{ref:id}]的证明

对于任意 $a, b,$ 有 $XOR (a, b) = 1$ 当且仅当 $a$ 与 $b$ 不同. 令 $w 1 = AND (a, b),$ $w 2 = NOT (AND (a, b)),$ $w 3 = OR (a, b) .$ 则在输入 $a, b \in {0, 1}$ 时, 算法 3.1 输出
$AND (w 2, w 3)$

如果 $a = b = 0,$ 则 $w 3 = OR (a, b) = 0,$ 因此输出为 $0.$
如果 $a = b = 1,$ 则 $AND (a, b) = 1,$ 所以 $w 2 = NOT (AND (a, b)) = 0,$ 输出为 $0.$
如果 $a = 1$ 且 $b = 0$ (或反之) , 则 $w 3 = OR (a, b) = 1$ 且 $w 1 = AND (a, b) = 0,$ 此时算法输出
$AND (NOT (w 1), w 3) = 1.$

原文的 pause 也有对应的 admonish:

暂停一下

像往常一样, 一个很好的练习是在继续阅读之前, 先尝试自己用 $AND$ 、 $OR$ 和 $NOT$ 算法推导出 $XOR$ 的实现方法.

算法的写法, 以下是一个例子:

算法 1 (用 $AND,$ $OR$ 与 $NOT$ 计算 $XOR$ ).

$Input : a, b \in {0, 1} Output : XOR (a, b) Step1 : w_{1} \leftarrow AND (a, b) Step2 : w_{2} \leftarrow NOT (w_{1}) Step3 : w_{3} \leftarrow OR (a, b) Step4 : return AND (w_{2}, w_{3})$

当然, 与图片一样, 也可以使用llm帮助转换.

依照示例, 将以下格式的算法转换为tex格式:
Input: $a,b \in \{0,1\}.$
Output: $XOR(a,b)$

$w1 \leftarrow AND(a,b)$

$w2 \leftarrow NOT(w1)$

$w3 \leftarrow OR(a,b)$

return $AND(w2,w3)$
转换为
$
  \begin{array}{l}
  \mathbf{Input:}\ a,b \in \{0,1\} \\
  \mathbf{Output:}\ \XOR(a,b) \\
  \hline
  \mathbf{Step 1:}\ w_1 \leftarrow \AND(a,b) \\
  \mathbf{Step 2:}\ w_2 \leftarrow \NOT(w_1) \\
  \mathbf{Step 3:}\ w_3 \leftarrow\OR(a,b) \\
  \mathbf{Step 4: return}\ \AND(w_2,w_3)
  \end{array}
$
我将提供其它类似格式的算法输入.

脚注的例子 ¹ ([{footnote: 这是一条脚注}]). 最外层的方括号替换为花括号, 文中出现脚注时需要使用.
正文结束后, 用 admonish hint 写回顾

回顾

算法是通过一系列“基本“或“简单“操作来执行计算的步骤或配方.
…

x.2 小节: 各类环境使用方式汇总

x.2.1 admonish

插入图片: 用pic环境框起, 再付一个numthm的pic编号环境. 源码:

```admonish pic id = '图片id'
![图片alt](图片地址)
    <-- 这里的空行不能省
[{pic}] 图片描述    <-- 外层花括号改为方括号, 和描述之间的空格不能省
```

效果如下, 引用可直接使用pic id:

templateimage

图 1. 这是图片描述.

插入图片的格式可以设计prompt交给llm处理. 下面给一个例子

请根据以下例子转换插入图片的格式:
![1959 至 1965 年间集成电路中的晶体管数量，并预测指数级增长至少能持续十年。取自戈登·摩尔 1965 年的文章 *Cramming More Components onto Integrated Circuits*。](./images/chapter3/gordon_moore.png){#moorefig .margin}  
转换为
```admonish pic id = "moorefig"
![moorefig](./images/chapter3/gordon_moore.png)

[{pic}] 1959 至 1965 年间集成电路中的晶体管数量，并预测指数级增长至少能持续十年。取自戈登·摩尔 1965 年的文章 *Cramming More Components onto Integrated Circuits*。
```
我将提供其它相同格式的代码, 输出请装在代码块内: 要再套一层代码块, 而不是使用已有的.

原文出现的 Big Idea(重要启示):

重要启示

此处填写IDEA.

习题

习题的专有 numthm 环境是 proc. 例如:

习题 1 (比较 $4$ bit 数字). 给出一个布尔电路 (使用 $AND / OR / NOT$ 门) , 该电路计算函数 $CMP_{8} : {0, 1}^{8} \to {0, 1},$ 使得当且仅当由 $a_{0} a_{1} a_{2} a_{3}$ 表示的数大于由 $b_{0} b_{1} b_{2} b_{3}$ 表示的数时, $CMP_{8} (a_{0}, a_{1}, a_{2}, a_{3}, b_{0}, b_{1}, b_{2}, b_{3}) = 1.$

依然可以先翻译习题(和标题), 再用llm调整格式, 以下是可用的prompt.

改变以下我输入的习题框的格式: 例如
::: {.exercise title="比较 $4$bit 数字" #comparenumbersex}

给出一个布尔电路（使用 $\AND/\OR/\NOT$ 门），该电路计算函数 $ \text{CMP}_8:\{0,1\}^8 \rightarrow \{0,1\}$，使得当且仅当由 $a_0a_1a_2a_3$ 表示的数大于由 $b_0b_1b_2b_3$ 表示的数时，$ \text{CMP}_8(a_0,a_1,a_2,a_3,b_0,b_1,b_2,b_3)=1$。
:::
改为

[{proc}]{comparenumbersex}[比较 $4$bit 数字]
给出一个布尔电路（使用 $\AND/\OR/\NOT$ 门），该电路计算函数 $ \text{CMP}_8:\{0,1\}^8 \rightarrow \{0,1\}$，使得当且仅当由 $a_0a_1a_2a_3$ 表示的数大于由 $b_0b_1b_2b_3$ 表示的数时，$ \text{CMP}_8(a_0,a_1,a_2,a_3,b_0,b_1,b_2,b_3)=1$。
接下来我将提供输入.

注意上面proc的方括号要改掉.

杂记

杂记需要修复对文献的引用. 使用 <a> 编写引用.

未完成章节中的引用:

以下是未完成的章节中的引用

未完成引用 1.

1: 这是一条脚注

引言

引言

学习目标

介绍并激发对“计算“本身的研究兴趣, 而不局限于具体的实现方式.
了解算法(Algorithm)这一概念及其发展历程.
算法不只是一种工具, 更是一种思考和理解的方式.
领略大O分析法(Big- $O$ analysis)和高效算法设计中蕴含的惊人创造力.

Quote

“计算机科学并非仅与计算机有关, 正如天文学并非仅于望远镜有关. “

—Edsger Dijkstra

Quote

“黑客需要了解计算中的理论, 正如画家需要了解颜料中的化学一样. “

—Paul Graham, 2003年

Quote

“我的演讲主题或许可以通过提出两个简单的问题来最直接地揭示: 首先, 乘法是否比加法更难? 其次, 为什么? …….我(想)证明, 在计算上, 没有跟加法一样简单的乘法算法, 这证明了一些理论上的绊脚石的存在. “

—Alan Cobham, 1964年

位值数字系统(place-value number system)古巴比伦人最大的发明之一. 在位值数字系统中, 数字(number)被表示为一串数位(digit)序列, 其中每个数位的位置决定了其数值.

这与类似罗马数字的系统刚好相反, 在罗马数字中, 每个数位无论其在数字中的位置如何, 均有一个不变的值. 举个例子, 地球到月球的平均距离大概是259956罗马英里. 在标准罗马数字中, 这个数字的表示为:

MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
MMMMMMMMMMMMMMMMMMMDCCCCLVI

使用罗马数字表示地球到太阳的距离需要大概100000个符号, 而我们需要一本50页的书来书写这一个数字!

对于那些习惯于像罗马数字那样以加法系统来思考数字的人来说, 诸如地球到月球距离的这种数字不仅仅是大—它们无法形容: 这些数字不能被有效地表达甚至是理解. 这也难怪第一个计算地球直径的埃拉托色尼(计算误差约为10%), 和第一个计算地球与月球之间距离的喜帕恰斯使用了古巴比伦的六十进制位值数字系统, 而不是使用罗马数字系统.

0.1 整数的乘法: 一个算法示例

在计算机科学的语言中, 这种用于表示数字的位值系统是一种数据结构(data structure), 数据结构是一组用于将对象表示为符号的指令或“配方“. 而算法(algorithm)则是在此类表示形式上执行操作的一组指令或“配方“. 数据结构与算法不仅催生了改变人类社会的惊人应用, 其重要性更远超实用价值. 比特(bit)、字符串(string)、图(graph), 乃至程序本身等计算机科学体系中的数据结构, 以及普适性、复制等概念, 不仅被广泛应用于实践领域, 更催生了一种全新的语言和审视世界的方式.

除了位值数字系统, 古巴比伦人还发明了我们在小学中都学过的加法和乘法的“标准算法“. 这些算法在漫长的历史中始终至关重要, 无论是使用算盘、莎草纸还是纸笔计算的人们均受惠于此, 但在计算机的时代, 除了折磨小学三年级学生之外, 这些算法是否还有存在的价值? 为了说明这些算法为何至今仍具有重要意义, 让我们将古巴比伦人的逐位相乘算法(即“小学乘法“)与通过重复相加实现的朴素乘法算法进行对比. 我们首先正式描述这两种算法, 详见算法 1和算法 2:

算法 1 (通过重复相加实现的乘法算法). $输入 : 非负整数 x, y 输出 : 乘积 x \cdot y Let result \leftarrow 0 for {i = 1, \dots, y} result \leftarrow result + x endfor return result$

算法 2 (小学乘法). $输入 : 非负整数 x, y 输出 : 乘积 x \cdot y 将 x = x_{n - 1} x_{n - 2} \dots x_{0} 与 y = y_{m - 1} y_{m - 2} \dots y_{0} 写做十进制数 x_{0} 是 x 个位上的数, x_{1} 是 x 十位上的数, 依此类推 . Let result \leftarrow 0 for {i = 1, \dots, n - 1} for {j = 1, \dots, m - 1} result \leftarrow result + 1 0^{i + j} \cdot x_{i} \cdot y_{j} endfor endfor return result$

算法 6.1和算法 2均假定我们已经掌握了数字相加的方法, 而算法 2还假定我们能够将数字与10的幂相乘(毕竟这只相当于一次简单的移位). 假设 $x$ 和 $y$ 是两个 $n = 20$ 位的十进制整数(这大致相当于64位二进制数, 也是许多编程语言中常见的类型). 使用算法 6.1计算 $x \cdot y$ 需要将 $x$ 自身相加 $y$ 次. 由于 $y$ 有20位, 这意味着我们需要至少进行 $1 0^{19}$ 次加法运算. 相比之下, 算法 2仅需 $n^{2}$ 次移位和单位数字的乘法运算, 因此最多仅需 $2 n^{2} = 800$ 次单位数字的操作. 为了理解这种差异, 假设一个小学生完成单位数字的操作需要2秒, 那么使用算法 2计算 $x \cdot y$ 需要约1600秒(约半小时). 反之, 即使现代计算机的运算速度比人类快十亿倍以上, 若采用算法 6.1进行计算, 则需要 $1 0^{20} /1 0^{9} = 1 0^{11}$ 秒(超过3000年! )才能得到相同的结果.

计算机从未使算法过时. 恰恰相反, 随着人类测量、存储和传输数据的能力的大幅提升, 我们比以往更需要开发精密而高效的算法, 从而基于数据洪流做出更明智的决策. 我们也不难发现: 算法的概念在很大程度上独立于实际执行计算操作的设备. 无论是硅基芯片还是借助纸笔计算的小学三年级学生, 逐位相乘的算法都远胜于重复累加法.

理论计算机科学专注于研究算法和计算的内在属性—即那些独立于现有技术而存在的本质特征. 我们既探讨古巴比伦人早已思索过的问题(比如“什么是两数相乘的最优方法“), 也研究依赖前沿科技的课题(例如“能否利用量子纠缠效应实现更快速的因数分解“).

Info

备注 1 (算法的规范, 实现和分析). 一个算法的完整描述包括三个部分:

规范(specification): 算法完成了什么任务, 即做了什么(例如, 算法 6.1和算法 2进行的乘法).
实现(implementation): 如何完成算法的任务, 即如何做. 即使算法 6.1与算法 2完成的是同样的两数相乘的乘法, 它们的实现方式并不相同(即两个算法具有不同的实现).
分析(analysis): 为什么组成算法的这一系列指令能够完成它的任务. 一个对于算法 6.1和算法 2的完整描述包含一个证明, 证明这两个算法在接受到输入 $x, y$ 的时候的确会输出两数的乘积 $x \cdot y .$

一般来说, 算法的分析不仅会包含对算法的正确性分析, 还会包含对算法高效性的分析. 也就是说, 我们不仅想证明算法完成了预计的任务, 而且会在规定的次数内完成. 比如说, 算法 2使用了 $O (n^{2})$ 次操作完成了对 $n$ 位数字的乘法, 而算法 3(在下一节中介绍)使用了 $O (n^{1.6})$ 次操作完成了同样的操作(我们会在[第1.4.8节]{chapter_1.md#secbigohnotation}中定义大 $O$ 表示法)

0.2 扩展示例: 一种更快的乘法方法(可选)

一旦你想到标准的逐位相乘乘法, 它似乎是“显然最优“的数字相乘方式. 1960年, 著名数学家安德雷·柯尔莫哥洛夫(Andrey Kolmogorov)在莫斯科国立大学组织了一场研讨会, 他在会上提出猜想: 任何两个 $n$ 位数相乘的算法都需要执行与 $n^{2}$ 成正比的基本操作次数(用第一章定义的大 $O$ 符号表示为 $Ω (n^{2})$ 次操作). 换言之, 柯尔莫哥洛夫认为在任何乘法算法中, 相乘的数字位数翻倍会导致所需基本操作次数变为四倍. 当时听众中有一位名叫阿纳托利·卡拉楚巴(Anatoly Karatsuba), 他在一周内就推翻了柯尔莫哥洛夫的猜想—他发现了一种仅需 $C n^{1.6}$ 次操作( $C$ 为常数)的算法. 随着 $n$ 增大, 这个数字会远小于 $n^{2},$ 因此对于大数而言, 卡拉楚巴算法优于小学算法. (例如Python在处理1000比特及以上的数字时, 会从小学算法切换至卡拉楚巴算法. )虽然 $O (n^{1.6})$ 与 $O (n^{2})$ 算法之间的差异有时在实践中至关重要(参见下文的0.3节), 但本书将基本忽略这类区别. 不过我们仍会在下文介绍卡拉楚巴算法, 因为它完美展现了算法往往出人意料的特性, 同时也体现了算法分析的重要性—这正是本书乃至整个理论计算机科学的核心所在.

卡拉楚巴算法基于一种两位数字之间的更快的相乘算法. 假设 $x, y \in [100] = {0, \dots, 99}$ 是一对两位数字. 我们使用 $\overline{x}$ 表示 $x$ 的十位上数字, $\underline{x}$ 表示个位上的数字, 所以 $x$ 可以表示为 $x = 10 \overline{x} + \underline{x},$ $y$ 亦可写成 $y = 10 \overline{y} + \underline{y},$ 这里 $\overline{x}, \underline{x}, \overline{y}, \underline{y} \in [10] .$ 图 1展示了两位数字的小学乘法.

gradeschoolmultfig

图 1. 小学乘法示例, 演示如何计算 $x = 10 \overline{x} + \underline{x}$ 与 $y = 10 \overline{y} + \underline{y}$ 的乘积. 其使用的公式为: $(10 \overline{x} + \underline{x}) \times (10 \overline{y} + \underline{y}) = 100 \overline{x} \overline{y} + 10 (\overline{x} \underline{y} + \underline{x} + \overline{y}) + \underline{x} \underline{y}$

小学乘法的算法可以看作一个将两位数字相乘的任务转化为四个单位数字相乘的过程:

$(10 \overline{x} + \underline{x}) \times (10 \overline{y} + \underline{y}) = 100 \overline{x} \overline{y} + 10 (\overline{x} \underline{y} + \underline{x} + \overline{y}) + \underline{x} \underline{y} (1)$

通常, 在小学算法中, 输入数字位数翻倍会导致操作次数变为原来的四倍, 从而形成 $O (n^{2})$ 时间复杂度的算法. 相比之下, 卡拉楚巴算法基于这样一个观察: 我们同样可以将(1)表示为:

$(10 \overline{x} + \underline{x}) \times (10 \overline{y} + \underline{y}) = (100 - 10) \overline{x} \overline{y} + 10 [(\overline{x} + \underline{x}) (\overline{y} + \underline{y})] - (10 - 1) \underline{x} \underline{y}$

这将两位数字 $x, y$ 的乘法简化为了以下三个更简单的乘积计算: $\overline{x} \overline{y}$ 、 $\underline{x} \underline{y}$ 以及 $(\overline{x} + \underline{x}) (\overline{y} + \underline{y}) .$ 通过递归地重复相同策略, 我们可以将两个 $n$ 位数相乘的任务简化为三对 $⌊ n /2 ⌋ + 1$ 位数相乘的任务. 由于每当数字位数翻倍时, 操作次数会变为三倍, 因此当 $n = 2^{l}$ 时, 我们可以使用约 $3^{l} = n^{l o g_{2} 3} \sim n^{1.585}$ 次操作完成乘法运算.

上述内容是卡拉楚巴算法背后的直观思想, 但尚不足以完整描述该算法. 一个算法的完整描述需要包含其操作步骤的精确说明以及算法分析: 即证明该算法确实能实现预设任务. 卡拉楚巴算法的具体操作步骤见算法 3, 其数学分析则包含在引理 1和引理 2中.

karatsubatwodigitfig

图 2. 卡拉楚巴乘法算法示例, 演示如何计算 $x = 10 \overline{x} + \underline{x}$ 与 $y = 10 \overline{y} + \underline{y}$ 的乘积. 我们先计算橙色、绿色和紫色三项乘积 $\underline{x} \underline{y}$ 、 $\overline{x} \overline{y}$ 及 $(\overline{x} + \underline{x}) (\overline{y} + \underline{y}),$ 再通过加减运算得到最终结果

karastubavsgschoolv2fig

图 3. 卡拉楚巴算法与小学算法的运行时间对比(在线提供Python实现). 需注意存在“分界长度“: 当输入规模足够大时, 卡拉楚巴算法会变得比小学算法更高效. 具体分界点因实现方式和平台细节而异, 但最终必然会出现

算法 3 (卡拉楚巴乘法算法). $输入 : 非负整数 x, y, 每个数字最多有 n 位输出 : x \cdot y Procedure Karatsuba (x, y) if {n \leq 4} return x \cdot y Let m = ⌊ n /2 ⌋ 将 x, y 分别写做 x = 1 0^{m} \overline{x} + \underline{x}, y = 1 0^{m} \overline{y} + \underline{y} A \leftarrow Karatsuba (\overline{x}, \overline{y}) B \leftarrow Karatsuba (\overline{x} + \underline{x}, \overline{y} + \underline{y}) C \leftarrow Karatsuba (\underline{x}, \underline{y}) return (1 0^{n} - 1 0^{m}) \cdot A + 1 0^{m} \cdot B + (1 - 1 0^{m}) \cdot C endproc$

算法 3只是卡拉楚巴算法完整描述的一半, 另一半是算法的分析, 即证明(1)算法 3确实完成了乘法的计算以及(2)它确实使用了 $O (n^{l o g_{2} 3})$ 步操作来完成计算. 我们首先从证明(1)开始:

引理 1 (卡拉楚巴算法的正确性).

对于任意的两个非负整数 $x, y,$ 当输入 $x, y$ 时, 算法 3的输出为 $x \cdot y .$

对引理 1的证明

令 $n$ 为 $x, y$ 位数的最大值. 我们通过对 $n$ 的归纳来证明引理 1. 基本情况是当 $n \leq 4$ 时, 根据定义, 算法直接返回 $x \cdot y$ (具体采用何种算法计算四位数乘法并不重要—甚至可以使用重复相加法). 当 $n > 4$ 时, 令 $m = ⌊ n /2 ⌋,$ 并将 $x$ 和 $y$ 表示为 $1 0^{m} \overline{x} + \underline{x}$ 和 $1 0^{m} \overline{y} + \underline{y} .$

代入 $x \cdot y$ 可得:

$x \cdot y = 1 0^{2 m} \overline{x} \overline{y} + 1 0^{m} (\overline{x} \underline{y} + \underline{x} \overline{y}) + \underline{x} \underline{y} (2)$ 整理上式有: $x \cdot y = 1 0^{2 m} \overline{x} \overline{y} + 1 0^{m} [(\overline{x} + \underline{x}) (\overline{y} + \underline{y}) - \underline{x} \underline{y} - \overline{x} \overline{y}] + \underline{x} \underline{y} (3)$

由于 $\underline{x}, \overline{x}, \underline{y}, \overline{y}, \overline{x} + \underline{x}, \overline{y} + \underline{y}$ 这些数的位数最多为 $m + 2 < n,$ 根据归纳假设, 递归调用计算得到的值 $A, B, C$ 满足 $A = \overline{x} \overline{y},$ $B = (\overline{x} + \underline{x}) (\overline{y} + \underline{y}),$ $C = \underline{x} \underline{y} .$ 将其带入(3)可知, $x \cdot y$ 的值等于算法 3计算的 $(1 0^{2 m} - 1 0^{m}) \cdot A + 1 0^{m} \cdot B + (1 - 1 0^{m}) \cdot C .$

引理 2 (卡拉楚巴算法的时间复杂度).

假设输入 $x, y$ 为最多有 $n$ 位的整数, 算法 3将会用 $O (n^{l o g_{2} 3})$ 次操作来进行计算.

对引理 2的证明

图 2展示了证明的核心思路, 此处我们只做概要说明, 完整的证明留作习题0.4. 本次证明同样采用归纳法: 定义 $T (n)$ 为算法 3在处理长度不超过 $n$ 的输入时所需的最大执行步数. 当基本情况即 $n \leq 4$ 时, 算法 3¹只需执行常数次计算, 因此存在常数 $c$ 使得 $T (4) \leq c;$ 而当 $n > 4$ 时, 递归关系满足不等式

$T (n) \leq 3 T (⌊ n /2 ⌋ + 1) + c^{'} n (4)$ 其中 $c^{'}$ 为常数(基于加法运算可在 $O (n)$ 时间内完成的事实).

递归不等式(4)的解为 $O (n^{l o g_{2} 3}) .$ 图2直观展示了该复杂度形成的原理, 这也是所谓“主定理“关于递归关系的推论. 如前文所述, 我们将完整证明留作习题0.4.

karatsuba_analysis2fig

图 4. 卡拉楚巴算法将 $n$ 位乘法分解为三个 $n /2$ 位乘法, 这些乘法又可继续分解为九个 $n /4$ 位乘法, 依此类推. 我们可用深度为 $lo g_{2} n$ 的三叉树表示所有乘法的计算成本: 根节点处额外成本为 $c n$ 次操作, 第一层额外成本为 $c (n /2)$ 次操作, 第 $i$ 层每个节点的额外成本为 $c (n / 2^{i})$ (该层共有 $3^{i}$ 个节点). 根据几何级数求和公式, 总成本为 $c n \sum_{i = 0}^{l o g_{2} n} (3/2)^{i} \leq 10 c n lo g_{2} 3$

卡拉楚巴算法远非乘法算法的终点. 20世纪60年代, 图姆(Toom)和库克(Cook)扩展了卡拉楚巴的思想, 提出了时间复杂度为 $O (n lo g k (2 k - 1))$ ( $k$ 为常数)的乘法算法. 1971年, 舍恩哈格(Schönhage)和施特拉森(Strassen)利用快速傅里叶变换实现了更优的算法——其核心思想是将整数视为“信号“, 通过转换到傅里叶域来更高效地完成乘法运算(傅里叶变换是数学和工程学的核心工具, 应用极其广泛; 若您尚未接触过, 很可能在后续学习中会遇到). 此后多年间, 研究者们不断改进算法, 直到最近哈维(Harvery)和范德霍芬(Van Der Hoeven)才成功实现了时间复杂度为 $O (n lo g n)$ 的乘法算法(不过该算法仅在处理真正天文级别的数字时才开始超越舍恩哈格-施特拉森算法). 然而, 尽管取得了这些进展, 我们至今仍未知晓是否存在能在 $O (n)$ 时间内完成两个 $n$ 位数乘法的算法!

Info

备注 2 (矩阵乘法(进阶笔记)).

本书包含许多“进阶“或“选读“的注释与章节. 这些内容可能需要学生具备特定基础知识方可理解, 但均可放心跳过, 因为后续章节均不依赖这些内容. )

与卡拉楚巴算法相似的思路也可用于加速矩阵乘法运算. 矩阵是表示线性方程与线性运算的强大工具, 被广泛应用于科学计算、图形学、机器学习等众多领域.

矩阵的基本运算之一便是矩阵乘法. 例如若有矩阵 $x = (x_{0, 0} x_{1, 0} x_{0, 1} x_{1, 1})$ 和 $y = (y_{0, 0} y_{1, 0} y_{0, 1} y_{1, 1}),$ 则其乘积为 $(x_{0, 0} y_{0, 0} + x_{0, 1} y_{1, 0} x_{1, 0} y_{0, 0} + x_{1, 1} y_{1, 0} x_{0, 0} y_{0, 1} + x_{0, 1} y_{1, 1} x_{1, 0} y_{0, 1} + x_{1, 1} y_{1, 1}),$ 可见该乘积可以通过8次数值乘法来计算.

现假设 $n$ 为偶数, $x$ 和 $y$ 为一对 $n \times n$ 的矩阵, $x$ 与 $y$ 均可被划分为四个 $(n /2) \times (n /2)$ 的块: $x_{0, 0}, x_{0, 1}, x_{1, 0}, x_{1, 1}$ 和 $y_{0, 0}, y_{0, 1}, y_{1, 0}, y_{1, 1} .$ 此时 $x, y$ 的矩阵乘积的表示与上述公式完全一致, 只需将数值的乘积 $x_{a, b} y_{c, d}$ 替换为对应的矩阵乘积, 数值加法替换为对应的矩阵加法即可. 这意味着我们可以通过使用上述公式来给出一个算法, 该算法在输入矩阵维度倍增的同时, 所需的操作数量提升为原来的8倍—即当 $n = 2^{l}$ 时, 总操作量将达到 $8^{l} = n^{3}$ 次.

1969年, 福尔克·施特拉森(Volker Strassen)提出通过对以下七项进行加减运算, 即可仅用7次数值乘法完成二维矩阵求积: $t_{1} = (x_{1, 0} + x_{1, 1}) (y_{0, 0} + y_{1, 1}),$ $t_{2} = (x_{0, 0} + x_{1, 1}) y_{0, 0},$ $t_{3} = x_{0, 0} (y_{0, 1} - y_{1, 1}),$ $t_{4} = x_{1, 1} (y_{0, 1} - y_{0, 0}),$ $t_{5} = (x_{0, 0} + x_{0, 1}) y_{1, 1},$ $t_{6} = (x_{1, 0} - x_{0, 0}) (y_{1, 0} + y_{0, 1}),$ $t_{7} = (x_{0, 1} - x_{1, 1}) (y_{1, 0} + y_{1, 1}) .$ 可验证其满足: $x y = (t_{1} + t_{4} - t_{5} + t_{7} t_{2} + t_{4} t_{3} + t_{5} t_{1} + t_{3} - t_{2} + t_{6}) .$

基于这一发现, 我们可以获得一个算法, 使得矩阵维度倍增时运输量仅增加至7倍. 这意味着当 $n = 2^{l}$ 时, 总计算成本为 $7^{l} = n^{l o g_{2} 7} \sim n^{2.807} .$ 经过一系列后续研究改进, 当前最优算法的时间复杂度已达约 $O (n^{2.373}) .$ 然而与整数乘法不同的是, 目前我们尚未发现能在线性或近似线性时间内(例如 $O (n^{2} polylog (n)))$ 完成矩阵乘法的算法. 尽管研究者们尝试运用群表示理论(可视为傅里叶变换的推广)来寻求更快的算法, 但至今为止此项努力尚未取得成功.

0.3 超越算术的算法

对更优算法的探索绝非仅限于加法、乘法或解方程等算术任务. 在过去的数十年间, 图论算法领域涌现出大量突破性成果—包括路径搜索、匹配、生成树、割集和流算法在内的多项发现, 这一领域至今仍是密集研究的重点领域(例如近年来基于电路理论与线性方程求解器之间的意外关联产生了诸多最大流问题上的进展. )这些算法不止被应用于网络流量路由、GPS导航等“天然“应用场景, 更广泛渗透于基因交互图谱结构促进新药研发、投资关联风险计算等多元化领域.

谷歌公司的成立基石是PageRank算法—该算法能够高效地近似计算网络图邻接矩阵(经阻尼处理过后的)的“主特征向量(principle eigenvector)“. Akamai公司的诞生则依托于创新数据结构“一致性哈希”, 该数据结构能够实现哈希桶在多服务器之间的分布式存储. 反向传播算法(backpropagation algorithm)通过将神经网络偏导数计算复杂度从 $O (n^{2})$ 降至 $O (n),$ 成为深度神经网络近年取得惊人成就的核心支柱. 而基于稀疏约束线性方程求解的压缩感知(compressed sensing)算法, 显著降低了MRI图像分析对数据量和质量的要求, 这一突破对于儿童肿瘤MRI检测具有革命性意义—此前医生需实施麻醉暂停患儿呼吸进行扫描, 此过程常常伴随致命风险.

即便对于毕达哥拉斯时代就开始研究的素数判定这类经典问题, 仍有不断的新发现涌现: 高效的概率算法于1970年代问世, 首个确定性多项式时间算法直至2002年才被发现. 在合数分解这个领域, 1980年代诞生了新算法, 而1990年代的研究成果(本课程后续将继续探讨)更揭示了利用量子力学实现加速算法的诱人前景.

尽管取得诸多进展, 算法领域仍存在悬而未解之谜. 对于大多数自然问题, 我们既无法断定现有算法是否已达到最优, 亦不能确定是否存在更高效的待发现算法. 正如本章开篇引用的Cobham论断所示——即便是数字乘法这个基础问题, 我们至今仍未证明是否存在与加法算法同等高效的乘法算法. 但至少, 我们已掌握了正确的追问方式.

0.4 论负面结果的重要性

寻找更好的算法来解决诸如乘法、解方程、图论问题或将神经网络拟合数据等问题, 无疑是值得付出努力的. 但为何证明这类算法不存在也同样重要? 其中一个动机源于纯粹的好奇心. 研究不可行性结果的另一个原因在于, 它们对应着我们世界的根本限制. 换而言之, 不可行性结果即是自然法则.

以下是一些计算机科学领域之外的不可行性案例(更多案例参见0.7节). 物理学中, 制造永动机的不可能性对应着能量守恒定律; 热机无法突破卡诺定律的限制对应着热力学第二定律; 而超光速信息传输的不可能性则是狭义相对论的基石. 数学领域中, 虽然我们在高中都学过解二次方程的公式, 但将这种公式推广到五次及以上方程的不可能性催生了群论; 无法从前四个公设证明欧几里得第五公设则导致了非欧几何的诞生——这种几何体系最终成为广义相对论的关键基础.

类似地, 计算领域的不可行性结果对应着“计算法则“, 这些法则揭示了任何信息处理装置(无论是基于硅基芯片、神经元还是量子粒子)的根本限制. 更重要的是, 计算机科学家创造了巧妙的方法来利用计算局限性完成特定任务. 例如现代互联网通信大多采用RSA加密方案, 其安全性正是基于(推测性的)大整数高效分解的不可能性; 近年来比特币系统采用“数字金本位“模式——通过“挖矿“解决计算难题来获取新型货币, 而非依赖贵金属支撑.

回顾

算法的历史可追溯至数千年前, 它们不仅是人类进步的重要推动力, 如今更构成了价值数十亿美元的产业基础与拯救生命的技术核心.
实现同一计算任务往往存在多种算法, 找到更高效的算法通常比改进计算硬件能带来更显著的提升.
优秀的算法和数据结构不仅能加速计算, 更能带来认知上的飞跃.
我们将探讨的核心问题是如何为给定问题寻找最优算法.
要证明某个算法是解决特定问题的最优方案, 就必须证明不可能以更少的计算资源解决该问题.

0.5 本书其余部分的路线图

通常, 当我们试图解决计算问题时—无论是求解线性方程组、寻找矩阵的主特征向量, 还是对网络搜索结果进行排序—采用“一目了然“的标准来描述算法通常已经完全足够. 只要我们找到了解决问题的某种方法, 便会感到满意, 可能并不关心这些解决方法中算法的精确数学模型. 但当我们需要回答诸如“是否存在解决问题 $P$ 的算法? “这类问题时, 就必须在数学上进行更精确的界定.

具体而言, 我们需要: (1)明确定义“解决 $P$ “的含义, (2)精确定义什么是算法. 有时即使是解决(1)也并非易事, 而(2)则尤其具有挑战性—我们如何(甚至能否)囊括所有潜在的算法设计方法尚未明确. 我们将考察几种简化的计算模型, 并论证尽管这些模型形式简洁, 却足以涵盖所有“合理“的计算实现方式, 包括现代计算设备中采用的所有方法.

一旦我们拥有了这些描述计算的形式化的模型, 我们就能尝试论证计算任务的不可能性, 证明某些问题无法被解决(或者可能无法在我们宇宙的资源限制内解决). 阿基米德有言: 只要给他一个支点和足够长的杠杆, 他就能撬动地球. 我们将看到归约方法如何将一项计算困难度结论转换为众多问题的解决方案, 从而清晰界定可计算和不可计算(或易处理与难处理)问题之间的边界.

在后续章节中, 我们将重新审视计算模型, 探讨随机性或量子纠缠等资源具有的改变这些模型的潜力. 在涉及概率算法的内容中, 我们将窥见随机性如何成为理解计算、信息与通信不可或缺的工具. 同时我们也将认识到, 计算难度可以转化为优势而非障碍, 并且可以用于实现概率算法的“去随机化“. 这些思想同样体现在密码学中—该领域在过去几十年不仅经历的技术革命, 更完成了智力层面的革新, 其诸多成就都构建于本课程探讨的基础之上.

理论计算机科学是一个博大精深的领域, 其分支触及众多科学与工程学科. 本书仅呈现了这个领域非常局部(且带有主观倾向)的样本. 最重要的是, 我希望能将本人对这个领域的热爱至少部分地“传染“给读者——这个深受实践联系启发与丰富的学科, 即便不考虑其应用价值, 其本身也蕴含着深邃而璀璨的美感.

0.5.1 章节之间的依赖关系

本书由以下数个部分组成, 见图0.5.

基础知识: 引言、数学背景、和将对象表示为字符串的方法.
第一部分: 有限计算(布尔电路) 电路与直线程序的等价性、通用门集合、任意函数的电路实现、电路的字符串表示、通用电路、计数论证法下的电路规模下界
第二部分: 均匀计算(图灵机) 图灵机与循环程序的等价性、计算模型等价性(包括RAM机器、 $λ$ 演算与元胞自动机)、图灵机构型、通用图灵机存在性、不可计算函数(包括停机问题与Rice定理)、Gödel不完备定理、受限计算模型(正则语言与上下文无关语言)
第三部分: 高效计算 时间复杂度定义、时间分层定理、 $P$ 与 $NP$ 复杂度类、 $P_{/poly}$ 复杂度类、 $NP$ 完全性与Cook-Levin定理、空间受限计算
第四部分: 随机计算 概率基础、随机算法、 $BPP$ 复杂度类、错误率放大技术、 $BPP \subseteq P_{/poly}$ 定理、伪随机生成器与去随机化
第五部分: 高级专题 密码学、证明与算法(交互式证明与零知识证明、Curry-Howard对应关系)、量子计算

%%{init: {'theme':'dark'}}%%
graph TD;
    p1[**第一部分：有限计算（布尔电路）**
    **有限**输入上的函数
    **定量**研究];
    p2[**第二部分：均匀计算（图灵机）**
    **无限**输入上的函数
    **定性**研究];
    p3[**第三部分：高效计算**
    **任意长度**输入上的函数
    **定量**研究];
    p4[**第四部分随机计算**
    均匀类和非均匀类的关系。将计算难度视为一种资源。];
    p5[**第五部分：高级专题**];
    p1==>p3;
    p1-.->p2;
    p2==>p3;
    p3==>p4;
    p4==>p5;

图 5. 不同部分之间的依赖结构. 第一部分介绍布尔电路模型, 用以研究有限函数, 重点讨论定量问题(计算一个函数需要多少个逻辑门). 第二部分介绍图灵机模型, 用以研究输入长度无界的函数, 重点讨论定性问题(函数是否可计算). 第二部分多数内容不依赖于第一部分, 因为图灵机可作为首个计算模型引入. 第三部分同时依赖于前两部分, 因其对输入长度无界的函数展开定量研究. 更进阶的第四部分(随机计算)和第五部分(高级专题)则依赖于前三部分的内容体系

本书主要采用线性叙事结构, 各章节内容环环相扣, 但以下例外情况请注意: $λ$ 演算(第8.5节)、Gödel不完备定理(第11章)、自动机/正则表达式与上下文无关文法(第10章)以及空间受限计算(第17章)的内容在后续章节中不再使用, 教师可自主选择是否讲授这些章节.

第二部分(均匀计算/图灵机)不强烈依赖第一部分(有限计算/布尔电路)的内容, 稍作调整后可互换教学顺序. 布尔电路在第三部分(高效计算)用于证明 $P \subseteq P_{/poly}$ 和Cook-Levin定理, 在第四部分(用于证明 $BPP \subseteq P_{/poly}$ 和去随机化)以及第五部分(密码学和量子计算专题)中均有应用.

第五部分(高级专题)各章节内容相互独立, 可按任意顺序讲授.

基于本教材的课程建议完整覆盖第一、二、三部分(可选择跳过 $λ$ 演算、第11章、第10章或第17章), 随后完整或部分讲授第四部分(随机计算), 最后根据师生兴趣精选第五部分的高级专题进行补充教学.

0.6 习题

习题 1.

评估下列发明在加速大数字(即100位或以上)乘法运算中的重要性. 通过粗略估算, 按它们相对于前一种情况所提供的加速倍率进行排序.

发现逐位相乘的小学算法(对重复加法进行改进).
发现卡拉楚巴算法(对逐位相乘算法进行改进).
现代电子计算机的发明(对纸笔计算进行改进).

习题 2.

1977年的苹果二代个人电脑(Apple II)处理器主频为1.023兆赫, 约每秒执行 $1 0^{6}$ 次操作. 在本文撰写时, 全球最快的超级计算机性能为93“帕秒浮点运算“( $1 0^{1} 5$ 次浮点运算/秒), 约合每秒 $1 0^{1} 8$ 次基本操作. 针对以下每种时间复杂度(作为输入长度 $n$ 的函数), 分别计算这两类计算机在持续运行一周的情况下, 能处理多大规模的输入:

$n$ 次操作
$n^{2}$ 次操作
$n lo g n$ 次操作
$2 n$ 次操作
$n!$ 次操作

习题 3 (算法不存在性的实用价值).

本章提及了若干基于新算法发现而创立的企业. 能否举例说明基于算法不存在性而创立的企业? 提示见脚注².

习题 4 (卡拉楚巴算法分析).

a. 假设数列 $T_{1}, T_{2}, T_{3}, \dots$ 满足 $T_{2} \leq 10,$ 且对任意 $n$ 有 $T_{n} \leq 3 T_{⌊ n /2 ⌋ + 1} + C n$ (其中 $C \geq 1) .$ 证明于所有 $n > 2,$ 均有 $T_{n} \leq 20 C_{n}^{l o g_{2} 3}$ ³.

b. 证明卡拉楚巴算法计算两个 $n$ 位数字相乘所需进行的单位数字运算次数不超过 $1000 n^{l o g_{2} 3} .$

习题 5.

使用自选编程语言实现函数gradeschool_multiply(x,y)和karatsuba_multiply(x,y): 输入两个数字数组x和y(其中x对应数字x[0]+10*x[1]+100*x[2]+...), 分别采用小学算法和卡拉楚巴算法返回表示乘积的数组. 卡拉楚巴算法在多少位数时超越小学算法的性能?

习题 6 (矩阵乘法(可选, 进阶)).

本习题将证明: 若对某个 $ω > 2,$ 能用最多 $k^{ω}$ 次乘法运算完成两个 $k \times k$ 实值矩阵 $A, B$ 的乘积计算, 则对任意足够大的 $n,$ 我们能在约 $n^{ω}$ 时间内完成两个 $n \times n$ 矩阵的乘法.

为了使证明严谨, 我们需要引入一些略显繁琐的记号. 假设存在 $k \in N$ 和 $m \leq k^{ω},$ 使得对任意满足的 $k \times k$ 矩阵 $A, B, C,$ 都能对任意 $i, j \in [k]$ 表示为:

$C_{i, j} = l = 0 \sum m - 1 a_{i, j}^{l} f_{l} (A) g_{l} (B)$

其中 $f_{0}, \dots, f_{m - 1}, g_{0}, \dots, g_{m - 1} : R^{n^{2}} \to R$ 为线性函数, ${a_{i, j}^{l}}_{i, j \in [k], l \in [m]}$ 为系数集合. 证明在此假设下, 对任意 $ϵ > 0,$ 当 $n$ 足够大时, 存在最多使用 $O (n^{ω + ϵ})$ 次算术运算即可完成两个 $n \times n$ 矩阵乘积计算的算法. 提示见脚注⁴.

0.7 参考书目

若要简要了解本书的主要内容, 伯纳德·查泽(Bernard Chazelle)论述《算法作为现代科学范式》的精彩文章是不可多得的优质资料. 摩尔与默滕斯的著作(Moore, Mertens, 2011)对计算理论进行了卓越而全面的概述, 涵盖本章及本书后续讨论的诸多内容. 阿伦森的专著(Aaronson, 2013)同样值得推荐, 其中探讨了许多相关主题.

关于巴比伦人使用的算法, 可参阅高德纳的论文和诺伊格鲍尔的经典著作. 本章提及的多数算法可见于以下教材: 科曼、莱瑟森、里维斯特和斯坦(Cormen, Leiserson, Rivest, Stein, 2009), 克莱伯格与塔多斯(Kleinberg, Tardos, 2006), 达斯古普塔、帕帕季米特里乌和瓦齐拉尼(Dasgupta, Papadimitriou, Vazirani, 2008), 以及杰夫·埃里克森的教材. 埃里克森的著作可免费在线获取, 其中对递归算法(特别是卡拉楚巴算法)进行了精彩论述.

卡拉楚巴在本人著作(Karatsuba, 1995)中讲述了发现乘法算法的经过. 如前所述, 图姆和库克(Toom, 1963)(Cook, 1966)、舍恩哈格与施特拉森(Schönhage, Strassen, 1971)、富雷尔(Fürer, 2007)以及近期的哈维与范德霍芬(Harvey, Van Der Hoeven, 2019)相继做出了改进, 相关综述可参阅这篇文章. 后两篇论文的关键基础是快速傅里叶变换算法. 约翰·图基在冷战背景下(重新)发现该算法的精彩故事记载于(Cooley, 1987)(之所以称为“重新发现“, 是因为后世研究表明该算法可追溯至高斯时代(Heideman, Johnson, Burrus, 1985)). 快速傅里叶变换在下文提及的部分著作及杰夫·埃里克森的在线课程中均有涉及, 另可参考大卫·奥斯汀的科普文章. 快速矩阵乘法由施特拉森(Strassen, 1969)首创, 此后该领域持续涌现研究成果, 推荐阅读布拉泽的自含式综述(Bläser, 2013).

神经网络快速求导的反向传播算法由韦伯斯发明(Werbos, 1974). 网页排名算法由拉里·佩奇和谢尔盖·布林提出(Page, Brin, Motwani, Winograd, 1999), 与克莱伯格的HITS算法(Kleinberg, 1999)密切相关. 阿卡迈公司的创立基于一致性哈希数据结构(Karger, Lehman, Leighton, Panigrahy, Levine, Lewin, 1997). 压缩感知技术历史悠久, 其中两篇奠基性论文为(Candes, Romberg, Tao, 2006)和(Donoho, 2006). (Lustig, Donoho, Santos, Pauly, 2008)综述了压缩感知在MRI中的应用, 另可参阅埃伦伯格的科普文章(Ellenberg, 2010). 确定性多项式时间素性检测算法由阿格拉瓦尔、卡亚尔和萨克斯纳给出(Agrawal, Kayal, Saxena, 2004).

我们简要提及了数学中的经典不可行性结果, 包括欧几里得第五公设的不可证明性、尺规作图三等分角的不可能性, 以及五次方程无法通过根式求解的特性. 陶哲轩的博客文章给出了角三等分不可能性的几何证明(这是古希腊时期留下的三大几何难题之一). 马里奥·利维奥的著作(Livio, 2005)阐述了这些不可行性结论背后的背景与思想. 当前前沿研究正尝试运用计算复杂性解释物理学基本问题, 例如理解黑洞特性以及调和广义相对论与量子力学的矛盾.

1: 原文此处的内容为“Exercise 0.4“, 疑为作者笔误

2: 正如我们将在第21章(Chapter 21)中看到的, 几乎所有依赖密码学的企业都需要以某些算法的不存在性为前提. 特别地, RSA安全公司(RSA Security)的成立正是基于RSA加密系统的安全性, 该系统的前提正是假定不存在能高效计算大整数质因数分解的算法.

3: 提示: 使用归纳法进行证明——假设该结论对所有从 $1$ 到 $m$ 的 $n$ 值成立, 并证明其对 $m + 1$ 同样成立.

4: 首先证明当 $n = k^{t}$ (其中 $t$ 为自然数)时的特殊情况, 此时可通过将矩阵分割成 $k \times k$ 块的方式进行递归处理.

数学背景

数学背景

学习目标

学习基本的数学概念, 如几何、函数、数字、逻辑运算符及量词、字符串和图.
严格地定义大 $O$ 表示法.
归纳证明法.
练习如何阅读数学定义、陈述与证明.
将直观的论证转化为严谨的证明.

Quote

“我发现, 从一到十表达的每个数字, 都比前一个数字多一个单位: 之后, 十的倍数会翻倍或增至三倍……直至一百; 然后, 一百的倍数会以与个位和十位相同的方式翻倍和增至三倍……以此类推, 直至计数的最大极限. “,

—穆罕默德·伊本·穆萨·花拉子米(Muhammad ibn Mūsā al-Khwārizmī), 820年, 弗雷德里克·罗森(Fredric Rosen)译, 1831年

在本章中, 我们将会介绍一些将在本书中用到的数学概念. 这些概念一般会在“计算机科学中的数学“或“离散数学“等课程或课本中讲解. 有关这些主题的几份可在线免费获取优秀资源, 请参阅“参考书目“部分(第1.9节).

一个数学家的辩白. 部分学生可能会好奇为什么这本书包含如此多的数学, 这是因为数学就是一门能够简洁而精确描述概念的语言. 在这本书中, 我们使用数学来描述计算的概念. 比如说, 我们将思考诸如“是否存在一种高效算法来求取给定整数的质因数?“这样的问题(我们将看到这个问题尤为有趣, 它甚至触及了从互联网安全到量子力学等跨度极大的问题! )若要精准的描述这些问题, 我们需要对算法这一概念以及算法的高效性给出精准的定义. 此外, 由于无法通过实验证明某种算法不存在, 唯一能证实算法不存在性的方式就是数学证明.

1.1 本章: 读者的参考手册

基于你已有的数学背景, 你有两种阅读本章的方式:

如果你已经学习过“离散数学“、“计算机科学中的数学“或任何类似课程, 则无需阅读整章内容, 只需要快速地阅读第1.2节来了解我们会用到什么数学工具与第1.7节来了解本书所用符号, 便可跳转至后续章节. 或者, 你也可以放松心情通读本章, 既熟悉本书所用的符号体系, 顺便品味(或忍受)笔者融于字里行间的哲学思考与幽默尝试.
若相关基础较为薄弱, 可以参考第1.9节中提供的学习资源. 本章虽然已经涵盖了所有所需知识点, 但系统性地学习相关知识点可能对你更有帮助. 数学学习重在实践, 通过独立完成练习才能真正掌握这些内容.
建议你同时开始回顾离散概率论的相关知识, 本书后续章节(见第18章)将涉及这部分内容.

1.2 前置数学知识的概览

我们将使用的主要数学概念如下所示. 此处仅列出这些概念, 其具体定义将在本章后续部分给出. 若您已熟悉所有这些内容, 可以直接跳至第1.7节查看我们使用的完整符号列表.

证明: 最重要的是, 本书包含大量形式化数学推理, 涵盖数学定义、陈述与证明.
集合及集合运算: 我们将广泛使用数学集合. 涉及到的集合关系包括属于( $\in)$ 与包含( $\subseteq),$ 以及集合运算, 主要是并集( $\cup)$ 、交集( $\cap)$ 与差集( $∖) .$
笛卡尔积(Cartesian product)与克林星号(Kleene star)运算: 两个集合 $A$ 与 $B$ 的笛卡尔积, 记作 $A \times B$ (即由所有满足 $a \in A$ 且 $b \in B$ 的所有有序对 $(a, b)$ 构成的集合), $A^{n}$ 表示 $n$ 阶笛卡尔积(例如 $A^{3} = A \times A \times A),$ 而 $A^{*}$ (称为 克林星号 )表示所有 $n \in {0, 1, 2, \dots}$ 对应的 $A^{n}$ 的并集.
函数: 函数的定义域和陪域, 以及函数的性质(如单射函数和满射函数), 还有部分函数(即不同于全函数的, 对于定义域内部分元素可能存在未定义情况的函数).
逻辑运算: 常用操作包括逻辑与( $\land)$ 、逻辑或( $\lor)$ 、逻辑非( $\neg)$ 等, 以及存在量词( $\exists)$ 和全称量词( $\forall) .$
基础组合数学: 诸如 $(k n)$ (表示大小为 $n$ 的集合中所有 $k$ 元子集的数量)等概念.
图论: 无向图和有向图、连通性、路径和环.
大 $O$ 表示法: 使用 $O, o, Ω, ω, θ$ 符号分析函数的渐进增长性.
离散概率: 我们将使用概率论, 特别是基于有限概率空间(如抛掷 $n$ 枚硬币)的概率论, 包括随机变量、期望和浓度等概念. 概率论仅在本书后半部分使用, 我们将在第18章先行复习. 然而概率推理是一项精妙(且极其实用)的技能, 尽早开始掌握总是有益的.

本章后续部分将简要回顾上述概念. 既是为了帮助读者重温可能已经生疏的知识, 也是为了介绍我们的符号与约定——这些约定有时可能与你之前接触过的版本有所不同.

1.3 阅读数学文本

数学家使用各种专业术语的原因, 与工程、法律、医学等其他众多领域并无差别: 我们需要精确的术语, 并为频繁使用的概念引入简洁表达. 数学文本往往在单个句子中蕴含极高的信息密度, 因此关键在于缓慢而仔细地阅读, 逐个符号解析.

随着练习时间逐渐增长, 你将发现阅读数学文本变得越来越轻松, 且专业术语也不再是问题. 更重要的是, 数学文本阅读能力是从本书中能够获得的极具迁移价值的技能之一. 我们的世界正飞速变化——这不仅体现在技术领域, 更延伸至医学、经济学、法律乃至文化等人类实践的方方面面. 无论你未来方向如何, 都很可能会接触到包含前所未见新概念的文本(参见图 1.1与图 1.2中两个当代“热点领域“的例子). 掌握内化并应用新定义的能力至关重要. 在数学课程相对安全稳定的学习环境中, 这种技能更容易被掌握——至少你可以确信所有概念都有完整定义, 并能随时向教学人员答疑解惑.

alphagozerofig

图 1.1. 摘自Silver等人2017年发表于《自然》期刊的《AlphaGo Zero》论文“方法“部分片段.

zerocashfig

图 1.2. 摘自Ben-Sasson等人奠定加密货币Zcash项目基础的《Zerocash》论文片段.

数学文本的基本构成要素有三: 定义、断言与证明.

1.3.1 定义

数学家经常在已有的概念上定义新的概念. 比如, 以下是一个你可能曾经见过的数学定义(并且我们很快还会再见到):

定义 1.1 (单射函数).

令 $S$ 与 $T$ 为集合. 当一个函数 $f : S \to T$ 对于任意两个元素 $x, x^{'} \in S,$ 满足若 $x \neq = x^{'},$ 则有 $f (x) \neq = f (x^{'}),$ 我们就称是单射的(one-to-one或injective)其, .

定义 1.1阐述了一个简单的概念, 但即便如此它也使用了大量符号. 阅读此类定义时, 一边阅读一边用笔进行标注往往很有帮助(见图 1.3). 例如当看到诸如 $f$ 、 $S$ 或 $x$ 等符号时, 务必确认其指代的对象的类别: 是集合、函数、元素、数字, 还是小妖怪? 你可能还会发现, 向朋友(或对自己)用语言解释这一定义会很有帮助.

onetoonedef3fig

图 1.3. 定义 1.1的注释版本, 标出了定义的每个对象及其关联的定义

1.3.2 断言: 定理、引理、主张

定理、引理、断言等都是对已定义概念的真命题. 将特定命题称为“定理“、“引理“还是“断言“属于主观判断, 并不改变其数学实质——三者均指代已被证明为真的命题. 区别在于: 定理指代值得铭记和强调的重要结论; 引理通常指技术性结论, 其自身未必重要但能有效辅助其他定理的证明; 断言则是为证明更重大结论而使用的“过渡性“命题, 其自身价值并不受关注.

1.3.1 证明

数学证明是用以证实定理、引理及断言真实性的论证过程. 我们将在下文1.5节讨论证明, 其核心在于数学证明的标准极为严苛. 与其他领域不同, 数学证明必须是“无懈可击“的论证, 确保证明对象无可置疑为真. 本节涉及的数学证明示例参见练习 1.1及1.6节. 如前言所述, 总体而言: 理解定义比掌握定理更重要, 理解定理陈述比掌握其证明过程更重要.

1.4 基础离散数学对象

在本节中, 我们将快速回顾本书中所用的一些数学对象(你当然也可以把这些叫做数学中的“基本数据结构“).

1.4.1 集合

一个集合是一些对象的无序容器. 例如, $S = {2, 4, 7}$ 表示 $S$ 指代一个包含数字 $2$ 、 $4$ 、 $7$ 的集合(我们使用 $2 \in S$ 来表示 $2$ 是 $S$ 中的一个元素. )注意集合 ${2, 4, 7}$ 与 ${7, 4, 2}$ 是相同的, 因为它们拥有相同的元素. 同时, 一个集合要么包含一个元素, 要么不包含一个元素, 不存在“包含两次“的概念, 因此我们甚至可以将同一个集合 $S$ 写作 ${2, 2, 4, 7}$ (尽管这样写有些奇怪). 有限集合的基数 (cardinality), 即一个集合包含的元素的数量, 记作 $∣ S ∣$ (基数亦可以定义在无限集上, 见第1.9节的参考资料). 因此在上例中 $∣ S ∣ = 3.$ 若集合 $S$ 的元素都是集合 $T$ 的元素, 则称 $S$ 为 $T$ 的一个子集, 记作 $S \subseteq T$ (我们亦可以称 $T$ 为 $S$ 的一个超集. )比如, ${2, 7} \subseteq {2, 4, 7} .$ 不包含任何元素的集合称作空集, 写作 $\emptyset.$ 如果 $A$ 是 $B$ 的一个子集且 $A$ 不等于 $B,$ 则我们称 $A$ 为 $B$ 的一个真子集, 记作 $A ⊊ B .$

我们可以通过将其元素全部列出来定义集合, 也可以通过写下集合元素满足的一个条件来定义集合, 例如: $偶数集 = {x ∣ 对于某个非负整数 y, 有 x = 2 y}$ 当然, 同一集合有多种表示方式, 我们常会使用直观的记号列出几个示例来说明规则. 例如也可将 $偶数集$ 定义为: $偶数集 = {0, 2, 4, \dots}$ 注意集合可以是有限的(如 ${2, 4, 7})$ 或无限的(如 $偶数集) .$ 集合的元素不必是数字, 例如英语元音的集合 ${a, e, i, o, u},$ 或按2010年人口普查的美国百万人口城市集合 ${New York, Los Angeles, Chicago, Houston, Philadelphia, Phoenix, San Antonio, San Diego, Dallas} .$ 集合甚至可以包含其他集合作为元素, 例如 ${1, 2, 3}$ 所有偶数大小子集构成的集合 ${\emptyset, {1, 2}, {2, 3}, {1, 3}} .$

集合运算: 集合 $S$ 与的 $T$ 的并集记作 $S \cup T,$ 包含所有属于 $S$ 或属于 $T$ 的元素. 交集记作 $S \cap T,$ 包含同时属于 $S$ 和 $T$ 的元素. 差集记作 $S ∖ T$ (部分文献中记作 $S - T),$ 包含属于 $S$ 但不属于 $T$ 的元素.

元组、列表、字符串、序列: 元组是有序的对象容器, 例如 $(1, 5, 2, 1)$ 是包含四个元素的元组(称为 $4$ -元组或四元组). 由于元组是有序的, 该元组不同于四元组 $(1, 1, 5, 2)$ 或三元组 $(1, 5, 2) .$ $2$ -元组亦称为有序对. 术语“元组“与”列表“可互换使用. 若某个元组中的元素均来自于某个有限集 $Σ$ (如 ${0, 1}),$ 则称为字符串. 类比集合, 我们将元组 $T$ 的长度记作 $∣ T ∣.$ 与集合类似, 元组亦有无限形式. 例如由所有完全平方数组成的元组 $(1, 4, 9, \dots) .$ 无限的有序容器称为序列, 有时亦称作“无限序列“以强调这一点. “有限序列“是元组的同义词. (可将集合 $S$ 中元素的序列 $(a_{0}, a_{1}, a_{2}, \dots)$ 视为函数 $A : N \to S$ (其中对任意 $n \in N$ 满足 $a_{n} = A (n)) .$ 类似地, 可将 $S$ 中元素的 $k$ -元组视为函数 $A : [k] \to S .$ )

笛卡尔积: 若 $S$ 与 $T$ 是集合, 则其笛卡尔积记作 $S \times T,$ 是由所有满足 $s \in S$ 且 $t \in T$ 的有序对 $(s, t)$ 构成的集合. 例如, 若 $S = {1, 2, 3}$ 且 $T = {10, 12},$ 则 $S \times T$ 包含六个元素: $(1, 10), (2, 10), (3, 10), (1, 12), (2, 12), (3, 12) .$ 相似的, 若 $S, T, U$ 为集合, 则 $S \times T \times U$ 为由所有满足 $s \in S$ 、 $t \in T$ 、 $u \in U$ 的三元组 $(s, t, u)$ 构成的集合. 更加一般地, 对任意正整数 $n$ 及集合 $S_{0}, \dots, S_{n - 1},$ 用 $S_{0} \times S_{1} \times \dots \times S_{n - 1}$ 表示满足对每个 $i \in {0, \dots, n - 1}$ 有 $s_{i} \in S_{i}$ 的有序 $n$ -元组 $(s_{0}, \dots, s_{n - 1})$ 的集合. 对任意集合 $S,$ 将 $S \times S$ 记作 $S^{2},$ $S \times S \times S$ 记作 $S^{3},$ $S \times S \times S \times S$ 记作 $S^{4},$ 依此类推.

1.4.2 特殊集合

在本书中会反复用到数个特殊集合. 集合 $N = {0, 1, 2, \dots}$

包含了所有的自然数, 即非负整数. 对于任意的自然数 $n \in N,$ 定义集合 $[n]$ 为 ${0, \dots, n - 1} = {k \in N : k < n}$ ( $N$ 与 $n$ 均从 $0$ 开始计数, 与此同时诸多文献中这两个集合是从 $1$ 开始的计数的. 从零开始计数只是一个约定俗成的做法, 只要保持一致性, 并不会产生太大差异. )

我们偶尔也会使用集合 $Z = {\dots, - 2, - 1, 0, 1, 2, \dots}$ 来表示所有(负的和非负的)整数, 同时使用 $R$ 来表示所有实数(这个集合不仅包含整数, 同时也包含分数与无理数, 例如, $R$ 包含诸如 $+ 0.5$ 、 $- π$ 等的数字. )我们使用 $R_{+}$ 来表示所有正实数的集合 ${x \in R : x > 0} .$ 这个集合有时亦写作 $(0, \infty) .$

字符串: 另外一个我们经常会用到的集合是 ${0, 1}^{n} = {(x_{0}, \dots, x_{n - 1}) : x_{0}, \dots, x_{n - 1} \in {0, 1}}$ 这个集合包含了所有长度为 $n$ ( $n$ 为任意自然数)的二进制字符串. 换句话说, ${0, 1}^{n}$ 是包含所有由 $0, 1$ 组成的 $n$ -元组的集合. 这与我们前文中的符号一致: ${0, 1}^{2}$ 是笛卡尔积 ${0, 1} \times {0, 1},$ ${(0, 1)}^{3}$ 是笛卡尔积 ${(0, 1)} \times {(0, 1)} \times {(0, 1)},$ 依此类推.

我们将字符串 $(x_{0}, x_{1}, \dots, x_{n - 1})$ 简单地写作 $x_{0} x_{1} \dots x_{n - 1} .$ 例如, ${0, 1}^{3} = {000, 001, 010, 011, 100, 101, 110, 111}$ 对于所有字符串 $x \in {0, 1}^{n}$ 与 $i \in [n],$ 我们将 $x$ 的第 $i$ 个元素记作 $x_{i} .$

我们也经常会使用包含所有长度二进制字符串的集合, 即 ${0, 1}^{*} = {(x_{0}, \dots, x_{n - 1}) : n \in N,, x_{0}, \dots, x_{n - 1} \in {0, 1}}$ 另一个表示这个集合的方式是 ${0, 1}^{*} = {0, 1}^{0} \cup {0, 1}^{1} \cup {0, 1}^{2} \cup \dots$ 或者更为简洁的 ${0, 1}^{*} = n \in N ⋃ {0, 1}^{n}$ 集合 ${0, 1}^{*}$ 包含了“长度为 $0$ 的字符串“或“空字符串“, 我们将这个字符串记作 $""$ (此处我们使用与大部分编程语言一致的符号, 其他文献可能会使用 $ϵ$ 或 $λ$ 来表示空字符串).

推广星号操作: 对于任意集合 $Σ,$ 我们定义 $Σ^{*} = n \in N ⋃ Σ^{n}$ 例如, 若 $Σ = {a, b, c, d, \dots, z},$ 则 $Σ^{*}$ 表示字母表a-z上所有有限长度字符串的集合.

连接操作: 两个字符串 $x \in Σ^{n}$ 与 $y \in Σ^{m}$ 的连接是指将 $y$ 书写在 $x$ 后形成的 $(n + m)$ 长度的字符串 $x y .$ 具体而言, 若 $x \in {0, 1}^{n}$ 且 $y \in {0, 1}^{m},$ 则 $x y$ 等于满足以下条件的字符串 $z \in {0, 1}^{n + m} :$ 当 $i \in [n]$ 时 $z_{i} = x_{i},$ 当 $i \in {n, \dots, n + m - 1}$ 时 $z_{i} = y_{i - n} .$

1.4.3 函数

若 $S$ 与 $T$ 为非空集合, 则从 $S$ 到 $T$ 的函数(记作 $F : S \to T)$ 会将每个元素 $x \in S$ 关联到一个元素 $F (x) \in T .$ 集合 $S$ 称为函数 $F$ 的定义域, 集合 $T$ 称为 $F$ 的陪域. 函数 $F$ 的像是指集合 ${F (x) ∣ x \in S},$ 即由所有被映射的输入元素对应的输出元素组成的 $F$ 的陪域子集(有些文献使用“值域“一词表示函数的像, 而另一些文献使用”值域“表示函数的陪域. 因此我们将完全避免使用“值域“这一术语. )与集合类似, 我们可以通过列出函数对 $S$ 中所有元素给出的取值表或通过规则来定义函数. 例如, 若 $S = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}$ 且 $T = {0, 1},$ 则下表定义了一个函数 $F : S \to T .$ 注意该函数与规则 $F (x) = (x mod 2)$ 定义的函数相同.

Example

函数的一个例子

输入	输出
0	0
1	1
2	0
3	1
4	0
5	1
6	0
7	1
8	0
9	1

若 $F : S \to T$ 满足对所有 $x \neq = y$ 均有 $F (x) \neq = F (y),$ 则称 $F$ 是单射(见定义 1.1, 亦称为单射函数). 若 $F$ 满足对每个 $y \in T$ 均存在某个 $x \in S$ 使得 $F (x) = y,$ 则称 $F$ 是满射(亦称作满射函数). 既是单射又是满射的函数称为双射函数或双射. 从集合 $S$ 到自身的双射亦称为 $S$ 的排列. 若 $F : S \to T$ 是双射, 则对于每个 $y \in T$ 均存在唯一的 $x \in S$ 使得 $F (x) = y .$ 我们将该值 $x$ 记作 $F^{- 1} (y) .$ 注意 $F^{- 1} (y)$ 本身也是从 $T$ 到 $S$ 的双射(你能明白为什么吗? ).

给出两个集合之间的双射通常是证明集合大小相同的有效方法. 事实上, “ $S$ 与 $T$ 具有相同基数“的标准数学定义就是存在一个双射 $f : S \to T .$ 此外, 若存在从 $S$ 到集合 ${0, \dots, n - 1}$ 的双射, 则定义集合 $S$ 的基数为 $n .$ 正如我们将在本书后面看到的, 这个定义可以推广到无限集合的基数定义.

部分函数(又译偏函数): 我们有时会关注从 $S$ 到 $T$ 的部分函数. 部分函数允许在 $S$ 的某个子集上未定义. 也就是说, 若 $F$ 是从 $S$ 到 $T$ 的偏函数, 则对每个 $s \in S,$ 要么(如标准函数的情况)存在 $T$ 中的元素 $F (s),$ 要么 $F (s)$ 未定义. 例如, 部分函数 $F (x) = x$ 仅定义在非负实数上. 当需要偏函数和标准(即非部分)函数时, 我们称后者为全函数. 当我们不加限定地说“函数“时, 指的是全函数.

部分函数的概念是函数的严格推广, 因此每个函数都是部分函数, 但并非每个部分函数都是函数(也就是说, 对于任意非空集合 $S$ 与 $T,$ 从 $S$ 到 $T$ 的偏函数集合是从 $S$ 到 $T$ 的全函数集合的真超集. )当需要强调从 $A$ 到 $B$ 的函数 $f$ 可能不是全函数时, 我们写作 $f : A \to_{p} B .$ 我们也可以将从 $S$ 到 $T$ 的偏函数视为从 $S$ 到 $T \cup {⊥}$ 的全函数, 其中 $⊥$ 是一个特殊的“失败符号“. 因此, 我们可以说 $F (x) = ⊥,$ 而不是 $F$ 在 $x$ 处未定义.

关于函数的基本事实: 验证能否证明以下结论是复习函数知识的绝佳方式:

若 $F : S \to T$ 和 $G : T \to U$ 是单射函数, 则它们的复合函数 $H : S \to U$ (定义为 $H (s) = G (F (s)))$ 也是单射.
若 $F : S \to T$ 是单射, 则存在一个满射函数 $G : T \to S,$ 使得对于每个 $s \in S$ 均有 $G (F (s)) = s .$
若 $G : T \to S$ 是满射, 则存在一个单射函数 $F : S \to T,$ 使得对于每个 $s \in S$ 均有 $G (F (s)) = s .$
若 $S$ 与 $T$ 是非空有限集合, 则以下条件相互等价: (a) $∣ S ∣ \leq ∣ T ∣;$ (b) 存在单射函数 $F : S \to T;$ (c) 存在满射函数 $G : T \to S .$ 这些等价关系实际上对无限集合 $S$ 和 $T$ 亦成立. 对于无限集合, 条件(b)(或等价的条件(c))是 $∣ S ∣ \leq ∣ T ∣$ 的公认定义.

functionsdiagramfig

图 1.4. 我们可以将有限函数表示为有向图, 其中从 $x$ 到 $f (x)$ 有一条边. 满射条件要求函数陪域中的每个顶点的入度至少为 $1.$ 单射条件要求函数陪域中的每个顶点入度至多为 $1,$ 上图的示例中, $F$ 是满射函数, $G$ 是单射函数, 而 $H$ 既不是满射也不是单射

Tip

暂停思考:

你可以在许多离散数学教材中找到这些结论的证明, 例如Lehman-Leighton-Meyer讲义中的第4.5节. 但我强烈建议你尝试独立证明它们, 或至少通过证明小规模情况(如 $∣ S ∣ = 3, ∣ T ∣ = 4, ∣ U ∣ = 5)$ 的特殊实例来确信这些结论成立.

让我们以其中一个事实为例进行证明:

引理 1.1.

若 $S, T$ 是非空集合且 $F : S \to T$ 是单射, 则存在满射函数 $G : T \to S,$ 使得对每个 $s \in S$ 均有 $G (F (s)) = s .$

对引理 1.1的证明

选择某个 $s_{0} \in S .$ 我们将定义函数 $G : T \to S$ 如下: 对每个 $t \in T,$ 若存在某个 $s \in S$ 使得 $F (s) = t,$ 则令 $G (t) = s$ (由于 $F$ 的单射性质, 不可能有两个不同的 $s, s^{'}$ 同时映射到 $t,$ 因此 $s$ 的选择是无歧义的). 否则, 令 $G (t) = s_{0} .$ 现在对于每个 $s \in S,$ 根据 $G$ 的定义, 若 $t = F (s),$ 则 $G (F (s)) = s .$ 此外, 这也表示 $G$ 是满射, 因为这意味着对每个 $s \in S$ 都存在某个 $t$ (即 $t = F (s))$ 使得 $G (t) = s .$

1.4.4 图

图在计算机科学及众多其他领域中无处不在. 图可以用于建模非常多的数据类型, 包括但不限于社交网络、调度约束、道路网络、深度神经网络、基因相互作用、观测值之间的相关性. 几种图的正式定义将在下面给出, 但如果你没有在先前的课程中了解过图, 我强烈建议你从第1.9节中的资料中详细了解它们.

图有两种基本类型: 无向图与有向图.

定义 1.2 (无向图).

一个无向图 $G = (V, E)$ 由一个顶点集 $S$ 与一个边集 $E$ 组成. 每条边都是一个 $V$ 的大小为2的子集. 我们称两个顶点 $u, v \in V$ 为相邻顶点, 若边 ${u, v}$ 在 $E$ 中.

基于这个定义, 我们可以定义关于图与顶点的几个性质. 我们将 $u$ 的相邻节点的个数成为 $u$ 的度数. 图中的一条路径是一个元组 $(u_{0}, \dots, u_{k}) \in V^{k + 1}$ (其中 $k > 0),$ 且满足对每个 $i \in [k],$ $u_{i + 1}$ 都是 $u_{i}$ 的相邻节点. 简单路径是指所有 $u_{i}$ 均不重复的路径 $(u_{0}, \dots, u_{k - 1}) .$ 环是指满足 $u_{0} = u_{k}$ 的路径 $(u_{0}, \dots, u_{k}) .$ 若两个顶点 $u, v \in V$ 满足 $u = v$ 或存在一条从 $u_{0} = u$ 到 $u_{k} = v$ 的路径, 则称这两个顶点是联通的. 当图中每对顶点都联通时, 我们称该图是连通图.

下面是一些关于无向图的基本事实. 我们将为它们给出一些非正式的论证, 但完整证明作为练习留待读者自行完成(完整证明可以在第1.9节中的诸多资源中找到).

引理 1.2.

在任意的无向图 $G = (V, E)$ 中, 所有顶点的度数之和等于边数的两倍.

通过观察可知: 每条边 ${u, v}$ 会对度数总和贡献两次(一次作用于 $u,$ 另一次作用于 $v),$ 由此可证明引理 1.2.

引理 1.3.

连通关系具有传递性, 即如果 $u$ 与 $v$ 相连, 且 $v$ 与 $w$ 相连, 则 $u$ 与 $w$ 也相连.

通过将路径 $(u, u_{1}, u_{2}, \dots, u_{k - 1}, v)$ 与路径 $(v, u_{1}^{'}, \dots, u_{k - 1}^{'}, w)$ 拼接, 得到连接 $u$ 与 $w$ 的路径 $(u, u_{1}, \dots, u_{k - 1}, v, u_{1}^{'}, \dots, u_{k^{'} - 1}^{'}, w),$ 即可证明引理 1.3.

引理 1.4 (联通的顶点间有简单路径).

对于任意无向图 $G = (V, E)$ 及连通顶点对 $u, v,$ 从 $u$ 到 $v$ 的最短路径是简单路径. 特别地, 任意连通顶点对间均存在连接二者的简单路径.

通过“捷径修剪法“可证明引理 1.4: 若某路径中同一节点 $w$ 出现两次, 则移除其间的循环段(见图 1.5). 将这一直观论证转化为形式化证明是很好的练习:

shortcutpathfig

图 1.5. 若图中存在从 $u$ 到 $v$ 的路径两次经过顶点 $w,$ 则可移除 $w$ 到自身的循环段, 得到仅经过 $w$ 一次的捷径路径.

练习 1.1.

证明引理 1.4.

对练习 1.1的解答

此证明遵循图 1.6所示的思路. 需要注意的复杂性在于: 路径中可能有多个顶点被重复访问, 因此“捷径修建“不一定能直接得到简单路径. 我们通过考察 $u$ 与 $v$ 之间的最短路径来解决该问题. 具体如下:

设 $G = (V, E)$ 为无向图, $u$ 和 $v$ 为 $G$ 中两个连通顶点. 我们将证明存在连接 $u$ 和 $v$ 的简单路径. 令 $k$ 为 $u$ 与 $v$ 之间路径的最短长度, 并设 $P = (u_{0}, u_{1}, u_{2}, \dots, u_{k - 1}, u_{k})$ 为一条长度为 $k$ 的路径(可能存在多条此类路径, 若有则任选其一). (即 $u_{0} = u,$ $u_{k} = v,$ 且对任意 $l \in [k]$ 有 $(u_{l}, u_{l + 1}) \in E .$ )我们断言 $P$ 是简单路径. 假设存在某个顶点 $w$ 在路径中出现两次: 即对某些 $i < j$ 有 $w = u_{i}$ 且 $w = u_{j} .$ 此时可通过取 $P$ 的前 $i$ 个顶点(从 $u_{0} = u$ 到 $w$ 的首次出现)和后 $k - j$ 个顶点(从 $w$ 第二次出现后的顶点 $u_{j + 1}$ 到 $u_{k} = v),$ 得到捷径路径 $P^{'} = (u_{0}, u_{1}, \dots, u_{i - 1}, w, u_{j + 1}, \dots, u_{k}) .$ 由于 $w = u_{i} = u_{j},$ $(u_{i - 1}, w)$ 和 $(w, u_{j + 1})$ 都是 $E$ 中的边, 因此 $P^{'}$ 是连接 $u$ 和 $v$ 的有效路径. 但 $P^{'}$ 的长度为 $k - (j - i) < k,$ 这与 $P$ 的最小性矛盾.

Info

备注 1.1 (寻找证明的方法).

练习 1.1是寻找证明过程的典型示例. 首先确保理解命题含义, 随后提出非形式化论证说明其成立性, 最后将非形式化论证转化为严格证明. 该证明不必过长或过度形式化, 但应清晰阐述为何从假设可推出结论.

度数和连通性的概念亦可自然推广至有向图, 其定义如下:

定义 1.3 (有向图).

一个有向图 $G = (V, E)$ 由顶点集 $V$ 和边集 $E \subseteq V \times V$ (由 $V$ 的有序对构成)组成. 有时将边 $(u, v)$ 记为 $u \to v .$ 若存在边 $u \to v,$ 则称 $v$ 是 $u$ 的出邻居, $u$ 是 $v$ 的入邻居.

有向图可能同时包含边 $u \to v$ 和 $v \to u,$ 此时 $u$ 和 $v$ 互为入邻居和出邻居. 顶点 $u$ 的入度是其入邻居的数量, 出度是其出邻居的数量. 图中的路径是指元组 $(u_{0}, \dots, u_{k}) \in V^{k + 1}$ (其中 $k > 0),$ 且对每个 $i \in [k]$ 有 $u_{i + 1}$ 是 $u_{i}$ 的出邻居. 与无向图情形类似, 简单路径是指所有 $u_{i}$ 均不相同的路径 $(u_{0}, \dots, u_{k - 1}),$ 环是指满足 $u_{0} = u_{k}$ 的路径 $(u_{0}, \dots, u_{k}) .$ 我们经常关注的一类有向图是有向无环图(Directed Acyclic Graph, DAG), 顾名思义即为不含环的有向图:

定义 1.4 (有向无环图).

若有向图 $G = (V, E)$ 中不存在顶点列 $u_{0}, u_{1}, \dots, u_{k} \in V$ 使得 $u_{0} = u_{k}$ 且对每个 $i \in [k]$ 有边 $u_{i} \to u_{i + 1} \in E,$ 则称其为有向无环图(DAG).

上述引理在有向图中均有对应版本. 其证明(与无向图情形基本一致)将作为习题留给读者.

引理 1.5.

对于任意有向图 $G = (V, E),$ 入度之和等于出度之和, 且均等于边数.

引理 1.6.

对于任意有向图, 若存在从 $u$ 到 $v$ 的路径和从 $v$ 到 $w$ 的路径, 则存在从 $u$ 到 $w$ 的路径.

引理 1.7.

对于任意有向图 $G = (V, E)$ 及存在路径的顶点对 $u, v,$ 从 $u$ 到 $v$ 的最短路径是简单路径.

Info

备注 1.2 (带标签图).

在某些应用中, 我们会考虑带标签图(其顶点或边关联有标签, 标签可以是数字、字符串或其他集合中的元素). 此类图可视为具有(可能为部分的)标签函数 $L : V \cup E \to L,$ 其中 $L$ 为潜在标签集合. 但我们通常不会显式引用此标签函数, 而是直接表述为“顶点 $v$ 具有标签 $α$ 等“.

1.4.5 逻辑运算符与量词

如果 $P$ 和 $Q$ 是可真可假的陈述, 则 $P$ 与 $Q$ (记为 $P \land Q)$ 是一个当且仅当 $P$ 和 $Q$ 同时为真时才成立的陈述; 而 $P$ 或 $Q$ (记为 $P \lor Q)$ 是一个当且仅当 $P$ 或 $Q$ 为真是成立的陈述. $P$ 的否定记作 $\neg P$ 或 $\overline{P},$ 当且仅当 $P$ 为假时该陈述为真.

假设 $P (x)$ 是一个依赖于某个参数 $x$ (有时亦称为自由变量)的陈述, 其特性在于: 对于从集合 $S$ 中取值的每一个 $x$ 的具体赋值, $P (x)$ 都会有明确的真值. 例如 $x > 7$ 这个陈述本身没有固有真值, 但当我们用具体实数代入 $x$ 时, 它就会成为真或假的命题. 我们用 $\forall_{x \in S} P (x)$ 表示这样一个陈述: 当且仅当对所有 $s \in S$ 都有 $P (x)$ 为真时, 该陈述为真. 用 $\exists_{x \in S} P (x)$ 表示这样一个陈述: 当且仅当存在某个 $x \in S$ 使得 $P (x)$ 为真时, 该陈述为真.

例如下面这个形式化表达式, 描述的是“存在大于100且不能被3整除的自然数 $n$ “这个真命题: $\exists_{n \in N} (n > 100) \land (\forall_{k \in N} k + k + k \neq = n)$ “对于足够大的 $n$ ”. 本书中会反复出现“某个陈述对于足够大的 $n$ 成立“这样的论断, 其含义是: 存在整数 $N_{0},$ 使得对于所有 $n > N_{0},$ $P (n)$ 都成立. 我们可以将其形式化为 $\exists_{N_{0} \in N} \forall_{n > N_{0}} P (n) .$

1.4.6 求和与求积的量词

使用下列简记法来表示多个数的求和或求积往往更为便捷. 若 $S = {s_{0}, \dots, s_{n - 1}}$ 是有限集且 $f : S \to R$ 是函数, 则 $\sum_{x \in S} f (x)$ 表示: $f (s_{0}) + f (s_{1}) + f (s_{2}) + \dots + f (s_{n - 1})$ $\prod_{x \in S} f (x)$ 表示: $f (s_{0}) \cdot f (s_{1}) \cdot f (s_{2}) \cdot \dots \cdot f (s_{n - 1})$ 例如, 从 $1$ 到 $100$ 的所有整数的平方和可表示为:

$i \in {1, \dots, 100} \sum i^{2} (1.1)$ 由于对整数区间求和极为常见, 对此存在特殊记号. 对于任意两个满足 $a \leq b$ 的整数, $\sum_{i = a}^{b} f (i)$ 表示 $\sum_{i \in S} f (i),$ 其中 $S = {x \in Z : a \leq x \leq b} .$ 因此(1.1)可改写为: $i = 1 \sum 100 i^{2}$

1.4.7 解析公式: 约束变量与自由变量

在数学中, 如同在编程中一样, 我们常常会遇到符号化的“变量“或“参数“. 给定某个公式时, 理解特定变量在该公式中是约束变量还是自由变量至关重要. 例如在如下陈述中, $n$ 是自由变量, 而 $a$ 和 $b$ 是受存在量词 $\exists$ 约束的变量:

$\exists_{a, b \in N} (a \neq = 1) \land (a \neq = n) \land (n = a \times b) (1.2)$ 由于 $n$ 是自由变量, 它可以被赋予任意值, 因此(1.2)的真值取决于 $n$ 的取值. 例如当 $n = 8$ 时公式成立, 但当 $n = 11$ 时则不成立. (你能看出原因吗? )

同样的问题在解析代码时也会出现. 例如在下列C语言代码片段中:

for (int i=0 ; i<n ; i=i+1) {
    printf("*");
}

变量i在for循环块内是约束变量, 而变量n则是自由变量.

约束变量的主要特性是: 我们可以对其进行重命名(只要新名称不与其他变量名冲突)而不改变语句的含义. 因此以下陈述

$\exists_{x, y \in N} (x \neq = 1) \land (x \neq = n) \land (n = x \times y) (1.3)$ 与(1.2)完全等价—它们对 $n$ 值的真值判断完全相同.

同样地, 代码:

for (int j=0 ; j<n ; j=j+1) {
    printf("*");
}

与使用i的代码段有完全相同的执行效果.

Info

备注 1.3 (数学符号与编程符号的对比).

数学符号与编程语言存在诸多相似性, 这源于二者都是为精确传递复杂概念而构建的形式化体系. 但两者存在文化差异: 编程语言通常使用具有实际意义的变量名(如NumberOfVertices), 而数学则倾向于使用简短标识符(如 $n) .$ 部分原因可能源于数学证明的传统形式—手写论证与口头阐述, 而非键入代码并编译执行. 另一个原因是: 在证明中使用错误变量名最多导致读者困惑, 但在程序中使用错误变量名则可能导致飞机失事、患者死亡或火箭爆炸.

由此带来的结果是: 数学中常常重复使用标识符, 甚至会耗尽字母表而不得不引入希腊字母, 并通过区分大小写及字体样式来扩展表示范围. 同样地, 数学符号体系大量使用“重载“机制——例如运算符 $+$ 可对应多种不同对象(实数、矩阵、有限域元素等), 其具体含义需通过上下文推断.

两个领域都存在“类型“概念. 在数学中, 我们通常约定特定字母表示特定类型的变量: 例如 $i, j, k, l, m, n$ 通常表示整数, $ϵ$ 通常表示极小正实数(相关约定详见1.7节). 阅读或撰写数学文本时, 我们无法依赖“编译器“进行类型安全检查, 因此必须密切关注每个变量的类型, 确保所有操作都是“合法“的.

Kun的著作(Kun, 2018)对数学与编程文化的异同进行了深入探讨.

1.4.8 渐近分析与大 $O$ 表示法

Quote

“ $lo g lo g lo g n$ ” 已被证明会趋近于无穷大, 但从未被实际观测到这一现象. “

——匿名, 由卡尔·波默兰斯(Carl Pomerance)引用(2000年)

精确描述运行时间等量通常非常繁琐, 且并无必要, 因为我们通常主要关注的是“高阶项“. 也就是说, 我们希望理解该量随输入变量增长时的缩放行为. 例如, 就运行时间而言, 一个 $n^{5}$ 时间算法与一个 $n^{2}$ 时间算法之间的差异, 远比 $100 n^{2} + 10 n$ 时间算法与 $10 n^{2}$ 算法之间的差异更加显著. 为此, 大 $O$ 表示法作为一种“简化表述“的方式极为有用, 它能让我们的注意力集中在真正重要的内容上. 例如, 使用大 $O$ 表示法, 我们可以说 $100 n^{2} + 10 n$ 和 $10 n^{2}$ 都简单的属于 $Θ (n^{2})$ (可非正式地理解为“在常数因子范围内相同“), 而 $n^{2} = o (n^{5})$ (可非正式地理解为 $n^{2}$ “远小于” $n^{5}) .$

通常(尽管为非正式表述), 若 $F, G$ 是两个将自然数映射到非负实数的函数, 则“ $F = O (G)$ “表示在不考虑常数因子的情况下 $F (n) \leq G (n),$ 而” $F = o (G)$ “表示 $F$ 远小于 $G,$ 其含义是: 无论给 $F$ 乘以多大的常数因子, 只要取足够大的 $n,$ $G$ 都会更大(因此, 有时会将 $F = o (G)$ 写作 $F ≪ G) .$ 如果 $F = O (G)$ 且 $G = O (F),$ 则写作 $F = Θ (G),$ 这可以理解为: 若不考虑常数因子, $F$ 与 $G$ 相同. 更形式化地, 我们如下定义大 $O$ 表示法:

定义 1.5 (大 $O$ 表示法).

设 $R_{+} = {x \in R ∣ x > 0}$ 为正实数集. 对于两个函数 $F, G : N \to R_{+},$ 若存在 $a, N_{0} \in N,$ 使得对所有 $n > N_{0}$ 有 $F (n) \leq a \cdot G (n),$ 则称 $F = O (G) .$ 若 $F = O (G)$ 且 $G = O (F),$ 则称 $F = Θ (G) .$ 若 $G = O (F),$ 则称 $F = Ω (G) .$

若对任意 $ϵ > 0,$ 存在 $N_{0}$ 使得对所有 $n > N_{0}$ 有 $F (n) < ϵ G (n),$ 则称 $F = o (G) .$ 若 $G = o (F),$ 则称 $F = ω (G) .$

nvsnsquaredfig

图 1.6. 若 $F (n) = o (G (n)),$ 则当 $n$ 足够大时, $F (n)$ 将小于 $G (n) .$ 例如, 若算法 $A$ 的运行时间为 $1000 \cdot n + 1 0^{6},$ 算法 $B$ 的运行时间为 $0.01 n^{2},$ 那么即使 $B$ 在小输入时更高效, 当输入足够大时, $A$ 的运行速度将远快于 $B$

在大 $O$ 表示法中使用“匿名函数“通常很方便. 例如, 当我们写 $F (n) = O (n^{3})$ 这样的语句时, 我们的意思是 $F = O (G),$ 其中 $G$ 是定义为 $G (n) = n^{3}$ 的函数. Jim Apsnes的离散数学笔记第七章很好地总结了大 $O$ 表示法; 另可参阅本教程, 以获得更温和且更面向程序员的介绍.

$O$ 并不表示相等. 在大 $O$ 表示法中使用等号极为常见, 但这种用法其实并不准确, 因为诸如 $F = O (G)$ 的语句实际上表示 $F$ 属于集合 ${G^{'} : \exists_{N, c} 使得 \forall_{n > N} G^{'} (n) \leq c G (n)} .$ 如果说有什么更合理的表示法, 那就是使用不等式写作 $F \leq O (G)$ 和 $F \geq Ω (G),$ 而将等号保留给 $F = Θ (G) .$ 因此, 我们有时也会使用这种表示法, 但由于使用等号的习惯已经根深蒂固, 我们通常也沿用此习惯. (有些文献写作 $F \in O (G)$ 而非 $F = O (G),$ 但我们不会使用这种表示法. )尽管等号可能引起误解, 但请记住: 诸如 $F = O (G)$ 的语句表示在忽略常数的粗略意义上 $F$ “至多“为 $G,$ 而诸如 $F = Ω (G)$ 的语句表示在相同粗略意义上 $F$ “至少“为 $G .$

1.4.9 关于大 $O$ 表示法的一些“经验法则“

在比较两个函数 $F$ 和 $G$ 时, 有一些简单的经验法则可供参考:

在大 $O$ 表示法中, 乘性常数不影响结果. 因此, 若 $F (n) = O (G (n)),$ 则 $100 F (n) = O (G (n)) .$ 当两个函数相加时, 我们只需要关注较大着. 例如, 在大 $O$ 表示法的语句下, $n^{3} + 100 n^{2}$ 与 $n^{3}$ 等价. 一般而言, 对于任意多项式, 我们只需关注高阶项.
对于任意两个常数 $a, b > 0,$ 当且仅当 $a \leq b$ 时, $n^{a} = O (n^{b})$ 成立, 当且仅当 $a < b$ 时, $n^{a} = o (n^{b})$ 成立. 例如, 综合以上两点可知: $100 n^{2} + 10 n + 100 = o (n^{3}) .$
多项式函数始终小于指数函数: 对于任意两个常数 $a > 0$ 和 $ϵ > 0$ (即使 $ϵ$ 远小于 $a),$ 都有 $n^{a} = o (2^{n^{ϵ}}) .$ 例如, $100 n^{100} = o (2^{n}) .$
类似地, 对数函数始终小于多项式函数: 对于任意两个常数 $a, ϵ > 0,$ $(lo g n)^{a}$ (记作 $lo g^{a} n)$ 满足 $o (n^{ϵ}) .$ 例如, 综合上述观察可得: $100 n^{2} lo g^{1} 00 n = o (n^{3}) .$

Info

备注 1.4 (大 $O$ 表示法的其他应用场景(可选)).

虽然大 $O$ 表示法常用于分析算法的时间复杂度, 但这绝非其唯一用途. 我们可以用大 $O$ 表示法来限定任意两个从整数映射到正数的函数之间的渐近关系. 无论这些函数是衡量运行时间、内存使用量, 还是其他与计算无关的量, 该方法均适用. 以下是一个与本书无关的例子(你可选择跳过): 黎曼猜想(数学领域最著名的未解问题之一)的一种表述方式是: 在 $0$ 到 $n$ 之间的质数数量等于 $\int_{2}^{n} \frac{1}{l n x} d x,$ 且其加性误差至多为 $O (n lo g n) .$

1.5 证明

许多人认为数学证明是从若干公理出发, 通过逻辑推导最终得出结论的过程. 事实上, 某些词典也采用这种方式定义证明. 这种理解并非完全错误, 但从本质而言, 对命题X的数学证明实质上是一个能让读者确信X为真且不容置疑的论证过程.

构建此类证明需要做到:

精确理解X的含义.
使自己确信X为真.
用清晰、准确、简洁的书面英语记录推理过程(仅在有助于明确性时使用公式或符号).

多数情况下, 第一步最为关键. 理解命题含义往往比理解其真理性更耗费心力. 在第三步中, 为使读者毫无疑虑, 我们常需将推理分解为若干“基本步骤“, 其中每个步骤都应简单到“不言自明“的程度——所有步骤的叠加最终导出目标命题.

1.5.1 证明与程序

证明写作与程序编写具有高度相似性, 且二者所需的技能也高度重合. 程序编写包含:

理解程序需要实现的功能.
确信该功能可通过计算机实现(可通过在白板或记事本上规划如何拆解为子任务来实现).
将规划转化为编译器或解释器可读的代码(通过将每个任务拆解为某种编程语言的基本操作序列).
与证明过程类似, 程序设计的第一步往往最为关键. 核心区别在于: 证明的阅读者是人类, 而程序的阅读者是计算机(随着机器可验证证明形式的普及, 这种差异正在逐渐消弭; 此外, 为确保程序的正确性与可维护性, 人类可读性至关重要). 因此我们特别强调证明的逻辑流畅性与可读性(这对程序编写同样重要). 撰写证明时, 应假想读者是聪明但极度多疑且挑剔的, 他们会对任何未充分论证的步骤提出质疑.

1.5.2 证明的书写风格

数学证明是一种特定类型的写作形式, 具有独特的惯例与偏好风格. 如同所有写作类型, 熟能生巧, 且通过修改草稿提升清晰度至关重要.

在命题 $X$ 的证明中, “ 证明: “与” 证毕 “之间的所有文字都应专注于论证 $X$ 的真实性. 题外话、示例或沉思应置于这两个标记之外, 以免造成读者困惑. 证明应具备清晰的逻辑流: 每个句子或公式都应有明确目的, 且读者能清晰理解其作用. 撰写证明时, 应对每个句子或公式进行审视:

该句子/公式是否在声明某个命题为真?
若是, 该命题是从前述步骤推导而来, 还是将在后续步骤中建立?
这个句子/公式起什么作用? 是通向原命题证明的一步, 还是为证明先前所述的中间论断而设?
最后, 读者是否能清晰理解前三个问题的答案? 若否, 则需要调整顺序、重新表述或补充说明.

关于数学写作的推荐资源包括Lee的讲义、Hutching的讲义, 以及斯坦福大学CS103课程中的若干优秀讲义.

1.5.3 证明的方法

Quote

“假如事情是这样, 那就有可能; 假如事情是这样, 那就会是; 但既然事情不是这样, 那就不是. 这就是逻辑. “

——刘易斯·卡罗尔(Lewis Carroll)《爱丽丝镜中奇遇记》

正如编程一样, 证明亦有数种常用的方法. 以下是一些例子:

反证法: 证明 $X$ 的一种方式是展示, 若 $X$ 为假, 则会导致导出矛盾. 这种类型的证明通常由一句“假设, 为了得出矛盾, $X$ 为假“作为开头, 并以推导出一个矛盾作为结尾(如违反定理陈述中的某个假设). 以下是一个例子:

引理 1.8.

不存在自然数 $a, b$ 使得 $2 = \frac{a}{b} .$

证明

假设, 为了得出矛盾, 上述引理为假. 令 $a \in N$ 为满足 $2 = \frac{a}{b}$ 的最小自然数(其中 $b \in N) .$ 对此等式两侧平方有 $2 = a^{2} / b^{2},$ 即 $a^{2} = 2 b^{2}$ $(*) .$ 此式表明 $a^{2}$ 为偶数. 由于两个奇数之积亦为奇数, 这表明 $a$ 必须是偶数, 即存在 $a^{'} \in N$ 使得 $a = 2 a^{'} .$ 将此式代入 $(*)$ 有 $4 a^{'2} = 2 b^{2},$ 即 $b^{2} = 2 a^{'2},$ 且这表明 $b^{2}$ 亦为为偶数. 与 $a$ 类似, 我们亦可得到 $b$ 为偶数. 因此, $a /2$ 与 $b /2$ 为两个满足 $\frac{a /2}{b /2} = 2$ 的自然数, 这与 $a$ 的最小性相矛盾.

全称命题的证明: 我们经常需要证明形如“所有类型为 $O$ 的对象都具有性质 $P$ “的命题 $X .$ 这类证明通常以“设 $o$ 为类型 $O$ 的一个对象“开始, 并通过证明 $o$ 具有性质 $P$ 来结束, 以下是一个简单的例子:

引理 1.9.

对于任意自然数 $n \in N,$ $n$ 和 $n + 1$ 中必有一个是偶数.

证明

证明: 设 $n \in N$ 为任意自然数. 若 $n /2$ 为整数, 则 $n = 2 (n /2),$ 因此 $n$ 是偶数, 证毕. 否则, $n /2 + 1/2$ 是整数, 因此 $2 (n /2 + 1/2) = n + 1$ 是偶数.

蕴含命题的证明: 另一种常见情况是命题 $X$ 形如“ $A$ 蕴含 $B$ “. 这类证明通常以“假设 $A$ 成立“开始, 并通过从 $A$ 导出 $B$ 来结束. 以下是一个简单的例子:

引理 1.10.

如果 $b^{2} \geq 4 a c,$ 则二次方程 $a x^{2} + b x + c = 0$ 有解.

证明

证明: 假设 $b^{2} \geq 4 a c .$ 则 $d = b^{2} - 4 a c$ 是一个非负数, 因此存在平方根 $s .$ 于是 $x = (- b + s) / (2 a)$ 满足:

$a x^{2} + b x + c = a (- b + s)^{2} / (4 a^{2}) + b (- b + s) / (2 a) + c = (b^{2} - 2 b s + s^{2}) / (4 a) + (- b^{2} + b s) / (2 a) + c (1.4)$ 整理(1.4), 我们得到: $s^{2} / (4 a) + c - b^{2} / (4 a) = (b^{2} - 4 a c) / (4 a) + c - b^{2} / (4 a) = 0$

等价命题的证明: 如果命题形如“ $A$ 当且仅当 $B$ “(通常简写为” $A$ iff $B$ “), 那么我们需要同时证明 $A$ 蕴含 $B$ 和 $B$ 蕴含 $A .$ 我们将 $A$ 蕴含 $B$ 的方向称为“仅当“方向, 将 $B$ 蕴含 $A$ 的方向称为“当“方向.

通过中间结论组合的证明: 当证明较为复杂时, 将其分解为多个步骤通常是有帮助的. 也就是说, 为了证明命题 $X,$ 我们可能先证明命题 $X_{1}$ 、 $X_{2}$ 和 $X_{3},$ 然后证明 $X_{1} \land X_{2} \land X_{3}$ 蕴含 $X .$ (注: $\land$ 表示逻辑与运算符. )

分情况证明: 这是上述方法的一种特殊形式, 即为了证明命题 $X,$ 我们将其分为若干情况 $C_{1}, \dots, C_{k},$ 并证明: (a) 这些情况是穷尽的, 即其中一种情况 $C_{i}$ 必须发生; (b) 逐一证明每种情况 $C i$ 都能推导出我们想要的结果 $X .$

数学归纳法证明: 我们将在下面的第1.6.1节中讨论数学归纳法并给出示例. 我们可以将这类证明视为上述方法的变体, 其中我们有无穷多个中间结论 $X_{0}, X_{1}, X_{2}, \dots, X_{k},$ 并证明 $X_{0}$ 成立, 且 $X_{0}$ 蕴含 $X_{1},$ $X_{0} \land X_{1}$ 蕴含 $X_{2},$ 依此类推. 卡内基梅隆大学15-251课程的网站提供了一份有用的讲义, 介绍了使用数学归纳法时可能遇到的常见陷阱.

“不失一般性”(without loss of generality, w.l.o.g): 这个术语最初可能令人困惑. 它本质上是一种通过简化情况分析来简化证明的方法. 其思想是, 如果情况1和情况2在变量替换或类似变换下是相同的, 那么情况1的证明也隐含了情况2的证明. 但对此应始终保持怀疑态度. 每当在证明中看到它时, 问问自己是否理解为什么所做的假设是真正“不失一般性“的; 而当使用它时, 尝试确认这种使用是否确实合理. 在撰写证明时, 有时最简单的方法是直接重复第二种情况的证明(并添加注释说明该证明与第一种情况非常相似).

Info

备注 1.5 (分层证明(可选)).

数学证明最终是用英文散文写的. 知名计算机科学家Leslie Lamport认为这是一个问题, 证明应该以更形式化和严谨的方式书写. 他在手稿中提出了一种结构化分层证明的方法, 其形式如下:

对于形如“如果 $A$ 则 $B$ “的命题, 其证明是一系列编号的声明, 以假设 $A$ 成立开始, 并以声明 $B$ 成立结束.
每个声明后面都附有一个证明, 展示它如何从先前的假设或声明推导出来.
每个声明的证明本身又是一系列子声明.

Lamport格式的优点在于, 证明中每个句子的作用非常清晰. 此外, 这种证明也更容易转换为机器可检查的形式. 缺点在于, 这类证明可能读起来和写起来都很繁琐, 且论证的重要部分与常规部分之间的区分不够明显.

1.6 扩展示例: 拓扑排序

在本节中, 我们将证明如下结论: 每个有向无环图(DAG, 参见定义 1.4)都可以进行分层排列, 使得对于所有有向边 $u \to v,$ 顶点 $v$ 所在的层都大于 $v$ 所在的层. 这一结论被称为拓扑排序, 被广泛应用于任务调度、构建系统、软件包管理、电子表格单元格计算等场景(见图 1.7). 事实上, 在本书后续内容中我们也会用到这一结论.

topologicalsortfig

图 1.7. 拓扑排序示例. 我们考虑某个计算机科学专业课程先修关系对应的有向图, 其中边 $u \to v$ 表示课程 $u$ 是课程 $v$ 的先修课程. 对该图进行分层或“拓扑排序“等价于将课程映射到不同学期, 使得若我们计划在学期 $f (v)$ 修读课程 $v,$ 则已在此前的学期修完 $v$ 的所有先修课程(即其入邻居)

我们首先给出如下定义. 有向图的分层是指为每个顶点 $v$ 分配一个自然数(对应其所在层)的方法, 要求 $v$ 的入邻居处在更低编号的层, 而出邻居处于更高编号的层. 形式化定义如下:

定义 1.6 (DAG的分层).

设 $G = (V, E)$ 为有向图cd, $G$ 的分层是一个函数 $f : V \to N,$ 使得对于 $G$ 的每条边 $u \to v,$ 都有 $f (u) < f (v) .$

本节将证明: 有向图是无环的当且仅当其存在有效分层.

定理 1.1 (拓扑排序).

设 $G$ 为有向图, 则 $G$ 是无环的当且仅当存在 $G$ 的分层函数 $f .$

要证明此类定理, 首先需要理解其含义. 由于这是一个“当且仅当“类型的陈述, 定理 1.1对应两个命题:

引理 1.11.

对于任意有向图 $G,$ 若 $G$ 无环, 则存在对应的分层.

引理 1.12.

对于任意有向图 $G,$ 若其存在分层, 则 $G$ 无环.

要证明定理 1.1, 则需同时证明引理 1.11和引理 1.12. 引理 1.12的证明实际上并不困难: 直观上, 若 $G$ 包含环, 则环上所有边的层数不可能全程递增—因为沿着环行进时必然会回到起点. 形式化证明如下:

对引理 1.12的证明

证明: 设 $G = (V, E)$ 为有向图, $f : V \to N$ 是符合定义 1.6的分层函数. 用反证法假设 $G$ 不是无环图, 即存在环 $u_{0}, u_{1}, \dots, u_{k}$ 满足 $u_{0} = u_{k},$ 且对每个 $i \in [k]$ 都有边 $u_{i} \to u_{i + 1}$ 属于 $G .$ 由于 $f$ 是分层函数, 对每个 $i \in [k]$ 有 $f (u_{i}) < f (u_{i + 1}),$ 这意味着: $f (u_{0}) < f (u_{1}) < \dots < f (u_{k})$ 但这与 $u_{0} = u_{k}$ 导出的 $f (u_{0}) = f (u_{k})$ 相矛盾.

引理 1.11对应着更复杂(但更有用)的方向. 要证明它, 需要说明如何为任意有向无环图 $G$ 构造分层, 使得所有边“指向上层“.

Tip

暂停思考:

若未曾见过该定理的证明(或者已经遗忘), 此时建议暂停阅读并尝试自行证明. 一种思路是描述算法: 输入为具有 $n$ 个顶点和不超过 $n - 2$ 条边的有向无环图 $G,$ 输出长度为 $n$ 的数组 $F,$ 使得对于图中每条边 $u \to v$ 都有 $F [u] < F [v] .$

1.6.1 数学归纳法

证明引理 1.11存在多种方法. 一种做法是: 首先针对小型图(如具有1、2或3个顶点的图, 参见图 1.8进行证明——这类有限情形可通过穷举法验证, 随后尝试将证明推广至更大规模的图. 这种证明方法的技术术语称为归纳证明.

topologicalsortexamplesfig

图 1.8. 具有一、二、三个顶点的有向无环图示例及顶点分层标注的有效方式

归纳法本质上是显而易见的“肯定前件“逻辑规则(Modus Ponens)的应用, 该规则指出: 若(a) 命题 $P$ 为真, 且(b) $P$ 蕴含 $Q,$ 则 $Q$ 为真.

在归纳证明的框架中, 我们通常有一个由整数 $k$ 参数化的命题 $Q (k),$ 并通过证明以下两点来完成: (a) $Q (0)$ 为真; (b) 对任意 $k > 0,$ 若 $Q (0), \dots, Q (k - 1)$ 均为真, 则 $Q (k)$ 为真(尽管证明(b)通常是难点, 但也存在需要巧妙处理“基础情形“(a)的案例). 通过运用肯定前件规则, 我们可以从(a)和(b)推导出 $Q (1)$ 为真. 继而基于 $Q (0)$ 与 $Q (1)$ 为真的事实, 结合(b)再次运用肯定前件规则可推出 $Q (2)$ 为真. 如此循环往复, 可证得对所有 $k$ 均有 $Q (k)$ 为真. 其中(a)称为“基础情形“, (b)称为“归纳步骤“, (b)中假设 $Q (i)$ 对 $i < k$ 成立的条件称为“归纳假设“(此处描述的归纳形式有时被称为“强归纳法“, 以区别于“弱归纳法“——后者将(b)替换为“若 $Q (k - 1)$ 为真则 $Q (k)$ 为真“; 弱归纳法可视为强归纳法的特例, 即不要求使用 $Q (0), \dots, Q (k - 2)$ 为真的条件).

Info

备注 1.6 (归纳和递归).

归纳证明与递归算法密切相关. 两者都是通过将大规模问题转化为较小规模的同类实例来求解. 在解决输入规模为 $k$ 的问题 $P$ 时, 递归算法会预设“若已获得解决规模小于 $k$ 的 $P$ 问题实例的方法“; 而在证明参数为 $k$ 的命题 $Q$ 时, 归纳法会思考“若已知对任意 $k^{'} < k$ 均有 $Q (k^{'})$ 为真“.

归纳与递归都是本课程及计算机科学领域(甚至数学与其他科学领域)的核心概念. 初学者可能会感到困惑, 但随着实践积累将会逐渐理解. 若需进一步了解归纳证明与递归, 可参考斯坦福大学CS103课程讲义、MIT 6.00课程讲座或Lehman-Leighton专著节选.

1.6.2 通过归纳证明结论

通过归纳法证明引理 1.11有多种方式. 我们将基于顶点数量 $n$ 进行归纳, 因此定义命题 $Q (n)$ 如下:

$Q (n)$ 表示: “对于每个具有 $n$ 个顶点的有向无环图 $G = (V, E),$ 都存在对 $G$ 的分层赋值. “

当 $n = 0$ (即图不含顶点)时命题显然成立. 因此只需证明: 对于每个 $n > 0,$ 若 $Q (n - 1)$ 成立则 $Q (n)$ 成立.

为此, 我们需要找到一种方法: 给定具有 $n$ 个顶点的图 $G,$ 将寻找 $G$ 分层的问题转化为寻找具有 $n - 1$ 个顶点的其他图 $G'$ 的分层问题. 核心思路是找到 $G$ 的一个源点(即没有入边的顶点 $v) .$ 随后将顶点 $v$ 分配至0层, 并依据归纳假设将剩余顶点分配至 $1, 2, \dots$ 等层.

以上是引理 1.11证明的直观思路. 但在撰写正式证明时, 我们将基于后见之明进行优化, 将原本曲折的推理过程转化为从“证明: “开始到“证毕(QED¹)”(或符号 $■)$ 结束的线性化逻辑流. 讨论、示例和旁注虽颇具启发性, 但应该置于这两个标记界定的空间之外——正如优秀的指南所述, 此空间内“每个句子都必须承担论证功能“. 如同编程, 我们可以将证明分解为小型“子程序“或“函数“(数学中称为引理或断言), 即通过辅助性小命题来证明主要结论. 但证明结构必须确保读者能清晰把握论证阶段, 理解每个句子的作用及所属部分. 现正式证明引理 1.11.

对引理 1.11的证明

证明: 设 $G = (V, E)$ 为有向无环图, $n = ∣ V ∣$ 为其顶点数. 采用对 $n$ 归纳法证明. 基础情形 $n = 0$ 时命题显然成立. 当 $n > 0$ 时, 归纳假设为: 所有顶点数不超过 $n - 1$ 的有向无环图 $G'$ 均存在分层.

首先建立如下断言:

断言: 图 $G$ 必存在入度为零的顶点 $v .$

断言证明: 假设反之, 即每个顶点 $v \in V$ 都有入邻居. 任取顶点 $v_{0},$ 令 $v_{1}$ 为 $v_{0}$ 的入邻点, $v_{2}$ 为 $v_{1}$ 的入邻点, 依此重复 $n$ 步构造序列 $v_{0}, v_{1}, \dots, v_{n},$ 其中每个 $i \in [n]$ 都有 $v_{i + 1}$ 是 $v_{i}$ 的入邻点(即存在边 $v_{i + 1} \to v_{i}) .$ 由于图仅含 $n$ 个顶点, 该序列的 $n + 1$ 个顶点中必存在重复, 即存在 $i < j$ 使得 $v_{i} = v_{j} .$ 此时序列 $v_{j} \to v_{j - 1} \to \dots \to v_{i}$ 构成环, 与有向无环图假设矛盾. (断言证毕)

根据该断言, 取 $v_{0}$ 为 $G$ 中某个入度为零的顶点, 令 $G'$ 为移除 $v_{0}$ 后得到的图. $G'$ 含 $n - 1$ 个顶点, 由归纳假设存在分层函数 $f' : (V </span> v_{0}) \to N . 定义函数 f : V \to N 如下: f (v) = {f^{'} (v) + 1 0 v \neq = v_{0} v = v_{0}$

需证 $f$ 是有效的分层赋值, 即对任意边 $u \to v$ 满足 $f (u) < f (v) .$ 分情形讨论:

情形1: $u \neq = v_{0}$ 且 $v \neq = v_{0} .$ 此时边 $u \to v$ 存在于 $G'$ 中, 由归纳假设有 $f' (u) < f' (v),$ 故 $f' (u) + 1 < f' (v) + 1.$
情形2: $u = v_{0}$ 且 $v \neq = v_{0} .$ 此时 $f (u) = 0,$ 而 $f (v) = f' (v) + 1 > 0.$
情形3: $u \neq = v_{0}$ 且 $v = v_{0} .$ 此情形不可能发生, 因为 $v_{0}$ 没有入邻居.
情形4: $u = v_{0}$ 且 $v = v_{0} .$ 此情形亦不可能, 因这意味着 $v_{0}$ 存在自环(属于有向无环图禁止的环结构).

故 $f$ 是 $G$ 的有效分层赋值, 证明完成.

Tip

暂停思考:

阅读证明的能力与构造证明同样重要. 事实上, 如同理解代码, 这本身就是一项高阶技能. 建议重读上述证明, 逐句思考: 其假设是否合理? 该句是否真正达成了论证目标? 另一个好习惯是在阅读时对每个变量(如上述证明中的 $u$ 、 $i$ 、 $G'$ 、 $f'$ 等)思考以下问题: (1)变量类型是什么(数字/图/顶点/函数? ); (2)已知信息有什么(是否为集合的任意元素? 是否已证明其某些性质? ); (3)试图论证的目标是什么?

1.6.3 最小性和唯一性

定理 1.1保证每个有向无环图 $G = (V, E)$ 都存在分层函数 $f : V \to N,$ 但这种分层不一定唯一. 例如, 若 $f : V \to N$ 是图的有效分层, 那么定义为 $f' (v) = 2 \cdot f (v)$ 的函数 $f'$ 也是有效分层. 然而最小分层却是唯一的——最小分层要求每个顶点都被赋予尽可能小的层数. 现正式定义最小性并陈述唯一性定理:

定理 1.2 (最小分层的唯一性).

设 $G = (V, E)$ 为有向无环图. 若对每个顶点 $v \in V :$ 当 $v$ 无入邻居时 $f (v) = 0,$ 当 $v$ 有入邻居时存在某个入邻居 $u$ 满足 $f (u) = f (v) - 1,$ 则称分层函数 $f : V \to N$ 是最小的.

对于 $G$ 的任意两个分层函数 $f, g : V \to N,$ 若 $f$ 和 $g$ 都是最小分层, 则 $f = g .$

定理 1.2中的最小性定义意味着: 对每个顶点 $v \in V,$ 我们无法在保持分层有效性的前提下将其移至更低层. 若 $v$ 是源点(即入度为零), 则最小分层 $f$ 必须将其置于 $0$ 层; 对于其他顶点 $v,$ 若 $f (v) = i,$ 则由于存在满足 $f (u) = i - 1$ 的入邻居 $u,$ 我们无法将 $f (v)$ 修改为 $i - 1$ 或更小值. 定理 1.2表明最小分层 $f$ 是唯一的, 即任何其他最小分层都与 $f$ 完全相同.

证明思路: 对层数进行归纳. 若 $f$ 和 $g$ 都是最小分层, 则它们必然在源点处取值一致(因为都必须将源点分配至 $0$ 层). 接着可证明: 若 $f$ 和 $g$ 在第 $i - 1$ 层及以下取值一致, 则最小性性质要求它们在第 $i$ 层也必须一致. 实际证明中使用了一个简化表述的技巧: 不直接证明 $f = g$ (即对每个 $v \in V$ 有 $f (v) = g (v)),$ 而是证明较弱的命题—对每个 $v \in V$ 有 $f (v) l e g (v)$ (该条件弱于相等条件, 因为 $f (v) = g (v)$ 必然蕴含 $f (v) \leq g (v)) .$ 由于 $f$ 和 $g$ 只是两个最小分层的标注符号, 通过互换符号标签即可用相同证明得到对每个 $v \in V$ 有 $g (v) \leq f (v),$ 从而证得 $f = g .$

对定理 1.2的证明

设 $G = (V, E)$ 为有向无环图, $f, g : V \to N$ 是其两个最小有效分层. 我们将通过对 $i = f (v)$ 的归纳证明: 对每个 $v \in V$ 有 $f (v) \leq g (v) .$ 由于除最小性外未对 $f, g$ 作任何假设, 该证明同样可推出对每个 $v \in V$ 有 $g (v) \leq f (v),$ 故而对每个 $v \in V$ 有 $f (v) = g (v),$ 此即所需结论.

当 $i = 0$ 时显然成立: 此时 $f (v) = 0,$ 故 $g (v)$ 至少等于 $f (v) .$ 当 $i > 0$ 时, 根据 $f$ 的最小性, 若 $f (v) = i$ 则必存在某个入邻居 $u$ 满足 $f (u) = i - 1.$ 由归纳假设得 $g (u) \geq i - 1,$ 而由于 $g$ 是有效分层, 必有 $g (v) > g (u),$ 这意味着 $g (v) \geq i = f (v) .$

Tip

暂停思考:

定理 1.2的证明虽然完全严谨, 但表述较为简练. 请务必仔细阅读并理解为何这是一个无懈可击的证明.

1.7 本书所用到的符号及规范

本书采用的大部分符号标记均为数学文本中的通用规范, 主要差异点如下:

自然数集 $N$ 的索引从 $0$ 开始(尽管许多计算机科学领域的文献亦采用相同约定)
集合 $[n]$ 的索引从 $0$ 开始, 因此其定义为 ${0, \dots, n - 1}$ (其他文献常定义为 ${1, \dots, n}) .$ 类似地, 字符串索引也从 $0$ 开始, 故字符串 $x \in {0, 1}^{n}$ 写作 $x_{0} x_{1} \dots, x_{n - 1}$
若 $n$ 为自然数, 则 $1^{n}$ 不表示数字 $1,$ 而是长度为 $n$ 的字符串 $11 \dots 1$ (即连续 $n$ 个“1“). 同理, $0^{n}$ 表示长度为 $n$ 的字符串 $00 \dots 0$
部分函数未必在所有输入上都有定义. 符号 $f : A \to B$ 默认表示全函数, 若需强调函数为部分函数时, 将采用 $f : A \to_{p} B$ 的写法
本课程主要将计算问题描述为计算布尔函数 $f : {0, 1}^{*} \to {0, 1},$ 而其他教材常采用判定语言 $L \subseteq {0, 1}^{*}$ 的表述. 这两种视角具有等价性: 对于任意集合 $L \subseteq {0, 1}^{*},$ 存在对应函数 $F$ 满足 $F (x) = 1$ 当且仅当 $x \in L .$ 计算部分函数对应文献中的“承诺问题“(promise problem). 鉴于语言表述在其他教材中更加常见, 我们将适时提醒读者注意这种对应关系
使用 $⌈ x ⌉$ 和 $⌊ x ⌋$ 分别表示向上取整和向下取整函数, $(x mod y)$ 表示 $x$ 除以 $y$ 的余数(即 $x mod y = x - y ⌊ x / y ⌋) .$ 在需要整数的语境中, 通常默认将数值隐式取整. 例如“长度为 $n$ 的字符串 $x$ “实际指 $x$ 的长度为 $⌈ n ⌉$ (依据惯例采用向上取整, 但多数情况下取整方式不影响结论)
遵循计算机科学文献惯例, 默认对数以 $2$ 为底, 即 $lo g n$ 等价于 $lo g_{2} n$
记号 $f (n) = p o l y (n)$ 是 $f (n) = n^{O (1)}$ 的缩写(即存在常数 $a, b$ 使得对足够大的 $n$ 满足 $f (n) \leq a \cdot n^{b}) .$ 类似地, $f (n) = p o l y l o g (n)$ 表示 $f (n) = p o l y (lo g n)$ (即存在常数 $a, b$ 使得对足够大的 $n$ 满足 $f (n) \leq a \cdot (lo g n)^{b})$
依照数学文献惯例, 通过添加撇号扩展标识符集: 若 $x$ 表示某对象, 则 $x^{'}$ 、 $x^{''}$ 等表示同类型的其他对象
为降低认知负荷, 定理和习题陈述中常使用 $10, 100, 1000$ 等整常数. 这类“整齐“常数通常无特殊含义, 仅为任意选取. 例如定理“算法 $A$ 在长度为 $n$ 的输入上计算函数 $F$ 至多需要 $1000 \cdot n^{2}$ 步“中的数值 $1000$ 可视为足够大的任意常数, 实际可用更小的常数 $c$ 证明 $c \cdot n^{2}$ 的界. 同理, 若问题要求证明某量至少为 $n /100,$ 实际可能存在更小的常数 $d$ 使得该量至少为 $n / d$

1.7.1 变量命名规范

正如编程一样, 数学中充满了各种各样的变量. 当你看到一个变量时, 追踪这个变量所属的类型至关重要(例如整数、字符串、函数、图等). 为了简化这一过程, 我们尝试一致的为特定的类型使用特定的变量. 部分命名规范在本节列出. 这些命名规范并不是无法更改的法则, 有时我们可能会稍微偏离这一规范. 并且, 这些规范并没有取代在声明新变量前明确指出其指代对象的要求.

本书中的变量命名规范:

标识符通常指代的对象类型

$i, j, k, ℓ, m, n$ 自然数(即集合 ${0, 1, 2, \dots}$ 中的元素)

$ϵ, δ$ 趋近于 $0$ 的正实数

$x, y, z, w$ 通常表示 ${0, 1}^{*}$ 上的字符串, 有时也表示数字或其他对象. 我们常将对象与其字符串表示视为同一

$G$ 图. 顶点集一般表示为 $V,$ 且通常 $V = [n] .$ 边集一般表示为 $E$

$S$ 集合

$f, g, h$ 函数. 通常(非绝对)用小写标识符表示有限函数(映射关系为, 常见 $m = 1)$

$F, G, H$ 无限输入函数, 映射关系为 ${0, 1}^{*} \to {0, 1}^{*}$ 或 ${0, 1}^{n} \to {0, 1}^{m}$ ( $m$ 为某定值). 根据上下文, $G, H$ 可指函数或图

$A, B, C$ 布尔电路

$M, N$ 图灵机

$P, Q$ 程序

$T$ 表示时间界限的函数, 映射关系为 $N \to N$

$c$ 正数(常指未明确的常数, 例如 $T (n) = O (n)$ 表示存在常数 $c$ 使得对所有 $n > 0$ 满足 $T (n) \leq c \cdot n) .$ 有时也以 $a, b$ 来表示此类常数

$Σ$ 有限集(通常用于表示字符串集合的字母表)

标识符	通常指代的对象类型
$i, j, k, ℓ, m, n$	自然数(即集合 ${0, 1, 2, \dots}$ 中的元素)
$ϵ, δ$	趋近于 $0$ 的正实数
$x, y, z, w$	通常表示 ${0, 1}^{*}$ 上的字符串, 有时也表示数字或其他对象. 我们常将对象与其字符串表示视为同一
$G$	图. 顶点集一般表示为 $V,$ 且通常 $V = [n] .$ 边集一般表示为 $E$
$S$	集合
$f, g, h$	函数. 通常(非绝对)用小写标识符表示有限函数(映射关系为, 常见 $m = 1)$
$F, G, H$	无限输入函数, 映射关系为 ${0, 1}^{} \to {0, 1}^{}$ 或 ${0, 1}^{n} \to {0, 1}^{m}$ ( $m$ 为某定值). 根据上下文, $G, H$ 可指函数或图
$A, B, C$	布尔电路
$M, N$	图灵机
$P, Q$	程序
$T$	表示时间界限的函数, 映射关系为 $N \to N$
$c$	正数(常指未明确的常数, 例如 $T (n) = O (n)$ 表示存在常数 $c$ 使得对所有 $n > 0$ 满足 $T (n) \leq c \cdot n) .$ 有时也以 $a, b$ 来表示此类常数
$Σ$	有限集(通常用于表示字符串集合的字母表)

1.7.2 一些惯用表达

数学文本通常遵循特定惯例或“惯用表达“. 本文使用的一些典型惯用表达包括:

“设 $X$ 为…”、“令 $X$ 表示…“或“令 $X = \dots$ ”: 这些都是在表达 $X$ 指代省略号所代表的内容. 当 $X$ 表示某些对象的属性时我们可能会通过“若…满足…条件, 则称其具有性质 $X$ “的方式来定义. 虽然我们尽量先定义后使用, 但有时为了语句流畅会在定义前使用术语, 此时会通过“其中 $X$ 指…“的说明来解释前述表达中 $X$ 的含义.
量词: 数学文本涉及大量“对于所有“和“存在“等量词. 有时我们会完整拼写为“对于所有 $i \in N$ “或“存在 $x \in {0, 1}^{*}$ ”, 有时则直接使用符号 $\forall$ 和 $\exists.$ 必须注意每个变量的量化方式及其依赖关系. 例如“对于每个 $k > 0,$ 存在 $n$ “意味着 $n$ 的选择依赖于 $k .$ 量词顺序至关重要: 命题“对每个大于 $1$ 的自然数 $k,$ 都存在质数 $n$ 能整除 $k$ “为真, 而“存在质数 $k$ 能整除每个大于 $1$ 的自然数 $k$ “则为假.
编号公式、定理、定义: 为便于追溯已定义术语和已证明命题, 我们通常为其添加(数字)标签, 并在文中其他部分引用.
(i.e.,)与(e.g.,): 数学文本中常见这类拉丁缩写. 当 $Y$ 与 $X$ 等价时使用“ $X$ (i.e., $Y)$ “; 当 $Y$ 是 $X$ 的实例时使用” $X$ (e.g., $Y)$ “, 如“自然数(i.e., 非负整数)“或“自然数(e.g., 77)”.
“因此”、“故而”、“可得”: 这些词引导的句子是由前文推导得出的结论, 例如“具有 $n$ 个顶点的图 $G$ 是连通的, 因此它至少包含 $n - 1$ 条边“. 有时使用“实际上“引出的文本来论证前句主张, 如“具有 $n$ 个顶点的图 $G$ 至少包含 $n - 1$ 条边. 实际上这是因为 $G$ 具有连通性. “
常数: 在计算机科学中, 我们通常关注算法资源消耗(如运行时间)随某些量(如输入长度)的变化规律. 将不依赖于输入长度的量称为常数, 因此常出现如下表述: “存在常数 $c > 0,$ 使得对任意 $n \in N,$ 算法 $A$ 在长度为 $n$ 的输入上至多运行 $c \cdot n^{2}$ 步. “虽然严格来说“常数“这个限定词并非必要, 但加上它可以强调 $c$ 是与 $n$ 无关的固定值. 有时为降低认知负荷, 我们会直接用10/100/1000等足够大的整数替代 $c,$ 或采用大 $O$ 表示法表述为“算法 $A$ 的时间复杂度为 $O (n^{2})$ ”.

回顾

需要掌握的基本数学数据结构包括: 数字、集合、元组、字符串、图和函数
可通过基础对象定义更复杂的概念, 例如图可通过顶点对集合来定义
基于精确定义的对象可表述明确无歧义的命题, 并通过数学证明判定真伪
数学证明并非形式化的仪式, 而是认证命题真实性的清晰、严密且无懈可击的论证
大 $O$ 表示法是去掉次要细节、聚焦核心数量关系的极佳形式化工具
掌握数学概念的唯一途径是在解决问题中实践运用, 预计您需要在本课程学习中反复查阅本章的定义与符号

1.8 习题

习题 1.1 (逻辑表达式).

a. 写出一个涉及变量 $x_{0}, x_{1}, x_{2}$ 以及运算符 $\land$ (与)、 $\lor$ (或)和 $\neg$ (非)的逻辑表达式 $φ (x),$ 使得当多数输入为真时 $φ (x)$ 为真.

b. 写出一个涉及变量 $x_{0}, x_{1}, x_{2}$ 以及运算符 $\land$ (与)、 $\lor$ (或)和 $\neg$ (非)的逻辑表达式 $φ (x),$ 使得当输入之和 $\sum_{i = 0}^{2} x_{i}$ (将“真“视为 $1,$ “假“视为 $0)$ 为奇数时 $φ (x)$ 为真.

习题 1.2 (量词).

使用逻辑量词 $\forall$ (对所有)、 $\exists$ (存在), 以及 $\land, \lor, \neg$ 和算术运算符 $+, \times, =, >, <$ 写出以下表达式:

a. 表达式 $φ (n, k)$ 使得对每个自然数 $n, k,$ $φ (n, k)$ 为真当且仅当 $k$ 整除 $n .$

b. 表达式 $φ (n)$ 使得对每个自然数 $n,$ $φ (n)$ 为真当且仅当 $n$ 是 $3$ 的幂.

习题 1.3. 用文字描述以下语句: $\forall_{n \in N} \exists_{p > n} \forall a, b \in N (a \times b \neq = p) \lor (a = 1) .$

习题 1.4 (集合构造表示法).

用文字描述以下集合:

a. $S = {x \in {0, 1}^{100} : \forall_{i \in {0, \dots, 99}} x_{i} = x_{99 - i}}$

b. $T = {x \in {0, 1}^{*} : \forall_{i, j \in {2, \dots, ∣ x ∣ - 1}} i \cdot j \neq = ∣ x ∣}$

习题 1.5 (单射映射的存在性).

对以下每组集合对 $(S, T),$ 证明或证伪以下命题: 存在一个从 $S$ 到 $T$ 的单射函数 $f .$

a. 设 $n > 10,$ $S = {0, 1}^{n},$ $T = [n] \times [n] \times [n] .$

b. 设 $n > 10,$ $S$ 是所有从 ${0, 1}^{n}$ 到 ${0, 1}$ 的函数的集合, $T = {0, 1}^{n^{3}} .$

c. 设 $n > 100,$ $S = {k \in [n] ∣ k 是质数},$ $T = {0, 1}^{⌈ l o g n - 1 ⌉} .$

习题 1.6 (容斥定理).

a. 设 $A, B$ 为有限集, 证明 $∣ A \cup B ∣ = ∣ A ∣ + ∣ B ∣ - ∣ A \cap B ∣.$

b. 设 $A_{0}, \dots, A_{k - 1}$ 为有限集, 证明 $∣ A_{0} \cup \dots \cup A_{k - 1} ∣ \geq \sum_{i = 0}^{k - 1} ∣ A_{i} ∣ - \sum_{0 \leq i < j < k} ∣ A_{i} \cap A_{j} ∣.$

c. 设 $A_{0}, \dots, A_{k - 1}$ 是 ${1, \dots, n}$ 的有限子集, 且对每个 $i \in [k]$ 有 $∣ A_{i} = m ∣.$ 证明若 $k > 100 n,$ 则存在两个不同的集合 $A_{i}, A_{j}$ 使得 $∣ A_{i} \cap A_{j} ∣ \geq m^{2} / (10 n) .$

习题 1.7.

证明若 $S, T$ 有限且 $F : S \to T$ 是单射, 则 $∣ S ∣ \leq ∣ T ∣.$

习题 1.8.

证明若 $S, T$ 有限且 $F : S \to T$ 是满射, 则 $∣ S ∣ \geq ∣ T ∣.$

习题 1.9. 证明对于任意有限集 $S, T,$ 存在 $(∣ T ∣ + 1)^{∣ S ∣}$ 个从 $S$ 到 $T$ 的部分函数.

习题 1.10. 假设 ${S_{n}}_{n \in N}$ 是一个序列, 满足 $S_{0} \leq 10$ 且对 $n > 1$ 有 $S_{n} \leq 5 S_{⌊ \frac{n}{5} ⌋} + 2 n .$ 用归纳法证明对每个 $n$ 有 $S_{n} \leq 100 n lo g n .$

习题 1.11. 证明对任意含有100个顶点的无向图 $G,$ 若每个顶点的度数最多为4, 则存在一个至少包含20个顶点的子集 $S,$ 使得 $S$ 中任意两个顶点均不相邻.

习题 1.12 (大 $O$ 表示法).

对以下每组函数, 判断下列关系是否成立: $F = O (G)$ 、 $F = Ω (G)$ 、 $F = o (G)$ 或 $F = ω (G) .$

$F (n) = n,$ $G (n) = 100 n .$
$F (n) = n,$ $G (n) = n .$
$F (n) = n lo g n,$ $G (n) = 2^{(l o g n)^{2}} .$
$F (n) = n,$ $G (n) = 2^{l o g n} .$
$F (n) = (⌈ 0.2 n ⌉ n),$ $G (n) = 2^{0.1 n}$ (其中 $(k n)$ 是大小为 $n$ 的集合中大小为 $k$ 的子集数量). 提示见脚注².

习题 1.13. 举例说明一对函数 $F, G : N \to N$ 满足 $F = O (G)$ 和 $G = O (F)$ 均不成立.

习题 1.14. 证明对于任意 $n$ 的顶点的无向图 $G,$ 若 $G$ 至少有 $n$ 条边, 则 $G$ 包含环.

习题 1.15. 证明对于任意1000个顶点的无向图 $G,$ 若每个顶点的度数最多为4, 则存在一个至少包含200个顶点的子集 $S,$ 使得 $S$ 中任意两个顶点互不相邻.

1.9 参考书目

标题“一个数学家的辩白“指的是哈代所著的经典作品(Hardy, 1941). 即便哈代的观点存在谬误, 其著作仍极具阅读价值.

本书所需的数学背景知识可参考众多网络资源. 其中麻省理工学院6.042课程《计算机科学数学》(Lehman, Leighton, Meyer, 2018)的讲义内容极为全面, 课程视频与作业均在线公开. 伯克利CS70课程《离散数学与概率论》同样提供详尽的在线讲义.

离散数学的其他参考资料包括罗森著作(Rosen, 2019)及吉姆·阿斯彭斯的在线教材(Aspens, 2018). 刘易斯与扎克斯(Lewis, Zax, 2019)以及弗莱克的在线著作(Fleck, 2018)对相同内容作了更通俗的阐释. 索洛(Solow, 2014)是证明阅读与写作的优质入门指南. 库恩(Kun, 2018)为具有编程背景的读者撰写了数学导论. 斯坦福CS103课程提供关于数学证明技巧与离散数学的精彩讲义合集.

定义 1.2中“graph“(图)一词由数学家西尔维斯特于1878年参照用于分子可视化的化学图式所创. 需注意该术语与通常表示数据图表(尤其是函数 $f (x)$ 相对于 $x$ 的图像)的“graph“存在语义混淆. 二者可通过以下方式建立关联: 将函数 $f : A \to B$ 与定义在顶点集 $V = A \cup B$ 上的有向图 $G_{f}$ 相关联, 使得对每个 $x \in A,$ $G_{f}$ 都包含一条从 $x$ 指向 $f (x)$ 的边. 在此构造的有向图 $G_{f}$ 中, $A$ 集内每个顶点的出度均为 $1.$ 若函数 $f$ 是单射, 则 $B$ 集内每个顶点的入度至多为 $1;$ 若函数 $f$ 是满射, 则 $B$ 集内每个顶点的入度至少为 $1;$ 若 $f$ 是双射, 则 $B$ 集内每个顶点的入度恰好为 $1.$

卡尔·波默兰斯的引文出自多伦·齐尔伯格的个人主页.

1: QED即拉丁文quod erat demonstrandum“, 意为“这被证明了“

2: 一种方法是对阶乘函数使用斯特林近似.

计算与表示

计算与表示

Quote

“字母表是一项伟大的发明, 使人们能够轻松地储存并学习他人经过艰难努力才获得的知识 —— 也就是说, 可以通过书本学习, 而非通过与真实世界直接且可能痛苦的接触来学习. “

-B.F. Skinner

Quote

“这首歌的名字叫作 ‘HADDOCK’S EYES’.” 骑士说道.

“哦, 这就是歌的名字吗? “ 爱丽丝如此问, 努力装作有兴趣.

“不, 你没明白, “ 骑士有些恼火. “这首歌只是名字被叫作这个. 这首歌的名字其实是 ‘THE AGED AGED MAN’. “

“那我应该说, ‘这首歌被叫做这个’? “ 爱丽丝认真想了想.

“不, 你不该那么说: 那完全是另一回事! 这首歌被叫作 ‘WAYS AND MEANS’, 但你知道, 那只是它被叫作这个而已! “

“那么, 这首歌究竟是什么呢? “ 爱丽丝问道, 此时她已经完全被搞糊涂了.

“我正要说到这点, “ 骑士回答道. “这首歌其实是 ‘A-SITTING ON A GATE’, 而曲调是我自创的. “

Lewis Carroll, 爱丽丝镜中奇遇

学习目标

区分规范与实现, 亦即区分数学函数与算法/程序.
将对象表示为字符串(通常由 0 和 1 构成).
常见对象(如自然数、向量、列表与图)的表示实例.
前缀无关编码.
Cantor定理: 实数无法被有限长字符串精确表示.

input_output_fig

图 2.1. 我们对计算最基本的理解, 是把它看作一种将输入转化为输出的过程.

从初步的角度看, 计算是一个将输入映射为输出的过程.

在谈论计算时, 一个关键点是要区分两个问题: 需要完成的任务是什么(即规范), 以及 如何去实现这一任务(即实现方式). 例如, 正如我们已经看到的, 计算两个整数的乘积这一任务, 并不只有唯一的一种实现方式.

在本章中, 我们将聚焦于 “是什么” 部分, 即如何定义计算任务. 而这首先要求我们明确定义 输入与输出. 要囊括所有可能的输入和输出似乎颇具挑战性, 因为如今计算已经被应用在各种各样的对象上, 不仅是数字, 还可以是文本, 图像, 视频, 例如社交网络的连接图, MRI 扫描结果, 基因组数据, 甚至是其它程序.

我们将尝试把所有这些对象表示为 由 0 和 1 组成的字符串, 也就是诸如 $0011101,$ $1011,$ 或任意有限个 $0$ 与 $1$ 组成的序列. (当然, 这样的选择只是出于方便, 0 和 1 并非 “神圣” 而不可替代: 我们完全可以用任何其他有限集合的符号来表示.)

zeroes-onesfig

图 2.2. 我们用由 0 和 1 组成的字符串来表示数字, 文本, 图像, 网络以及许多其他对象. 当然, 将这些 0 和 1 本身以绿色字体写在黑色背景上也是可选的.

如今, 我们已经对数字化的表示习以为常, 因而并不会对这种编码的存在感到惊讶, 但这实际上是一个深刻的结果, 并带来了许多重要的影响. 许多动物也能够表达某种恐惧或欲望, 但人类独特之处在于语言: 我们使用有限的一组基本符号来描述潜在无限范围的体验. 语言使得信息能够跨越时间与空间进行传递, 并让社会能够涵盖大量的人群, 随时间积累出共享的知识体系.

在过去的几十年里, 我们见证了一场关于数字化表示与传递的革命: 我们现在几乎可以完美地捕捉视觉与听觉的体验, 并几乎瞬间将其传播给无限的受众. 更重要的是, 一旦信息以数字形式存在, 我们便能够对其进行计算, 并从中获取以往无法触及的数据洞见. 这场革命的核心, 是一个简单却深刻的观察: 我们能够用有限的一组符号 (事实上仅需两个符号 0 和 1) 来表示无穷多样的对象.

在后续的章节中, 我们通常会默认这种表示方法的存在, 因此会使用诸如 “程序 $P$ 以 $x$ 为输入” 这样的表述, 即便 $x$ 可能是一个数字、向量、图, 或者其他任意对象. 不过我们真正的意思是, $P$ 的输入实际上是 $x$ 的 二进制字符串表示. 在本章中, 我们会更深入地探讨如何构造这样的表示方法.

简要概述

阅读本章, 我们希望读者能够有以下收获:

我们可以使用 二进制字符串 来表示所有我们想作为输入和输出的对象. 例如, 可以利用 二进制基 将整数和有理数表示为二进制字符串 (参见第2.2.1节和第2.2节).
我们可以通过组合简单对象的表示, 来构造复杂对象的表示. 这样一来, 就可以表示整数或有理数的列表, 并进一步用来表示矩阵、图像和图等对象. 前缀无关编码 (prefix-free encoding) 是实现这种组合的一种方式 (参见第2.5.2节).
一个 计算任务 指定了从输入到输出的映射 – 即一个函数. 区分 “what” 与 “how”, 或者说规范 (specification) 与实现 (implementation), 至关重要 (参见第2.6.1节). 一个函数仅仅定义了哪个输入对应哪个输出, 而并没有规定如何从输入计算出输出. 正如我们在乘法的例子中所看到的, 计算同一个函数可能存在多种方式.
虽然所有可能的二进制字符串的集合是无限的, 它仍然无法表示一切. 特别地, 并不存在将实数 (绝对精确地) 表示为二进制字符串的方法. 这一结果也被称为 Cantor定理 (Cantor’s Theorem) (参见第2.4节), 通常表述为 “实数是不可数的”. 这也暗示了无限还存在 不同的层次, 不过在本书中我们不会深入讨论这一话题 (参见备注 2.3).

本章讨论的两个 “核心思想” 是: 重要提示 2.1 – 我们可以通过组合简单对象的表示来表示更复杂的对象; 以及重要提示 2.2 – 区分函数的 “what” 与程序的 “how” 至关重要. 后者将是本书中反复提到的一个主题.

2.1 定义表示

每当我们在计算机中存储数字、图像、声音、数据库或其他对象时, 实际上存储在计算机内存中的只是这些对象的表示.
此外, “表示” 的概念并不限于电子计算机, 当我们写下文字或画一幅图时, 我们同样是在将思想或体验表示为符号序列 (这些符号也完全可以是由 0 和 1 构成的字符串), 甚至我们的脑中也并非储存真实的感官输入, 而是仅仅存储它们的表示.

为了在计算中使用数字、图像、图或其他对象作为输入, 我们需要精确定义如何将这些对象表示为二进制字符串.
一个 表示方案 (representation scheme) 就是将对象 $x$ 映射到一个二进制字符串 $E (x) \in {0, 1}^{*}$ 的方法, 例如, 自然数的一个表示方案就是一个函数 $E : N \to {0, 1}^{*} .$
当然, 我们不能把所有的数字都表示成相同的字符串 (比如 “ $0011$ ”), 一个最基本的要求是, 如果两个数 $x$ 和 $x^{'}$ 不同, 那么它们必须被表示为不同的字符串, 换句话说, 我们要求编码函数 $E$ 是 一一对应 的 (one-to-one).

2.1.1 表示自然数

现在我们来展示如何将自然数表示为二进制字符串.
多年来, 人们已经尝试了各种方式来表示数字, 包括绳结计数, 雅玛数字, 罗马数字, 我们熟悉的十进制, 以及许多其它方法. 我们当然可以使用其中任意一种将一个数字表示为字符串 (参见图 2.3), 然而, 出于计算上的方便, 我们采用 二进制基 作为默认的自然数字符串表示法.

例如, 我们将数字 6 表示为字符串 $110,$ 因为 $1 \cdot 2^{2} + 1 \cdot 2^{1} + 0 \cdot 2^{0} = 6.$

类似地, 我们将数字 35 表示为字符串 $y = 100011,$ 它满足 $\sum_{i = 0}^{5} y_{i} \cdot 2^{∣ y ∣ - i - 1} = 35.$

更多示例见下表.

digitsbitmapfig

图 2.3. 将数字 0, 1, 2, …, 9 的每个数字表示为一个 12×8 的位图图像, 该图像可以被视为属于 ${0, 1}^{{} 96}$ 的一个字符串. 使用这个方案, 我们可以把具有 $n$ 位十进制数字的自然数 $x$ 表示为属于 ${0, 1}^{{} 96 n}$ 的一个字符串. 图片来源: A. C. Andersen 的博客文章.

十进制表示	二进制表示
0	0
1	1
2	10
5	101
16	10000
40	101000
53	110101
389	110000101
3750	111010100110

表格: 使用二进制基表示数字. 左列包含自然数在十进制下的表示, 右列包含相同数字在二进制下的表示.

如果 $n$ 是偶数, 那么 $n$ 的二进制表示的最低有效位为 $0;$ 如果 $n$ 是奇数, 那么该位为 $1.$
就像数字 $⌊ n /10 ⌋$ 对应于“去掉“最低有效的十进制位 (例如, $⌊ 457/10 ⌋ = ⌊ 45.7 ⌋ = 45),$ 数字 $⌊ n /2 ⌋$ 对应于“去掉“最低有效的 二进制 位.

因此, 二进制表示可以形式化定义为以下函数 $NtS : N \to {0, 1}^{*}$ ( $NtS$ 表示 “natural numbers to strings”):

$NtS (n) = ⎩ ⎨ ⎧ 01 NtS (⌊ n /2 ⌋) p a r i t y (n) n = 0 n = 1 n > 1 (2.1)$

其中, $p a r i t y : N \to {0, 1}$ 是函数, 定义为: 如果 $n$ 为偶数, 则 $p a r i t y (n) = 0;$ 如果 $n$ 为奇数, 则 $p a r i t y (n) = 1.$
像往常一样, 对于字符串 $x, y \in {0, 1}^{*},$ $x y$ 表示字符串 $x$ 与 $y$ 的连接.

函数 $NtS$ 是 递归定义 的: 对于每个 $n > 1,$ 我们通过较小的数字 $⌊ n /2 ⌋$ 的表示来定义 $re p (n) .$
同样, 也可以用非递归方式定义 $NtS,$ 参见习题 2.2.

在本书的大部分内容中, 将数字表示为二进制字符串的具体选择并不重要: 我们只需要知道这样的表示是存在的.
事实上, 对于许多用途, 我们甚至可以使用更简单的表示方法, 将自然数 $n$ 映射为长度为 $n$ 的全零字符串 $0^{n} .$

Info

备注 2.1 (二进制表示的Python实现 (选读)). 我们可以在 Python 中实现如下的二进制表示:

def NtS(n):# 自然数(Natural number) to 字符串(String)
    if n > 1:
        return NtS(n // 2) + str(n % 2)
    else:
        return str(n % 2)

print(NtS(236))
# 11101100

print(NtS(19))
# 10011

我们一样可以使用 Python 实现逆向的转换: 将一个字符串映射回它表示的自然数.

def StN(x):# 字符串 to 自然数
    k = len(x)-1
    return sum(int(x[i])*(2**(k-i)) for i in range(k+1))

print(StN(NtS(236)))
# 236

Info

备注 2.2 (编程示例). 在本书中, 我们有时会使用 代码示例, 如备注 2.1, 但它们的目的始终是强调某些计算可以被具体实现, 而不是为了展示 Python 或任何其他编程语言的特性.
实际上, 本书传达的一个信息是, 所有编程语言在某种精确定义的意义下都是 等价的, 因此我们完全可以使用 JavaScript、C、COBOL、Visual Basic, 甚至 BrainF*ck具体实现计算.

本书不是编程指南. 不熟悉 Python 或无法理解如备注 2.1 中的代码示例不会影响本书内容的学习.

2.1.2 表示的意义(讨论)

初学时, 我们自然会认为 $236$ 是“实际“的数字, 而 $11101100$ 只是它的表示.
然而, 对于中世纪的大多数欧洲人来说, CCXXXVI 才是“实际“的数字, 而 $236$ (如果他们甚至听说过的话)则是奇怪的印度-阿拉伯位置记数法表示. ¹ 或许未来当我们的 AI 机器人统治者出现时, 它们可能会认为 $11101100$ 才是“实际“的数字, 而 $236$ 只是它们在向人类下达命令时需要使用的表示方法.

那么, 什么才是“实际“的数字呢? 这是数学哲学家们自古以来一直思考的问题.
柏拉图认为, 数学对象存在于某种理想的存在领域中 (在某种程度上比我们通过感官感知的世界更“真实“, 因为后者不过是理想领域的影子).
在柏拉图的视角中, 符号 $236$ 仅仅是某个理想对象的记号, 为了向已故音乐家致敬, 我们可以称之为 “通常由 $236$ 表示的数字”.

而奥地利哲学家路德维希·维特根斯坦则认为, 数学对象根本不存在, 唯一存在的只有构成 $236$ 、 $11101100$ 或 CCXXXVI 的实际纸上符号.
在维特根斯坦看来, 数学仅仅是对没有固有意义的符号进行形式操作.
你可以将“实际“的数字理解为(有些递归地)“ $236$ 、 $11101100$ 和 CCXXXVI 以及所有旨在表示同一对象的过去和未来的表示方式共同指向的那个东西”.

阅读本书时, 你可以自由选择自己的数学哲学, 只要你能区分数学对象本身与表示它们的各种具体方式, 无论是墨迹斑点、屏幕上的像素、零和一, 还是任何其他形式.

2.2 自然数以外对象的表示

我们已经看到, 自然数可以表示为二进制字符串. 而现在我们将展示, 这对于其他类型的对象也同样适用, 包括(可能为负的)整数、有理数、向量、列表、图以及许多其他对象.

在很多情况下, 为一条数据选择“合适的“字符串表示是非常复杂的任务, 寻找“最佳“表示(例如, 最紧凑, 保真度最高, 最易操作、鲁棒性强(抗干扰能力强), 信息量最大等)一直都是研究的热点.

但目前, 我们先专注于展示一些简单的表示方法, 用于将各种对象作为计算的输入和输出.

2.2.1 表示带有负数的全体整数

既然我们可以将自然数表示为字符串, 我们也可以基于此表示整数的全集 (即集合 $Z = {\dots, - 3, - 2, - 1, 0, + 1, + 2, + 3, \dots}$ 的成员), 只需增加一位用于表示符号.

为了表示一个(可能为负的)数字 $m,$ 我们在自然数 $∣ m ∣$ 的表示前加上一个比特 $σ,$ 若 $m \geq 0$ 则 $σ = 0,$ 若 $m < 0$ 则 $σ = 1.$

形式上, 我们将函数 $ZtS : Z \to {0, 1}^{*}$ 定义如下:

$ZtS (m) = {0 NtS (m) 1 NtS (- m) m \geq 0 m < 0$

其中, $NtS$ 的定义如 (2.1) 所示.

虽然表示的编码函数必须是一一对应的, 但不必是满射.
例如, 在上述表示法中, 没有任何数字被表示为空字符串, 但这仍然是有效的表示方法, 因为每个整数都能被唯一地表示为某个字符串.

给定一个字符串 $y \in {0, 1}^{*},$ 我们如何判断它“应该“表示一个(非负的)自然数还是一个(可能为负的)整数?
更进一步, 即便我们知道 $y$ “应该“是一个整数, 我们又如何知道它使用的是哪种表示方案?
事实上, 除非上下文提供该信息, 否则我们不一定知道. (在编程语言中, 编译器或解释器会根据变量的类型决定对应变量的比特序列的表示方法.)

我们可以将同一个字符串 $y$ 视作表示自然数、整数、一段文本、一幅图像, 或者一个绿色的小妖精.
每当我们说类似 “令 $n$ 为字符串 $y$ 表示的数字” 这样的句子时, 我们假设固定某种规范表示方案, 比如上文所示的那些.
具体选择哪种表示方案通常无关紧要, 只需要确保在使用时保持一致即可.

2.2.2 补码表示(选读)

第2.2.1节中使用特定的“符号位“来表示整数的方法被称为 有符号数表示法 (Signed Magnitude Representation), 曾在一些早期计算机中使用.
然而, 二进制补码表示在实际中更为常见.

整数 $k$ 在集合 ${- 2^{n}, - 2^{n} + 1, \dots, 2^{n} - 1}$ 的 二进制补码表示 是长度为 $n + 1$ 的字符串 $Zt S_{n} (k),$ 定义如下:

$Zt S_{n} (k) = {Nt S_{n + 1} (k) Nt S_{n + 1} (2^{n + 1} + k) 0 \leq k \leq 2^{n} - 1 - 2^{n} \leq k \leq - 1,$

其中, $Nt S_{ℓ} (m)$ 表示数字 $m \in {0, \dots, 2^{ℓ}}$ 的标准二进制表示, 作为长度为 $ℓ$ 的字符串, 并根据需要用前导零填充.
例如, 如果 $n = 3,$ 则 $Zt S_{3} (1) = Nt S_{4} (1) = 0001,$ $Zt S_{3} (2) = Nt S_{4} (2) = 0010,$ $Zt S_{3} (- 1) = Nt S_{4} (16 - 1) = 1111,$ 而 $Zt S_{3} (- 8) = Nt S_{4} (16 - 8) = 1000.$
如果 $k$ 是大于或等于 $- 2^{n}$ 的负数, 那么 $2^{n + 1} + k$ 是一个位于 $2^{n}$ 和 $2^{n + 1} - 1$ 之间的数字.
因此, 该数字 $k$ 的二进制补码表示是长度为 $n + 1$ 的字符串, 其首位为 $1.$

换句话说, 我们将一个可能为负的数字 $k \in {- 2^{n}, \dots, 2^{n} - 1}$ 表示为非负数 $k mod 2^{n + 1}$ (参见图 2.4).
这意味着, 如果两个可能为负的数字 $k$ 和 $k^{'}$ 不太大 (即 $k + k^{'} \in {- 2^{n}, \dots, 2^{n} - 1}),$ 那么我们可以通过将 $k$ 和 $k^{'}$ 的表示当作非负整数来进行模 $2^{n + 1}$ 加法, 从而得到 $k + k^{'}$ 的表示.
二进制补码表示的这一特性是其主要优势, 因为根据微处理器的架构, 它们通常可以非常高效地执行模 $2^{w}$ 的算术运算(对于某些 $w$ 值, 如 32 或 64).

许多系统将检查值是否过大留给程序员, 无论数字大小如何, 系统都会执行这种模运算.
因此, 在某些系统中, 两个大的正数相加可能得到一个负数 (例如, 将 $2^{n} - 100$ 与 $2^{n} - 200$ 相加可能得到 $- 300,$ 因为 $(2^{n + 1} - 300) mod 2^{n + 1} = - 300,$ 参见图 2.4).

twoscomplementfig

图 2.4. 在 二进制补码表示法 中, 我们将可能为负的整数 $k \in {- 2^{n}, \dots, 2^{n} - 1}$ 表示为长度为 $n + 1$ 的二进制字符串, 该字符串对应整数 $k mod 2^{n + 1}$ 的二进制形式. 左侧图示展示了 $n = 3$ 时的表示情况(红色整数表示由蓝色二进制字符串所对应的数值). 若微处理器未进行溢出检查, 将两个正整数 $6$ 和 $5$ 相加可能得到负数 $- 5,$ 因为 $- 5 mod 16 = 11.$ 右侧是一个 C 语言程序示例, 在某些 $32$ 位架构下执行该程序时, 两个正数相加后可能输出负数. (C 语言中的整数溢出被视为_未定义行为_, 这意味着该程序的运行结果——包括是否会正常运行或崩溃——可能因架构、编译器甚至编译器选项和版本的不同而存在差异. )

2.2.3 有理数及字符串表示对

我们可以通过表示两个数字 $a$ 和 $b$ 来表示分数形式的有理数 $a / b .$
然而, 仅仅将 $a$ 和 $b$ 的表示简单连接起来是行不通的.
例如, 数字 $4$ 的二进制表示是 $100,$ 数字 $43$ 的二进制表示是 $101011,$ 但将它们简单连接得到的字符串 $100101011$ 也可以看作是 $18$ 的表示 $10010$ 与 $11$ 的表示 $1011$ 的连接.
因此, 如果使用这种简单连接方式, 我们将无法判断字符串 $100101011$ 是表示 $4/43$ 还是 $18/11.$

我们通过给 字符串对 提供通用表示来解决这个问题.
如果使用纸笔, 我们只需使用一个分隔符号如 $∥,$ 将表示数字 $10$ 和 $110001$ 的一对数字表示为长度为 9 的字符串 “ $10∥110001$ ”.
换句话说, 存在一个一一对应的映射 $F,$ 将 字符串对 $x, y \in {0, 1}^{*}$ 映射为一个在字母表 $Σ = {0, 1, ∥}$ 上的单个字符串 $z$ (即 $z \in Σ^{*}) .$
使用分隔符类似于英语中使用空格和标点来分隔单词.
通过增加少量冗余, 我们可以在数字领域实现同样的效果.
我们可以将三元素集合 $Σ$ 映射到三元素集合 ${00, 11, 01} \subset {0, 1}^{2}$ 并保持一一对应, 从而将长度为 $n$ 的字符串 $z \in Σ^{*}$ 编码为长度为 $2 n$ 的字符串 $w \in {0, 1}^{*} .$

我们对有理数的最终表示通过以下步骤组合得到:

将一个(可能为负的)有理数表示为一对整数 $a, b,$ 使得 $r = a / b .$
将整数表示为二进制字符串.
将步骤 1 和 2 结合, 得到有理数作为字符串对的表示.
将 ${0, 1}$ 上的字符串对表示为 $Σ = {0, 1, ∥}$ 上的单个字符串.
将 $Σ$ 上的字符串表示为更长的 ${0, 1}$ 字符串.

样例 2.1 (将一个有理数表示为字符串). 考虑有理数 $r = - 5/8.$
我们将 $- 5$ 表示为 $1101,$ $+ 8$ 表示为 $01000,$ 因此可以将 $r$ 表示为字符串对 $(1101, 01000),$ 并将该字符串对表示为字母表 ${0, 1, ∥}$ 上长度为 10 的字符串 $1101∥01000.$

现在, 通过映射 $0 \mapsto 00,$ $1 \mapsto 11,$ $∥ \mapsto 01,$ 我们可以将该字符串表示为字母表 ${0, 1}$ 上长度为 20 的字符串 $s = 11110011010011000000.$

同样的思想可以用来表示字符串三元组、四元组, 甚至更多, 作为单个字符串.
实际上, 这是一个非常通用的原则的实例, 我们会在计算机科学的理论与实践中反复使用它(例如, 在面向对象编程中):

重要启示

重要提示 2.1. 如果我们可以将类型为 $T$ 的对象表示为字符串, 那么我们也可以将类型为 $T$ 的对象元组表示为字符串.

重复同样的思想, 一旦我们可以表示类型为 $T$ 的对象, 我们也可以表示这些对象的 列表的列表, 甚至是列表的列表的列表, 如此类推.
当我们讨论第2.5.2节中的 前缀无关编码 (prefix free encoding) 时, 我们会再次回到这一点.

2.3 实数的表示

实数集 $R$ 包含所有正数、负数、分数, 以及像 $π$ 或 $e$ 这样的 无理数.
每个实数都可以用有理数近似, 因此我们可以用一个接近 $x$ 的有理数 $a / b$ 来表示实数 $x .$
例如, 我们可以用 $22/7$ 来表示 $π,$ 误差约为 $1 0^{- 3} .$ 若希望误差更小(例如约 $1 0^{- 4}),$ 可以使用 $311/99,$ 以此类推.

floatingpointfig

图 2.5. 实数 $x \in R$ 的浮点表示

实数通过近似有理数来表示是一个可行的表示方案.

然而, 在计算机应用中, 通常更常用 浮点表示法 (参见图 2.5) 来表示实数.
在浮点表示法中, 我们用一对 $(b, e)$ 表示 $x \in R,$ 其中 $b$ 和 $e$ 是某些规定长度的(可能为正或负的)整数, 并且 $b \times 2^{e}$ 最接近 $x .$
浮点表示是科学计数法的二进制版本, 即将一个数字 $y \in R$ 表示为 $b \times 1 0^{e}$ 的近似.
称之为“浮点“是因为可以将 $b$ 看作指定一串二进制数字, $e$ 描述这串数字中“二进制小数点“的位置.

正是浮点表示的使用, 导致许多编程系统中, 表达式 0.1+0.2 的输出为 0.30000000000000004 而不是 0.3.
更多信息可见: 这里, 这里, 这里.

e_to_the_pi_minus_pifig

图 2.6. XKCD上关于浮点数运算的漫画.实数 $x \in R$ 的浮点表示

读者可能会(合理地)担心, 浮点表示法(或有理数表示法)只能近似表示实数.
在许多(但不是全部)计算应用中, 可以将精度调得足够高, 以至于不会影响最终结果.

但有时我们仍需要谨慎. 事实上, 浮点数错误有时可能造成严重后果.
例如, 浮点舍入误差曾导致美国爱国者导弹未能拦截伊拉克飞毛腿导弹, 造成 28 人死亡 (详细报道), 以及在计算英国养老金发放金额时出现过的 1 亿英镑的错误.

2.4 Cantor定理, 可数集, 以及实数的字符串表示

Quote

“对于任意一组水果, 我们可以制作的水果沙拉数量总可以比水果数量更多. 如果不是这样, 我们可以给每个沙拉贴上一个不同水果的标签, 最后再考虑这样一个沙拉, 它包含所有未被标签所指的水果, 那么某个水果恰好在这个沙拉的标签中当且仅当它不在其中.”

— Martha Storey

鉴于浮点数对实数的近似问题, 一个自然的问题是: 是否可以将实数 精确地 表示为字符串.
不幸的是, 下述定理表明这是不可能的:

定理 2.1 (Cantor定理).

不存在一一对应的函数 $RtS : R \to {0, 1}^{*} .$ ²

可数集. 我们说一个集合 $S$ 是 可数的, 如果存在一个满射 $C : N \to S,$ 或者换句话说, 我们可以将 $S$ 写成序列
$C (0), C (1), C (2), \dots .$
由于二进制表示给出了从 ${0, 1}^{*}$ 到 $N$ 的满射, 并且两个满射的复合仍然是满射, 集合 $S$ 是可数的当且仅当存在从 ${0, 1}^{*}$ 到 $S$ 的满射. 利用函数的基本性质(见第1.4.3节), 一个集合可数当且仅当存在从 $S$ 到 ${0, 1}^{*}$ 的一一函数.

因此, 我们可以将定理 2.1 重述如下:

定理 2.2 (Cantor定理(等价陈述)). 实数是不可数的. 也就是说, 不存在从 $N$ 到 $R$ 的满射 $NtR : N \to R .$

定理 2.2 由 Georg Cantor 于 1874 年证明.
这一结果(以及相关结论)震惊了当时的数学家. 通过证明不存在从 $R$ 到 ${0, 1}^{*}$ (或 $N)$ 的一一映射, Cantor 展示了这两个无限集合有“不同的无限形式“, 并且实数集 $R$ 在某种意义上比无限集合 ${0, 1}^{*}$ “更大”.
“无限的层次“这一概念当时让数学家和哲学家深感困惑. 哲学家 Ludwig Wittgenstein(前面提到过)称 Cantor 的结果为“完全的胡扯“且“可笑”, 其他人甚至认为更糟: Leopold Kronecker 称 Cantor 是“腐蚀青年的人“, 而 Henri Poincaré 说 Cantor 的思想“应从数学中彻底剔除“. 不过事实证明 Cantor 看得更远. 如今 Cantor 的工作已被普遍接受为集合论和数学基础的基石.
正如 David Hilbert 在 1925 年所说, “无人能将我们从 Cantor 为我们创造的天堂中驱逐出去”.
也正如我们稍后将在本书中看到的, Cantor 的思想在计算理论中也起着重要作用.

我们已经讨论了定理 2.1 的重要性, 让我们来看看它的证明. 这将分两步进行:

定义一个无限集合 $X,$ 对于它证明不可数更加容易(即证明不存在从 $X$ 到 ${0, 1}^{*}$ 的一一函数更容易).
证明存在一个一一函数 $G$ 将 $X$ 映射到 $R .$

利用反证法, 这两条事实结合起来可以推出定理 2.1.
具体来说, 如果假设(为了反证)存在某个一一函数 $F$ 将 $R$ 映射到 ${0, 1}^{*},$
那么通过将 $F$ 与步骤 2 中的函数 $G$ 复合得到的函数 $x \mapsto F (G (x))$ 就是从 $X$ 到 ${0, 1}^{*}$ 的一一函数,
这与步骤 1 中的结论矛盾!

为了将这个想法完整地转化为定理 2.1 的证明, 我们需要:

定义集合 $X .$
证明不存在从 $X$ 到 ${0, 1}^{*}$ 的一一函数.
证明存在从 $X$ 到 $R$ 的一一函数.

接下来我们将精确地做到这些:
我们将定义集合 ${0, 1}^{\infty},$ 它将扮演 $X$ 的角色,
然后陈述并证明两个引理, 说明该集合满足我们所需的两个性质.

定义 2.1. 将 ${0, 1}^{\infty}$ 定义为集合 ${f ∣ f : N \to {0, 1}} .$

简单来说, ${0, 1}^{\infty}$ 是一个 函数的集合, 并且一个函数 $f$ 属于 ${0, 1}^{\infty}$ 当且仅当它的定义域是 $N$ 而值域是 ${0, 1} .$
我们可以将 ${0, 1}^{\infty}$ 理解为所有无限长 比特序列 的集合, 因为函数 $f : N \to {0, 1}$ 正好一一对应于无限序列 $(f (0), f (1), f (2), \dots) .$

下面两个引理说明, ${0, 1}^{\infty}$ 可以作为 $X$ 来证明定理 2.1:

引理 2.1. 不存在从 ${0, 1}^{\infty}$ 到 ${0, 1}^{*}$ 的一一映射 $FtS .$ ³

引理 2.2. 存在从 ${0, 1}^{\infty}$ 到 $R$ 的一一映射 $FtR .$ ⁴

如上所示, 引理 2.1 和引理 2.2 结合起来即可推出定理 2.1.
为了更正式地重复这一论证, 为了反证, 假设存在一一函数 $RtS : R \to {0, 1}^{*} .$
由引理 2.2, 存在一一函数 $FtR : {0, 1}^{\infty} \to R .$
因此, 根据假设, 由于两个一一函数的复合仍是一一函数(见习题 2.12),
函数 $FtS : {0, 1}^{\infty} \to {0, 1}^{*}$ 定义为 $FtS (f) = RtS (FtR (f))$ 将是一一函数,
这与引理 2.1 矛盾.
参见图 2.7 获取该论证的图示说明.

proofofcantorfig

图 2.7. 我们通过结合引理 2.1 与引理 2.2 来证明定理 2.1. 引理 2.2使用了标准微积分的方法, 说明了从集合 ${0, 1}^{\infty}$ 到实数集的一一映射 $FtR$ 的存在性. 因此, 如果一个假设的一一映射 $RtS : R \to {0, 1}^{*}$ 存在, 我们就能够通过组合他们得到一个一一映射 $FtS : {0, 1}^{\infty} \to {0, 1}^{*} .$ 而这与引理 2.1 - 证明的核心 - 矛盾, 排除了这种映射存在的可能.

现在只剩下证明这两个引理. 我们先从证明引理 2.1 开始, 这实际上是定理 2.1 的核心部分.

diagrealsfig

图 2.8. 我们通过确保对于每个按字典序 $n (x)$ 排列的 $x \in 0, 1^{*},$ 都有 $\overline{d} (n (x)) \neq = StF (x) (n (x)),$ 来构造一个函数 $\overline{d},$ 使得对于所有 $x \in 0, 1^{*}$ 都满足 $\overline{d} \neq = StF (x) .$ 我们可以将这理解为构建一个表格: 其中列对应自然数 $m \in N,$ 行对应按 $n (x)$ 排序的 $x \in 0, 1^{*} .$ 若第 $x$ 行第 $m$ 列的条目对应 $g (m)$ (其中 $g = StF (x)),$ 则通过遍历该表格的“对角线“元素(即第 $x$ 行与第 $n (x)$ 列相交的条目)并确保 $\overline{d} (n (x)) \neq = StF (x) (n (x)),$ 即可得到函数 $\overline{d} .$

热身运动: “Cantor定理青春版”. 引理 2.1 的证明相当微妙. 一种获得对该证明的直觉的方法是考虑以下有限版本的陈述: “不存在一个满射函数 $f : {0, \dots, 99} \to {0, 1}^{100}$ ”. 当然我们知道这是正确的, 因为集合 ${0, 1}^{100}$ 比集合 $[100]$ 更大, 但让我们来看一个不太直接的证明: 对于任意 $f : {0, \dots, 99} \to {0, 1}^{100},$ 我们可以定义字符串 $\overline{d} \in {0, 1}^{100}$ 如下: $\overline{d} = (1 - f (0)_{0}, 1 - f (1)_{1}, \dots, 1 - f (99)_{99}) .$ 如果 $f$ 是满射, 那么必然存在某个 $n \in [100]$ 使得 $f (n) = \overline{d},$ 但我们声称不存在这样的 $n .$ 实际上, 如果存在这样的 $n,$ 那么 $\overline{d}$ 的第 $n$ 个分量应当等于 $f (n)_{n},$ 但根据定义这个分量等于 $1 - f (n)_{n} .$ 另见此陈述的 “proof by code”.

对引理 2.1的证明

我们将证明不存在一个满射函数 $StF : {0, 1}^{*} \to {0, 1}^{\infty} .$
这将推出该引理, 因为对于任意两个集合 $A$ 和 $B,$ 当且仅当存在一个从 $B$ 到 $A$ 的一一映射时, 才存在一个从 $A$ 到 $B$ 的满射 (见引理 1.1).

这个证明技巧被称为 “diagonal argument” (对角线论证), 详情可见图 2.8.
为了得到矛盾, 我们假设存在这样一个函数 $StF : {0, 1}^{*} \to {0, 1}^{\infty} .$ 然后我们通过构造一个函数 $\overline{d} \in {0, 1}^{\infty},$ 使得对每个 $x \in {0, 1}^{*}$ 都有 $\overline{d} \neq = StF (x),$ 来证明 $StF$ 不是满射.

考虑二进制字符串的字典序排列 (即 “”, $0,$ $1,$ $00,$ $01,$ $\dots) .$
对于每个 $n \in N,$ 我们令 $x_{n}$ 为此顺序中的第 $n$ 个字符串.
也就是说 $x_{0} = "",$ $x_{1} = 0,$ $x_{2} = 1$ 等等.
对每个 $n \in N,$ 我们定义函数 $\overline{d} \in {0, 1}^{\infty}$ 如下:

$\overline{d} (n) = 1 - StF (x_{n}) (n)$

也就是说, 为了计算 $\overline{d}$ 在输入 $n \in N$ 时的值, 我们首先计算 $g = StF (x_{n}),$ 其中 $x_{n} \in {0, 1}^{*}$ 是字典序中的第 $n$ 个字符串.
由于 $g \in {0, 1}^{\infty},$ 它是一个将 $N$ 映射到 ${0, 1}$ 的函数.
值 $\overline{d} (n)$ 被定义为 $g (n)$ 的取反.

函数 $\overline{d}$ 的定义有些微妙.
一种理解方式是将函数 $StF$ 想象为由一张无限长的表格指定, 其中每一行对应一个字符串 $x \in {0, 1}^{*}$ (字符串按字典序排列), 并包含序列 $StF (x) (0), StF (x) (1), StF (x) (2), \dots .$
然后, 我们取该表格中的 对角线 元素如下:

$StF ("") (0), StF (0) (1), StF (1) (2), StF (00) (3), StF (01) (4), \dots$

这些元素对应于表格中第 $n$ 行第 $n$ 列的 $StF (x_{n}) (n),$ 对于 $n = 0, 1, 2, \dots .$
我们上面定义的函数 $\overline{d}$ 将每个 $n \in N$ 映射到第 $n$ 个对角线元素的取反值.

为了完成 $StF$ 不是满射的证明, 我们需要说明对每个 $x \in {0, 1}^{*}$ 都有 $\overline{d} \neq = StF (x) .$
事实上, 令 $x \in {0, 1}^{*}$ 为某个字符串, 并令 $g = StF (x) .$
如果 $n$ 是 $x$ 在字典序中的位置, 则根据构造有 $\overline{d} (n) = 1 - g (n) \neq = g (n),$ 这意味着 $g \neq = \overline{d},$ 这正是我们需要的.

Info

备注 2.3 (推广到字符串或实数以外).

引理 2.1 实际上与自然数或字符串没有太大关系.
仔细审视这个证明可以发现, 它实际上说明对于任意集合 $S,$ 不存在一个一一映射 $F : {0, 1}^{S} \to S,$ 其中 ${0, 1}^{S}$ 表示所有以 $S$ 为定义域的布尔函数的集合 ${f ∣ f : S \to {0, 1}} .$
由于我们可以将子集 $V \subseteq S$ 与其特征函数 $f = 1_{V}$ 对应 (即 $1_{V} (x) = 1$ 当且仅当 $x \in V),$ 我们也可以将 ${0, 1}^{S}$ 看作 $S$ 的所有子集的集合.
这个子集集合有时被称为 $S$ 的幂集, 记作 $P (S)$ 或 $2^{S} .$

引理 2.1 的证明可以推广, 说明不存在一个集合与其幂集之间的一一映射.
特别地, 这意味着集合 ${0, 1}^{R}$ “比” $R$ 更大.
Cantor 利用这些思想构建了无限的无穷层级.
这些无穷的数量远大于 $∣ N ∣$ 甚至 $∣ R ∣.$
他将 $N$ 的基数记作 $ℵ_{0},$ 并将下一个更大的无限数记作 $ℵ_{1}$ ( $ℵ$ 是希伯来字母表的第一个字母).
Cantor 还提出了连续统假设, 即 $∣ R ∣ = ℵ_{1} .$
我们将在本书后续回到这个假设背后的精彩故事.
Aaronson 的这节讲座提到了一些相关问题 (另见 Berkeley CS 70 lecture).

为了完成定理 2.1 的证明, 我们需要证明引理 2.2.
这个证明虽然需要一些微积分基础, 但使用了的地方都比较直接易懂.
不过如果你之前处理实数列极限的经验不多, 那么下面的证明还是可能会有些难以理解.
当然, 这部分并非 Cantor 论证的核心, 此类极限对于本书后续内容也不重要, 因此你完全可以选择相信引理 2.2 并跳过这些繁琐的证明.

对引理 2.2的证明思路

我们定义 $FtR (f)$ 为介于 $0$ 和 $2$ 之间的数, 其十进制展开为 $f (0) . f (1) f (2) \dots,$ 换句话说, $FtR (f) = \sum_{i = 0}^{\infty} f (i) \cdot 1 0^{- i} .$
如果 $f$ 和 $g$ 是 ${0, 1}^{\infty}$ 中的两个不同函数, 那么必然存在某个输入 $k$ 使它们在该输入上不一致.
取最小的这样的 $k,$ 那么数字 $f (0) . f (1) f (2) \dots f (k - 1) f (k) \dots$ 与 $g (0) . g (1) g (2) \dots g (k) \dots$ 在小数点后的第 $0$ 到 $k - 1$ 位完全相同, 并在第 $k$ 位上不同.
因此这些数字必然不同.
具体来说, 如果 $f (k) = 1$ 且 $g (k) = 0,$ 则第一个数字大于第二个; 否则 ( $f (k) = 0$ 且 $g (k) = 1)$ 第一个数字小于第二个.
在证明中我们需要稍微注意, 因为某些数字可以被 无限展开, 例如, 数字 $\frac{1}{2}$ 有两种十进制展开: $0.5$ 和 $0.49999 \dots .$
但在这里不会出现这个问题, 因为按上述定义, 我们使用的数字的十进制展开中永远不会包含数字 $9.$

对引理 2.2的证明

对于每个 $f \in {0, 1}^{\infty},$ 我们定义 $FtR (f)$ 为其十进制展开为 $f (0) . f (1) f (2) f (3) \dots$ 的数字.
形式上,

$FtR (f) = i = 0 \sum \infty f (i) \cdot 1 0^{- i} (2.2)$

在微积分中有一个已知结论(这里我们不重复证明): (2.2) 右侧的级数在 $R$ 中收敛到一个确定的极限.

现在我们证明 $FtR$ 是一一映射.
设 $f, g$ 是 ${0, 1}^{\infty}$ 中的两个不同函数.
由于 $f$ 和 $g$ 不同, 必然存在某个输入它们的值不同, 我们令 $k$ 为最小的这样的输入, 并且不失一般性地假设 $f (k) = 0$ 且 $g (k) = 1.$
(否则, 如果 $f (k) = 1$ 且 $g (k) = 0,$ 我们可以简单地交换 $f$ 和 $g$ 的角色.)
数字 $FtR (f)$ 和 $FtR (g)$ 在小数点后的前 $k - 1$ 位完全相同.
由于这第 $k$ 位在 $FtR (f)$ 中为 $0$ 而在 $FtR (g)$ 中为 $1,$ 我们声称 $FtR (g)$ 比 $FtR (f)$ 至少大 $0.5 \cdot 1 0^{- k} .$
要理解这一点, 注意 $FtR (g) - FtR (f)$ 的差值在以下情况下最小: 对于所有 $ℓ > k,$ $g (ℓ) = 0$ 且 $f (ℓ) = 1,$ 此时(由于 $f$ 和 $g$ 在前 $k - 1$ 位相同)

$FtR (g) - FtR (f) = 1 0^{- k} - 1 0^{- k - 1} - 1 0^{- k - 2} - 1 0^{- k - 3} - \dots (2.3)$

由于无穷级数 $\sum_{i = 0}^{\infty} 1 0^{- i}$ 收敛到 $10/9,$ 可得对于每一对这样的 $f$ 和 $g,$ $FtR (g) - FtR (f) \geq 1 0^{- k} - 1 0^{- k - 1} \cdot (10/9) > 0.$
特别地, 我们看到对于每一对不同的 $f, g \in {0, 1}^{\infty},$ $FtR (f) \neq = FtR (g),$ 从而函数 $FtR$ 是一一映射.

Info

备注 2.4 (十进制展开的使用(选读)).

在上面的证明中, 我们使用了级数 $1 + 1/10 + 1/100 + \dots$ 收敛到 $10/9$ 的事实, 将其代入 (2.3) 可得 $FtR (g)$ 与 $FtR (h)$ 的差值至少为 $1 0^{- k} - 1 0^{- k - 1} \cdot (10/9) > 0.$
虽然我们为 $FtR$ 选择的十进制表示是任意的, 但我们不能用二进制表示代替.
如果使用 二进制 展开而非十进制, 相应的级数 $1 + 1/2 + 1/4 + \dots$ 收敛到 $2/1 = 2,$ 并且由于 $2^{- k} = 2^{- k - 1} \cdot 2,$ 我们无法推导出 $FtR$ 是一一映射.
事实上, 确实存在一些不同的序列对 $f, g \in {0, 1}^{\infty}$ 满足 $\sum_{i = 0}^{\infty} f (i) 2^{- i} = \sum_{i = 0}^{\infty} g (i) 2^{- i} .$
(例如, 序列 $1, 0, 0, 0, \dots$ 与序列 $0, 1, 1, 1, \dots$ 就具有此性质.)

2.4.1 推论: 布尔函数全体不可数.

Cantor 定理得出如下推论, 我们将在本书中多次使用: 所有 布尔函数(将 ${0, 1}^{*}$ 映射到 ${0, 1}$ 的函数)构成的集合是不可数的.

定理 2.3 (布尔函数全体是不可数的).

设 $A LL$ 为所有函数 $F : {0, 1}^{*} \to {0, 1}$ 的集合.
则 $A LL$ 是不可数的. 等价地, 不存在一个满射 $St A LL : {0, 1}^{*} \to A LL .$

这是引理 2.1 的直接推论, 因为我们可以用二进制表示构造一个从 ${0, 1}^{\infty}$ 到 $A LL$ 的一一映射. 因此, ${0, 1}^{\infty}$ 的不可数性意味着 $A LL$ 的不可数性.

对定理 2.3的证明

由于 ${0, 1}^{\infty}$ 是不可数的, 我们只需展示一个从 ${0, 1}^{\infty}$ 到 $A LL$ 的一一映射, 便可得到该结论.
原因在于, 这样的映射存在意味着如果 $A LL$ 是可数的, 从而存在一个从 $A LL$ 到 $N$ 的一一映射, 那么就会存在一个从 ${0, 1}^{\infty}$ 到 $N$ 的一一映射, 与引理 2.1 矛盾.

现在我们展示这个一一映射. 我们简单地将一个函数 $f \in {0, 1}^{\infty}$ 映射到函数 $F : {0, 1}^{*} \to {0, 1}$ 如下.
我们令 $F (0) = f (0),$ $F (1) = f (1),$ $F (10) = f (2),$ $F (11) = f (3)$ 等等.
也就是说, 对于每个 $x \in {0, 1}^{*},$ 如果它在二进制下表示自然数 $n,$ 我们定义 $F (x) = f (n) .$
如果 $x$ 不表示这样的数字(例如, 它有前导零), 则我们令 $F (x) = 0.$

这个映射是一一映射, 因为如果 $f \neq = g$ 是 ${0, 1}^{\infty}$ 中的两个不同元素, 那么必然存在某个输入 $n \in N$ 使 $f (n) \neq = g (n) .$
于是, 如果 $x \in {0, 1}^{*}$ 是表示 $n$ 的字符串, 我们看到 $F (x) \neq = G (x),$ 其中 $F$ 是 $f$ 映射到的 $A LL$ 中的函数, 而 $G$ 是 $g$ 映射到的函数.

2.4.2 可数性的等价条件

上述结果建立了多种等价的方式来表述集合可数的事实.
具体来说, 以下陈述都是等价的:

集合 $S$ 是可数的
存在一个从 $N$ 到 $S$ 的满射
存在一个从 ${0, 1}^{*}$ 到 $S$ 的满射
存在一个从 $S$ 到 $N$ 的一一映射
存在一个从 $S$ 到 ${0, 1}^{*}$ 的一一映射
存在一个从某个可数集合 $T$ 到 $S$ 的满射
存在一个从 $S$ 到某个可数集合 $T$ 的一一映射

暂停一下

你确定你会证明上述所有等价陈述了吗?

2.5 数字以外元素的表示

当然, 数字并不是我们唯一可以表示为二进制字符串的对象.
用于表示某个集合 $O$ 中对象的 表示方案 由一个将 $O$ 中对象映射为字符串的编码函数和一个将字符串解码回 $O$ 中对象的解码函数组成.
形式化地, 我们作如下定义:

定义 2.2 (字符串表示). 设 $O$ 为任意集合. 对 $O$ 的 表示方案 是一个函数对 $E, D,$ 其中 $E : O \to {0, 1}^{*}$ 是全域一一函数, $D : {0, 1}^{*} \to_{p} O$ 是一个(可能是局部定义的)函数, 并且满足 $D$ 和 $E$ 使得 $D (E (o)) = o$ 对每个 $o \in O$ 成立.
$E$ 称为编码函数, $D$ 称为解码函数.

注意, 对每个 $o \in O$ 都有 $D (E (o)) = o$ 的条件意味着 $D$ 是满射(你能看出为什么吗? ).
事实上, 构造一个表示方案时, 我们只需要找到一个编码函数.
也就是说, 每个一一的编码函数都有对应的解码函数, 如下引理所示:

引理 2.3. 假设 $E : O \to {0, 1}^{*}$ 是一一映射. 那么存在一个函数 $D : {0, 1}^{*} \to O$ 使得 $D (E (o)) = o$ 对每个 $o \in O$ 成立.

对引理 2.3的证明

设 $o_{0}$ 为 $O$ 中任意一个元素.
对于每个 $x \in {0, 1}^{*},$ 要么不存在, 要么仅存在一个 $o \in O$ 使 $E (o) = x$ (否则 $E$ 将不是一一映射).
我们将 $D (x)$ 定义为在第一种情况取 $o_{0},$ 在第二种情况取该唯一对象 $o .$
根据定义, 对每个 $o \in O$ 都有 $D (E (o)) = o .$

Info

备注 2.5 (全域解码函数).

虽然表示方案的解码函数通常可以是一个局部函数, 但引理 2.3 的证明表明, 每个表示方案都有一个全域解码函数. 这一观察有时是很有用的.

2.5.1 有限表示

如果 $O$ 是有限的, 那么我们可以将 $O$ 中的每个对象表示为长度至多为某个数 $n$ 的字符串.
那么 $n$ 的取值是多少呢?
我们记 ${0, 1}^{\leq n}$ 为长度至多为 $n$ 的字符串集合 ${x \in {0, 1}^{*} : ∣ x ∣ \leq n} .$
集合 ${0, 1}^{\leq n}$ 的大小等于

$∣ {0, 1}^{0} ∣ + ∣ {0, 1}^{1} ∣ + ∣ {0, 1}^{2} ∣ + \dots + ∣ {0, 1}^{n} ∣ = i = 0 \sum n 2^{i} = 2^{n + 1} - 1.$

这使用等比数列的标准求和公式即可得到.

为了将 $O$ 中的对象表示为长度至多为 $n$ 的字符串, 我们需要构造一个从 $O$ 到 ${0, 1}^{\leq n}$ 的一一映射. 而当且仅当 $∣ O ∣ \leq 2^{n + 1} - 1,$ 我们才能做到这一点, 如以下引理所示:

对于任意两个非空有限集合 $S, T,$ 当且仅当 $∣ S ∣ \leq ∣ T ∣$ 时, 存在一个一一映射 $E : S \to T .$

设 $k = ∣ S ∣$ 且 $m = ∣ T ∣,$ 并将 $S$ 和 $T$ 的元素分别写为 $S = {s_{0}, s_{1}, \dots, s_{k - 1}}$ 和 $T = {t_{0}, t_{1}, \dots, t_{m - 1}} .$
我们需要证明, 存在一个一一映射 $E : S \to T$ 当且仅当 $k \leq m .$

对“当“方向, 如果 $k \leq m,$ 我们可以简单地定义 $E (s_{i}) = t_{i}$ 对每个 $i \in [k] .$
显然, 对于 $i \neq = j,$ 有 $t_{i} = E (s_{i}) \neq = E (s_{j}) = t_{j},$ 因此该函数是一一映射.

对“仅当“方向, 假设 $k > m$ 且 $E : S \to T$ 是某个函数. 那么 $E$ 不可能是一一映射.
事实上, 对 $i = 0, 1, \dots, m - 1,$ 我们“标记“ $T$ 中的元素 $t_{j} = E (s_{i}) .$
如果 $t_{j}$ 已经被标记过, 那么我们就找到了两个映射到同一元素 $t_{j}$ 的 $S$ 中的对象.
否则, 由于 $T$ 有 $m$ 个元素, 当我们标记到 $i = m - 1$ 时, $T$ 中的所有对象都已被标记.
因此, 在这种情况下, $E (s_{m})$ 必须映射到一个已经被标记过的元素.
(这一观察有时被称为“鸽巢原理“: 假设有 $m$ 个巢和 $k > m$ 只鸽子, 则必有两只鸽子在同一个巢中.)

2.5.2 前缀无关编码

在展示有理数的表示方案时, 我们使用了一个“技巧“: 将字母表 ${0, 1, ∥}$ 编码, 以便将字符串元组表示为单个字符串.
这是 前缀无关编码 的一个特例.

前缀无关编码的思想如下, 如果我们的表示具有如下性质: 表示对象 $o$ 的字符串 $x$ 不是表示不同对象 $o^{'}$ 的字符串 $y$ 的前缀 (即初始子串), 那么我们可以仅通过将列表中所有成员的表示串联起来, 来表示一个对象列表.
例如, 因为在英文中每个句子都以标点符号结束, 如句号, 感叹号或问号, 没有句子可以成为另一个句子的前缀, 因此我们可以仅通过将句子一个接一个地串联来表示一个句子列表. (英文中存在一些复杂情况, 例如缩写中的句点 (如 “e.g.”)或句子引号包含标点, 但高层次上前缀自由表示句子的原理仍然成立.)

事实上, 我们可以将 每一个 表示转换为前缀无关形式.
这为重要提示 2.1 提供了依据, 并允许我们将类型 $T$ 对象的表示方案转换为类型 $T$ 对象列表的表示方案.
通过重复同样的技术, 我们还可以表示类型 $T$ 对象的列表的列表, 以此类推.

但首先, 让我们正式定义前缀无关性:

定义 2.3 (前缀无关编码). 对于两个字符串 $y, y^{'},$ 如果 $∣ y ∣ \leq ∣ y^{'} ∣$ 并且对每个 $i < ∣ y ∣,$ 有 $y_{i}^{'} = y_{i},$ 我们称 $y$ 是 $y^{'}$ 的一个前缀.

设 $O$ 为非空集合, $E : O \to {0, 1}^{*}$ 为一个函数.
如果对每个 $o \in O,$ $E (o)$ 非空, 并且不存在一对不同的对象 $o, o^{'} \in O$ 使得 $E (o)$ 是 $E (o^{'})$ 的前缀, 我们称 $E$ 是 前缀无关 的.

回忆一下, 对于每个集合 $O,$ 集合 $O^{*}$ 包含所有有限长度的元组(即列表)的 $O$ 中元素.
下述定理表明, 如果 $E$ 是 $O$ 的前缀自由编码, 则通过串联编码, 我们可以得到 $O^{*}$ 的一个有效的(一一)表示:

定理 2.4 (前缀无关蕴含元组可编码).“ 假设 $E : O \to {0, 1}^{*}$ 是前缀无关的.
则以下映射 $\overline{E} : O^{*} \to {0, 1}^{*}$ 是一一映射: 对每个 $(o_{0}, \dots, o_{k - 1}) \in O^{*},$ 我们定义

$\overline{E} (o_{0}, \dots, o_{k - 1}) = E (o_{0}) E (o_{1}) \dots E (o_{k - 1}) .$

定理 2.4 可能有点难以理解, 但一旦你理解了它的含义, 实际上证明起来相当直接.
因此, 我强烈建议你在此处停下来, 确保你理解了该定理的陈述. 你也应该尝试自己证明它, 然后再继续阅读.

repres_listfig

**图 2.9.**如果我们拥有每个对象的无前缀表示, 那么我们可以将 $k$ 个对象的表示拼接起来, 从而获得元组 $(o_{0}, \dots, o_{k - 1})$ 的表示.

证明的思路很简单.
例如, 假设我们想从表示 $x = \overline{E} (o_{0}, o_{1}, o_{2}) = E (o_{0}) E (o_{1}) E (o_{2})$ 中解码三元组 $(o_{0}, o_{1}, o_{2}) .$
我们首先找到 $x$ 的第一个前缀 $x_{0},$ 它是某个对象的表示.
然后解码该对象, 从 $x$ 中去掉 $x_{0}$ 得到新的字符串 $x^{'},$ 再继续找到 $x^{'}$ 的第一个前缀 $x_{1},$ 以此类推(参见习题 2.9).
$E$ 的前缀自由性质保证了 $x_{0}$ 实际上就是 $E (o_{0}),$ $x_{1}$ 是 $E (o_{1}),$ 依此类推.

对定理 2.4的证明

现在我们给出正式证明.
使用反证法, 假设存在两个不同的元组 $(o_{0}, \dots, o_{k - 1})$ 和 $(o_{0}^{'}, \dots, o_{k^{'} - 1}^{'}),$ 使得

$\overline{E} (o_{0}, \dots, o_{k - 1}) = \overline{E} (o_{0}^{'}, \dots, o_{k^{'} - 1}^{'}) . (2.4)$

我们将字符串 $\overline{E} (o_{0}, \dots, o_{k - 1})$ 记为 $\overline{x} .$

设 $i$ 为第一个使得 $o_{i} \neq = o_{i}^{'}$ 的索引.
(如果对所有 $i$ 都有 $o_{i} = o_{i}^{'},$ 由于假设这两个元组不同, 则其中一个元组的长度必须大于另一个. 在这种情况下, 不失一般性, 我们假设 $k^{'} > k$ 并令 $i = k .$ )
在 $i < k$ 的情况下, 我们看到字符串 $\overline{x}$ 可以用两种不同的方式表示:

$\overline{x} = \overline{E} (o_{0}, \dots, o_{k - 1}) = x_{0} \dots x_{i - 1} E (o_{i}) E (o_{i + 1}) \dots E (o_{k - 1})$

以及

$\overline{x} = \overline{E} (o_{0}^{'}, \dots, o_{k^{'} - 1}^{'}) = x_{0} \dots x_{i - 1} E (o_{i}^{'}) E (o_{i + 1}^{'}) \dots E (o_{k^{'} - 1}^{'})$

其中 $x_{j} = E (o_{j}) = E (o_{j}^{'})$ 对所有 $j < i$ 成立.
令 $\overline{y}$ 为从 $\overline{x}$ 中去掉前缀 $x_{0} \dots x_{i - 1}$ 后得到的字符串.
我们看到 $\overline{y}$ 可以写成两种形式: $\overline{y} = E (o_{i}) s$ 对某个字符串 $s \in {0, 1}^{*},$ 也可以写成 $\overline{y} = E (o_{i}^{'}) s^{'}$ 对某个 $s^{'} \in {0, 1}^{*} .$
但这意味着 $E (o_{i})$ 与 $E (o_{i}^{'})$ 中的一个必须是另一个的前缀, 这与 $E$ 的前缀自由性矛盾.

若 $i = k$ 且 $k^{'} > k,$ 我们通过如下方式得到矛盾: 在这种情况下

$\overline{x} = E (o_{0}) \dots E (o_{k - 1}) = E (o_{0}) \dots E (o_{k - 1}) E (o_{k}^{'}) \dots E (o_{k^{'} - 1}^{'})$

这意味着 $E (o_{k}^{'}) \dots E (o_{k^{'} - 1}^{'})$ 必须对应于空字符串 $"" .$
但在这种情况下, $E (o_{k}^{'})$ 也必须是空字符串, 而空字符串显然是任意其他字符串的前缀, 这与 $E$ 的前缀自由性矛盾.

Info

备注 2.6 (列表表示的前缀无关性). 即使集合 $O$ 中对象的表示 $E$ 是前缀无关的, 也并不意味着这些对象的列表的表示 $\overline{E}$ 也会是前缀无关的. 例如: 对于任意三个对象 $o, o^{'}, o^{''},$ 列表 $(o, o^{'})$ 的表示将是列表 $(o, o^{'}, o^{''})$ 的表示的前缀.
然而, 如下的引理 2.4 所示, 我们可以将 每一个 表示转换为前缀无关的, 因此如果需要表示列表的列表、列表的列表的列表等, 我们就可以使用该转换.

2.5.3 构造前缀无关表示

有一些自然的表示是前缀无关的.
例如, 每个 固定输出长度 的表示(即一一函数 $E : O \to {0, 1}^{n})$ 自动是前缀无关的, 因为只有当 $x$ 和 $x^{'}$ 相等时, 长度相同的 $x^{'}$ 才可能有 $x$ 作为前缀.

此外, 我们用来表示有理数的方法也可以用来证明如下结论:

引理 2.4. 设 $E : O \to {0, 1}^{*}$ 为一一函数.
则存在一个一一的前缀无关编码 $\overline{E},$ 对每个 $o \in O$ 有 $∣ \overline{E} (o) ∣ \leq 2∣ E (o) ∣ + 2.$

为了完整起见, 我们将在下方给出证明. 不过你可以在这里停下来, 尝试用我们表示有理数时使用的相同技巧自己证明它.

对引理 2.4证明

证明的核心思想是使用映射 $0 \mapsto 00,$ $1 \mapsto 11$ 来“加倍“字符串 $x$ 中的每一位, 然后通过在其后拼接 $01$ 来标记字符串的结束.
如果我们以这种方式对字符串 $x$ 进行编码, 它可以确保 $x$ 的编码绝不会是不同字符串 $x^{'}$ 的编码的前缀.
形式上, 我们对每个 $x \in {0, 1}^{*}$ 定义函数 $PF : {0, 1}^{*} \to {0, 1}^{*}$ 如下:

$PF (x) = x_{0} x_{0} x_{1} x_{1} \dots x_{n - 1} x_{n - 1} 01.$

如果 $E : O \to {0, 1}^{*}$ 是 $O$ 的(可能不是前缀无关的)表示, 我们可以通过定义 $\overline{E} (o) = PF (E (o))$ 将其转换为前缀无关的表示 $\overline{E} : O \to {0, 1}^{*} .$

为了证明该引理, 我们需要证明 (1) $\overline{E}$ 是一一函数, 并且 (2) $\overline{E}$ 是前缀无关的.
事实上, 前缀无关是比一一更强的条件(如果两个字符串相等, 则其中一个必然是另一个的前缀), 因此只需证明 (2) 即可, 我们现在来证明它.

设 $o \neq = o^{'}$ 为 $O$ 中两个不同的对象.
我们将证明 $\overline{E} (o)$ 不是 $\overline{E} (o^{'})$ 的前缀, 或换句话说, $PF (x)$ 不是 $PF (x^{'})$ 的前缀, 其中 $x = E (o),$ $x^{'} = E (o^{'}) .$
由于 $E$ 是一一函数, 所以 $x \neq = x^{'} .$ 我们分三种情况讨论, 取决于 $∣ x ∣ < ∣ x^{'} ∣,$ $∣ x ∣ = ∣ x^{'} ∣,$ 或 $∣ x ∣ > ∣ x^{'} ∣.$

如果 $∣ x ∣ < ∣ x^{'} ∣,$ 则 $PF (x)$ 中位置 $2∣ x ∣, 2∣ x ∣ + 1$ 的两位为 $01,$ 而 $PF (x^{'})$ 中对应位将等于 $00$ 或 $11$ (取决于 $x^{'}$ 的第 $∣ x ∣$ 位), 因此 $PF (x)$ 不可能是 $PF (x^{'})$ 的前缀.
如果 $∣ x ∣ = ∣ x^{'} ∣,$ 由于 $x \neq = x^{'},$ 必然存在某个位置 $i$ 使它们不同, 这意味着 $PF (x)$ 和 $PF (x^{'})$ 在位置 $2 i, 2 i + 1$ 上不同, 同样 $PF (x)$ 不是 $PF (x^{'})$ 的前缀.
如果 $∣ x ∣ > ∣ x^{'} ∣,$ 则 $∣ PF (x) ∣ = 2∣ x ∣ + 2 > ∣ PF (x^{'}) ∣ = 2∣ x^{'} ∣ + 2,$ 因此 $PF (x)$ 比 $PF (x^{'})$ 长, 不可能是其前缀.

在所有情况下, 我们可以预见 $PF (x) = \overline{E} (o)$ 都不是 $PF (x^{'}) = \overline{E} (o^{'})$ 的前缀, 从而完成了证明.

引理 2.4 的证明并不是将任意表示转换为前缀无关形式的唯一方法, 也不一定是最优方法.
习题 2.10 就要求你构造一个更高效的前缀无关转换, 满足 $∣ \overline{E} (o) ∣ \leq ∣ E (o) ∣ + O (lo g ∣ E (o) ∣) .$

2.5.4 “基于Python的证明” (选读)

定理 2.4 和引理 2.4 的证明是 构造性的, 意味着它们给出了:

将任意对象 $O$ 的表示的编码和解码函数转换为前缀无关的编码和解码函数的方法, 以及
将单个对象的前缀无关编码和解码扩展到 对象列表 的编码和解码的方法(通过串联实现).

具体来说, 我们可以将任意一对 Python 函数 encode 和 decode 转换为函数 pfencode 和 pfdecode, 对应于前缀无关的编码和解码. 同样, 给定单个对象的 pfencode 和 pfdecode, 我们可以将它们扩展到列表的编码. 下面展示了如何对上文定义的 NtS 和 StN 函数进行这种处理.

我们从引理 2.4 的“Python 证明“开始: 一种将任意表示转换为 前缀无关 表示的方法. 下面的函数 prefixfree 接受一对编码和解码函数作为输入, 并返回一个三元组函数, 其中包含 前缀无关 的编码和解码函数, 以及一个检查字符串是否为对象有效编码的函数.

# 接受 encode 和 decode 函数, 分别将对象映射为比特列表以及反向映射, 
# 并返回 pfencode 和 pfdecode 函数, 
# 以前缀无关的方式将对象映射为比特列表以及反向映射. 
# 同时返回一个 pfvalid 函数, 用于判断一个比特列表是否为有效编码

def prefixfree(encode, decode):
    def pfencode(o):
        L = encode(o)
        return [L[i//2] for i in range(2*len(L))]+[0,1]
    def pfdecode(L):
        return decode([L[j] for j in range(0,len(L)-2,2)])
    def pfvalid(L):
        return (len(L) % 2 == 0 ) and all(L[2*i]==L[2*i+1] for i in range((len(L)-2)//2)) and L[-2:]==[0,1]

    return pfencode, pfdecode, pfvalid

pfNtS, pfStN , pfvalidN = prefixfree(NtS,StN)

NtS(234)
# 11101010
pfNtS(234)
# 111111001100110001
pfStN(pfNtS(234))
# 234
pfvalidM(pfNtS(234))
# true

注意, 上述 Python 函数 prefixfree 接受两个 Python 函数 作为输入, 并输出三个 Python 函数作为结果. (无歧义的情况下, 我们会使用 “Python 函数” 或 “子程序” 这个术语来区分 Python 程序片段和数学意义上的函数.)
在本书中, 你不需要掌握 Python, 但你需要熟悉函数作为独立的数学对象的概念, 可以被用作其他函数的输入或输出.

下面我们给出定理 2.4 的 “Python 证明”. 具体来说, 我们展示一个函数 represlists, 它接受一个前缀无关表示方案作为输入 (通过编码、解码和有效性检测函数实现), 并输出一个用于表示该类对象列表的表示方案. 如果我们希望使这个表示也是前缀无关的, 那么可以再将其放入上面的 prefixfree 函数中.

def represlists(pfencode,pfdecode,pfvalid):
    """
    接受函数 pfencode, pfdecode 和 pfvalid,  
    并返回函数 encodelists, decodelists,  
    它们可以分别对该类对象的 **列表** 进行编码和解码.   
    """

    def encodelist(L):
        """Gets list of objects, encodes it as list of bits"""
        return "".join([pfencode(obj) for obj in L])

    def decodelist(S):
        """Gets lists of bits, returns lists of objects"""
        i=0; j=1 ; res = []
        while j<=len(S):
            if pfvalid(S[i:j]):
                res += [pfdecode(S[i:j])]
                i=j
            j+= 1
        return res

    return encodelist,decodelist


LtS , StL = represlists(pfNtS,pfStN,pfvalidN)

LtS([234,12,5])
# 111111001100110001111100000111001101
StL(LtS([234,12,5]))
# [234, 12, 5]

2.5.5 字母和文本的表示

我们可以用一个字符串来表示一个字母或符号, 然后如果这种表示是前缀无关的, 我们就可以通过简单地连接每个符号的表示来表示一个符号序列.
其中一种表示是 ASCII, 它用 7 位的字符串表示 128 个字母和符号.
由于 ASCII 表示是固定长度的, 它自动是前缀无关的 (你能看出原因吗?).
Unicode 是一种将 (在撰写本文时) 约 128,000 个符号表示为介于 0 和 1,114,111 之间的数字的表示方法 (称为 code points).
对于这些 code points 有几种前缀无关的表示方法, 一种流行的方法是 UTF-8, 它将每个 code point 编码为长度在 8 到 32 之间的字符串.

braillefig

**图 2.10.**Braille盲文

样例 2.2 (Braille 编码(盲文)). Braille 编码(盲文) 是另一种将字母和其他符号编码为二进制字符串的方法. 具体来说, 在盲文中, 每个字母被编码为一个属于 ${0, 1}^{6}$ 的字符串, 该字符串通过排列成两列三行的凸起点来书写, 参见图 2.10.
(一些符号需要用超过一个六位字符串来编码, 因此盲文使用了更通用的前缀无关编码.)

Louis Braille 是一个法国男孩, 因事故在 5 岁时失明. 盲文由 Braille 于 1821 年发明, 当时他只有 12 岁 (尽管他在一生中不断改进和完善它).

样例 2.3 (C语言中对象的表示(选读)). 我们可以使用编程语言来探究我们的计算环境如何表示各种数值.
在允许直接访问内存的 “不安全” 编程语言(如 C语言)中, 这种操作最为简单.

使用一个简单的 C 程序, 我们可以得到各种数值的表示方法.
可以看到, 对于整数, 乘以 2 对应于每个字节内部的 “左移”.
相比之下, 对于浮点数, 乘以 2 对应于表示中指数部分加 1.
在我们使用的架构中, 负数使用二进制补码方法表示.
C语言通过确保字符串末尾有一个零字节, 来以前缀无关的形式表示字符串.

int      2    : 00000010 00000000 00000000 00000000
int      4    : 00000100 00000000 00000000 00000000
int      513  : 00000001 00000010 00000000 00000000
long     513  : 00000001 00000010 00000000 00000000 00000000 00000000 00000000 00000000
int      -1   : 11111111 11111111 11111111 11111111
int      -2   : 11111110 11111111 11111111 11111111
string   Hello: 01001000 01100101 01101100 01101100 01101111 00000000
string   abcd : 01100001 01100010 01100011 01100100 00000000
float    33.0 : 00000000 00000000 00000100 01000010
float    66.0 : 00000000 00000000 10000100 01000010
float    132.0: 00000000 00000000 00000100 01000011
double   132.0: 00000000 00000000 00000000 00000000 00000000 10000000 01100000 01000000

2.5.6 向量, 矩阵及图片的表示

一旦我们可以表示数字和数字列表, 我们就可以表示向量(本质上就是数字的列表).
同样, 我们可以表示列表的列表, 因此特别地, 可以表示矩阵.
为了表示一张图像, 我们可以通过一个长度为3的数字列表表示每个像素的颜色, 分别对应红色、绿色和蓝色的强度.
(我们可以只使用三种原色, 因为大多数人类视网膜中只有三种类型的视锥细胞; 而如果要表示螳螂虾可见的颜色, 我们需要 16 种原色.)
因此, 一张包含 $n$ 个像素的图像可以表示为一个包含 $n$ 个长度为三的列表的列表.
视频可以表示为图像的列表.
当然, 这些表示方法相当浪费, 对于图像和视频通常使用更紧凑的表示方法, 虽然本书不会涉及这些内容.

2.5.7 图的表示

一个图在 $n$ 个顶点上可以表示为一个 $n \times n$ 的 邻接矩阵, 其第 $(i, j)$ 个元素为 1 当且仅当边 $(i, j)$ 存在, 否则为 0.
也就是说, 我们可以将一个 $n$ 顶点的有向图 $G = (V, E)$ 表示为一个字符串 $A \in {0, 1}^{n^{2}},$ 使得 $A_{i, j} = 1$ 当且仅当边 $i j \in E .$
我们可以通过将每条无向边 ${i, j}$ 替换为两条有向边 $i j$ 和 $i j$ 来将无向图转换为有向图.

另一种图的表示方法是 邻接表 表示. 也就是说, 我们将图的顶点集合 $V$ 与集合 $[n]$ 对应, 其中 $n = ∣ V ∣,$ 并将图 $G = (V, E)$ 表示为 $n$ 个列表组成的列表, 其中第 $i$ 个列表包含顶点 $i$ 的出邻居.
对于某些应用, 这些表示方法之间的差异可能很大, 虽然对于我们而言通常无关紧要.

representing_graphsfig 图 2.11. 用邻接矩阵与邻接表表示图 $G = ({0, 1, 2, 3, 4}, {(1, 0), (4, 0), (1, 4), (4, 1), (2, 1), (3, 2), (4, 3)})$

2.5.8 列表和嵌套列表的表示

如果我们有一种方法将集合 $O$ 中的对象表示为二进制字符串, 那么我们可以通过应用前缀无关变换来表示这些对象的列表.
此外, 我们可以使用类似上述的技巧来处理嵌套列表.
其思想是, 如果我们有某种表示 $E : O \to {0, 1}^{*},$ 那么我们可以使用五元素字母表 $Σ = {$ 0,1,[ , ] , , $}$ 上的字符串来表示来自 $O$ 的嵌套列表.

例如, 如果 $o_{1}$ 表示为 0011, $o_{2}$ 表示为 10011, $o_{3}$ 表示为 00111, 那么我们可以将嵌套列表 $(o_{1}, (o_{2}, o_{3}))$ 表示为字母表 $Σ$ 上的字符串 "[0011,[10011,00111]]".

通过将 $Σ$ 的每个元素本身编码为三位二进制字符串,
我们可以将任意对象集合 $O$ 的表示转换为一种表示, 使得可以表示这些对象的(潜在嵌套)列表.

2.5.9 一些注释

我们通常会将一个对象与其字符串表示等同起来.
例如, 如果 $F : {0, 1}^{*} \to {0, 1}^{*}$ 是某个将字符串映射到字符串的函数, 且 $n$ 是一个整数, 我们可能会说 “ $F (n) + 1$ 是质数”, 这意味着如果我们将 $n$ 表示为字符串 $x,$ 那么由字符串 $F (x)$ 表示的整数 $m$ 满足 $m + 1$ 是质数.
(你可以看到, 这种将对象与其表示等同的约定可以为我们节省大量繁琐的形式化表达.)

同样地, 如果 $x, y$ 是某些对象, 且 $F$ 是一个以字符串为输入的函数, 那么 $F (x, y)$ 表示将 $F$ 应用于有序对 $(x, y)$ 的表示的结果.
我们对任意 $k$ 元组对象使用相同的符号表示函数的调用.

这种将对象与其字符串表示等同的约定, 是我们人类一直在使用的.
例如, 当人们说 “ $17$ 是质数” 时, 他们真正的意思是, 十进制表示为字符串 “17” 的整数是质数.

Quote

当我们说

“ $A$ 是一个计算自然数乘法的算法”

时, 我们真正的意思是

“ $A$ 是一个计算函数 $F : {0, 1}^{*} \to {0, 1}^{*}$ 的算法, 满足对于每一对 $a, b \in N,$ 如果 $x \in {0, 1}^{*}$ 是表示有序对 $(a, b)$ 的字符串, 那么 $F (x)$ 将是表示它们乘积 $a \cdot b$ 的字符串”.

天呐!

2.6 将计算任务定义为数学函数

抽象地讲, 计算过程 是一种将输入(二进制字符串)转换为输出(二进制字符串)的过程.
这种从输入到输出的变换可以通过现代计算机、遵循指令的人、某些自然系统的演化或其他任何手段完成.

在后续章节中, 我们将转向对计算过程的数学定义, 但正如上文所讨论的, 目前我们关注 计算任务. 也就是说, 我们关注的是规范而非实现.
同样地, 在抽象层面上, 一个计算任务可以指定输出需要满足的任意输入输出关系.
然而, 在本书的大部分内容中, 我们将专注于最简单、最常见的任务: 计算函数.

下面是一些例子:

给定两个整数 $x, y$ 的表示, 计算它们的乘积 $x \times y .$ 使用上面的表示方法, 这对应于从 ${0, 1}^{*}$ 到 ${0, 1}^{*}$ 的函数计算. 我们已经看到, 解决这个计算任务的方法不止一种, 事实上, 我们仍然不知道该问题的最优算法.
给定一个整数 $z > 1$ 的表示, 计算其 因式分解; 即, 找出质数列表 $p_{1} \leq \dots \leq p_{k}$ 使得 $z = p_{1} \dots p_{k} .$ 这同样对应于从 ${0, 1}^{*}$ 到 ${0, 1}^{*}$ 的函数计算. 对于该问题的复杂性, 我们的认知差距甚至更大.
给定图 $G$ 的表示和两个顶点 $s$ 与 $t,$ 计算 $G$ 中从 $s$ 到 $t$ 的最短路径长度, 或者计算从 $s$ 到 $t$ 的 最长路径(不重复顶点)的长度. 这两个任务都对应于从 ${0, 1}^{*}$ 到 ${0, 1}^{*}$ 的函数计算, 但它们的计算难度却差别极大.
给定一个 Python 程序的代码, 判断是否存在输入会使程序进入无限循环. 该任务对应于从 ${0, 1}^{*}$ 到 ${0, 1}$ 的 部分函数 计算, 因为并非每个字符串都对应语法有效的 Python 程序. 我们会看到, 我们确实理解该问题的计算状态(见下文的状态机), 但答案相当令人惊讶.
给定图像 $I$ 的表示, 判断 $I$ 是猫的照片还是狗的照片. 这对应于从 ${0, 1}^{*}$ 到 ${0, 1}$ 的某个(部分)函数的计算.

计算任务的一个重要特例是计算 布尔函数, 其输出为单比特 ${0, 1} .$
计算这类函数对应于回答 是/否 问题, 因此该任务也被称为 判定问题.
给定任意函数 $F : {0, 1}^{*} \to {0, 1}$ 和 $x \in {0, 1}^{*},$ 计算 $F (x)$ 的任务对应于判定 $x$ 是否属于集合 $L,$ 其中 $L = {x : F (x) = 1}$ 被称为与函数 $F$ 对应的语言.(语言这个术语源于计算理论与诺姆·乔姆斯基发展的形式语言学之间的历史联系.)
因此, 许多文献将这类计算任务称为 判定一个语言.

booleanfuncfig 图 2.12. 子集 $L \subseteq {0, 1}^{*}$ 可等价于一个函数 $F : {0, 1}^{*} \to {0, 1},$ 其中若 $x \in L$ 则 $F (x) = 1,$ 若 $x \neq \in L$ 则 $F (x) = 0.$ 这种输出为单比特的函数称为布尔函数, 而字符串的子集则称为语言. 上述讨论表明, 二者本质上是同一对象, 我们可以将判定 $L$ 中成员资格的任务(在文献中称为判定一个语言)与计算函数 $F$ 的任务视作同一问题.

对于每一个特定函数 $F,$ 可能存在多种算法来计算 $F .$
我们将关注如下问题:

对于给定函数 $F,$ 是否可能 不存在算法 来计算 $F$ ?
如果存在算法, 哪一个是最优的? 是否可能 $F$ 在某种意义上是 “有效不可计算“的, 即计算 $F$ 的每个算法都需要极其庞大的资源?
如果我们无法回答这个问题, 能否在不同函数 $F$ 和 $F^{'}$ 之间证明某种等价性, 即它们要么都容易(有快速算法), 要么都困难?
一个函数难以计算是否可能是好事? 我们能否将其应用于密码学等领域?

为了回答这些问题, 我们需要对算法的概念进行数学定义, 这将在第三章中完成.

2.6.1 注意区分函数和程序!

你应始终注意规范与实现之间可能产生的混淆, 或等价地, 数学函数 与 算法/程序 之间的混淆.
编程语言(包括 Python)使用函数这个术语来表示(部分)程序, 这只会增加混乱.
这种混淆还源于数千年的数学历史, 在历史上人们通常通过一种计算方法来定义函数.

例如, 考虑自然数上的乘法函数.
这是函数 $M UL T : N \times N \to N,$ 将一对自然数 $(x, y)$ 映射为它们的乘积 $x \cdot y .$
正如我们提到的, 它可以通过多种方式实现:

def mult1(x,y):
    res = 0
    while y>0:
        res += x
        y   -= 1
    return res

def mult2(x,y):
    a = str(x) # represent x as string in decimal notation
    b = str(y) # represent y as string in decimal notation
    res = 0
    for i in range(len(a)):
        for j in range(len(b)):
            res += int(a[len(a)-i])*int(b[len(b)-j])*(10**(i+j))
    return res

print(mult1(12,7))
# 84
print(mult2(12,7))
# 84

无论是 mult1 还是 mult2, 给定相同的自然数输入对, 都会产生相同的输出.
(不过当数字变大时, mult1 所需时间会长得多.)
因此, 尽管它们是两个不同的程序, 它们计算的是相同的 数学函数.
区分 程序或算法 $A$ 与 $A$ 计算的函数 $F$ 对本课程至关重要 (参见图 2.13).

functionornotfig 图 2.13. 函数是输入到输出的映射. 程序是一组关于如何根据输入获取输出的指令. 程序可以计算一个函数, 但它本身并不等同于函数 - 尽管主流编程语言的术语中常常混用这两个概念.

重要启示

重要提示 2.2. 函数与程序并不相同.
程序是用来计算一个函数的.

区分函数与程序(或其他计算方式, 包括电路和机器)是本课程的一个核心主题.
因此, 这也是我(以及许多其他教师)在作业和考试中经常提出的问题主题(暗示一下, 暗示一下).

Info

备注 2.7 (超越于函数的计算 (进阶主题, 选读)). 函数能够涵盖相当多的计算任务, 但我们也可以考虑更一般的情形.
首先, 我们可以且将要讨论 部分函数, 它们并不在所有输入上都有定义.
在计算部分函数时, 我们只需关注函数定义域内的输入.
换句话说, 我们可以在假设有人“承诺“所有输入 $x$ 都使得 $F (x)$ 有定义的前提下, 设计部分函数 $F$ 的算法(否则我们不关心结果).
因此, 这种任务也被称为 承诺问题 (promise problems).

另一种推广是考虑关系, 它可能有多个可接受的输出.
例如, 考虑求解给定方程组的任意解的任务.
一个关系 $R$ 将字符串 $x \in {0, 1}^{*}$ 映射为一个 字符串集合 $R (x)$ (例如, $x$ 可能描述一组方程, 此时 $R (x)$ 对应于 $x$ 的所有解的集合).
我们也可以将关系 $R$ 与字符串对 $(x, y)$ 的集合对应起来, 其中 $y \in R (x) .$
如果一个计算过程对于每个 $x \in {0, 1}^{*}$ 都输出某个 $y \in R (x),$ 则称它求解了关系 $R .$

在本书后续章节, 我们将考虑更一般的任务, 包括 交互式任务(如在游戏中寻找良好策略)、使用概率概念定义的任务等.
然而, 在本书的大部分内容中, 我们将专注于 计算函数 的任务, 并且常常是 布尔函数, 输出仅为单比特.
事实证明, 在这个任务背景下可以研究大量计算理论, 所获得的见解在更一般的情形中同样适用.

我们可以使用二进制字符串来表示希望计算的对象.
一个集合 $O$ 的表示方案是从 $O$ 到 ${0, 1}^{*}$ 的一一映射.
我们可以使用前缀无关编码将集合 $O$ 的表示“升级“为集合中元素列表的表示.
一个基本的计算任务是 计算函数 $F : {0, 1}^{*} \to {0, 1}^{*}$ 的任务. 这个任务不仅包括乘法、因式分解等算术计算, 还涵盖了科学计算、人工智能、图像处理、数据挖掘等众多领域中的其他任务.
我们将研究如何找到(或至少给出界限)计算各种有趣函数 $F$ 的 最优算法 的问题.

2.7 习题

习题 2.1.

以下哪个对象可以用二进制字符串表示?

a. 一个整数 $x$

b. 一个无向图 $G$

c. 一个有向图 $H$

d. 以上所有

习题 2.2 (二进制表示). a. 证明在 (2.1) 中定义的二进制表示函数 $NtS : N \to {0, 1}^{*}$ 满足对于每个 $n \in N,$ 如果 $x = NtS (n),$ 那么 $∣ x ∣ = 1 + max (0, ⌊ lo g_{2} n ⌋)$ 且 $x_{i} = ⌊ x / 2^{⌊ l o g_{2} n ⌋ - i} ⌋ mod 2.$

b. 给出一个函数 $StN : {0, 1}^{*} \to N$ 使得对于每个 $n \in N$ 都有 $StN (NtS (n)) = n,$ 从而证明 $NtS$ 是一个单射函数.

习题 2.3 (更加紧凑的ASCII表示). ASCII 编码可以将由 $n$ 个英文字母组成的字符串编码为一个 $7 n$ 位的二进制字符串, 但在本练习中, 我们要求为小写英文字母字符串寻找一种更紧凑的表示方法.

证明存在一种表示方案 $(E, D),$ 用于将字母表 ${a, b, c, \dots, z}$ (共 26 个字母)上的字符串编码为二进制字符串, 使得对于每个 $n > 0$ 和长度为 $n$ 的字符串 $x \in {a, b, \dots, z}^{n},$ 表示 $E (x)$ 是一个长度不超过 $⌊ 4.8 n + 1000 ⌋$ 的二进制字符串. 换言之, 证明对于每个 $n,$ 存在一个单射函数 $E : {a, b, \dots, z}^{n} \to {0, 1}^{⌊ 4.8 n + 1000 ⌋} .$
证明不存在一种表示方案, 用于将字母表 ${a, b, \dots, z}$ 上的字符串编码为二进制字符串, 使得对于每个长度为 $n$ 的字符串 $x \in {a, b, \dots, z}^{n},$ 表示 $E (x)$ 是一个长度为 $⌊ 4.6 n + 1000 ⌋$ 的二进制字符串. 换言之, 证明存在某个 $n > 0,$ 使得不存在单射函数 $E : {a, b, \dots, z}^{n} \to {0, 1}^{⌊ 4.6 n + 1000 ⌋} .$
Python 的 bz2.compress 函数是一个从字符串到字符串的映射, 它使用无损(因此是单射)的 bzip2 算法进行压缩. 在转换为小写并截去空格和数字后, 托尔斯泰的《战争与和平》文本包含 $n = 2, 517, 262$ 个字符. 然而, 如果我们对《战争与和平》的文本字符串运行 bz2.compress, 会得到一个长度为 $k = 6, 274, 768$ 位的字符串, 这只有 $2.49 n$ (尤其远小于 $4.6 n) .$ 解释为什么这不与你对前一个问题的回答相矛盾.
有趣的是, 如果我们尝试对随机字符串应用 bz2.compress, 性能会差得多. 在我的实验中, 输出位数与输入字符数之间的比率约为 $4.78.$ 然而, 有人可能会想象可以做得更好, 并且存在一家名为“Pied Piper”的公司, 其算法可以将由 $n$ 个随机小写字母组成的字符串无损压缩到少于 $4.6 n$ 位. ⁵ 通过证明对于每个 $n > 100$ 和单射函数 $E n co d e : {a, \dots, z}^{n} \to {0, 1}^{*},$ 如果我们令 $Z$ 为随机变量 $∣ E n co d e (x) ∣$ (即 $E n co d e (x)$ 的长度), 其中 $x$ 是从集合 ${a, \dots, z}^{n}$ 中均匀随机选择的, 则 $Z$ 的期望值至少为 $4.6 n,$ 来说明这种情况不可能发生.

习题 2.4 (表示图: 上界). 证明存在一个字符串表示顶点集为 $[n]$ 、度数最多为10的有向图, 该表示最多使用 $1000 n lo g n$ 比特. 更正式地, 证明如下: 假设对于每个 $n \in N,$ 我们定义集合 $G_{n}$ 为包含所有在顶点集 $[n]$ 上的有向图(无自环)的集合, 其中每个顶点的度数最多为10. 那么, 证明对于每个足够大的 $n,$ 存在一个一对一函数 $E : G_{n} \to {0, 1}^{⌊ 1000 n l o g n ⌋} .$

习题 2.5 (表示图: 下界).

定义 $S_{n}$ 为从 $[n]$ 到 $[n]$ 的双射函数( 即置换)的集合. 证明存在一个从 $S_{n}$ 到 $G_{2 n}$ 的单射映射, 其中 $G_{2 n}$ 是上面习题 2.4 中定义的集合.
证明无法将习题 2.4 中的表示改进到 $o (n lo g n)$ 的长度. 具体来说, 证明对于每个足够大的 $n \in N,$ 不存在单射函数 $E : G_{n} \to {0, 1}^{⌊ 0.001 n l o g n ⌋ + 1000} .$

习题 2.6 (不同表示法下的乘法运算). 回想一下, 小学阶段计算两个数乘法的算法需要 $O (n^{2})$ 次操作. 假设我们不使用十进制表示法, 而是使用以下某种表示法 $R (x)$ 来表示一个介于 $0$ 到 $1 0^{n} - 1$ 之间的数 $x .$ 对于以下哪种表示法, 你仍然可以在 $O (n^{2})$ 次操作内完成两个数的乘法？

a. 标准二进制表示法: $B (x) = (x_{0}, \dots, x_{k}),$ 其中 $x = \sum_{i = 0}^{k} x_{i} 2^{i},$ 且 $k$ 是满足 $x \geq 2^{k}$ 的最大整数.

b. 反向二进制表示法: $B (x) = (x_{k}, \dots, x_{0}),$ 其中 $x_{i}$ 的定义与上述相同, $i = 0, \dots, k - 1.$

c. 二进制编码的十进制表示法: $B (x) = (y_{0}, \dots, y_{n - 1}),$ 其中 $y_{i} \in 0, 1^{4}$ 表示 $x$ 的第 $i$ 个十进制数字, 映射关系为 $0$ 对应 $0000,$ $1$ 对应 $0001,$ $2$ 对应 $0010,$ 以此类推( 例如 $9$ 对应 $1001) .$

d. 以上所有选项.

习题 2.7. 假设 $R : N \to {0, 1}^{*}$ 对应于将一个数 $x$ 表示为一个由 $x$ 个 1 组成的字符串( 例如, $R (4) = 1111,$ $R (7) = 1111111$ 等). 如果 $x$ 和 $y$ 是介于 $0$ 和 $1 0^{n} - 1$ 之间的数, 那么当以 $R (\cdot)$ 表示形式给出它们时, 我们是否仍然能用 $O (n^{2})$ 次操作将 $x$ 和 $y$ 相乘？

习题 2.8. 回忆一下, 如果 $F$ 是一个一一对应且满射的函数, 将有限集 $U$ 中的元素映射到有限集 $V,$ 那么 $U$ 和 $V$ 的大小相同. 令 $B : N \to {0, 1}^{*}$ 是一个函数, 使得对于每个 $x \in N,$ $B (x)$ 是 $x$ 的二进制表示.

证明 $x < 2^{k}$ 当且仅当 $∣ B (x) ∣ \leq k .$

使用第1题来计算集合 $y \in {0, 1}^{*} : ∣ y ∣ \leq k$ 的大小, 其中 $∣ y ∣$ 表示字符串 $y$ 的长度.

使用第1题和第2题来证明 $2^{k} - 1 = 1 + 2 + 4 + \dots + 2^{k - 1} .$

习题 2.9 (元组的前缀无关编码). 假设 $F : N \to {0, 1}^{*}$ 是一个一对一函数, 且是 前缀无关 的, 即不存在 $a \neq = b$ 使得 $F (a)$ 是 $F (b)$ 的前缀.

a. 证明 $F_{2} : N \times N \to {0, 1}^{*},$ 定义为 $F_{2} (a, b) = F (a) F (b)$ ( 即 $F (a)$ 和 $F (b)$ 的连接)是一个一对一函数.

b. 证明 $F_{*} : N^{*} \to {0, 1}^{*}$ 定义为 $F_{*} (a_{1}, \dots, a_{k}) = F (a_{1}) \dots F (a_{k})$ 是一个一对一函数, 其中 $N^{*}$ 表示所有有限长度的自然数列表的集合.

习题 2.10 (更高效的前缀无关转换). 假设 $F : O \to {0, 1}^{*}$ 是集合 $O$ 中对象的一种表示法( 不一定前缀无关), 且 $G : N \to {0, 1}^{*}$ 是自然数的一种前缀无关表示法. 定义 $F^{'} (o) = G (∣ F (o) ∣) F (o)$ ( 即, 将 $F (o)$ 的长度的表示与 $F (o)$ 本身连接起来).

a. 证明 $F^{'}$ 是 $O$ 的一种前缀无关表示法.

b. 证明我们可以通过一种修改将任何表示法转换为前缀无关的表示法, 该修改将一个 $k$ 位字符串转换为长度至多为 $k + O (lo g k)$ 的字符串.

c. 证明我们可以通过一种修改将任何表示法转换为前缀无关的表示法, 该修改将一个 $k$ 位字符串转换为长度至多为 $k + lo g k + O (lo g lo g k)$ 的字符串. ⁶

习题 2.11 (Kraft不等式). 假设 $S \subseteq {0, 1}^{*}$ 是一个有限的前缀无关集合, 且令 $n$ 是某个大于 $max {∣ x ∣ : x \in S}$ 的数.

a. 对于每个 $x \in S,$ 令 $L (x) \subseteq {0, 1}^{n}$ 表示所有长度为 $n$ 的字符串中前 $k$ 位等于 $x_{0}, \dots, x_{k - 1}$ 的字符串集合. 证明: ( 1) $∣ L (x) ∣ = 2^{n - ∣ x ∣};$ ( 2)对于任意不同的 $x, x^{'} \in S,$ $L (x)$ 与 $L (x^{'})$ 是不相交的.

b. 证明 $\sum_{x \in S} 2^{- ∣ x ∣} \leq 1.$ ( 提示: 首先证明 $\sum_{x \in S} ∣ L (x) ∣ \leq 2^{n} .$ )

c. 证明不存在对字符串的前缀无关编码, 其开销小于对数. 即, 证明不存在函数 $PF : {0, 1}^{*} \to {0, 1}^{*},$ 使得对于每个足够大的 $x \in {0, 1}^{*},$ 满足 $∣ PF (x) ∣ \leq ∣ x ∣ + 0.9 lo g ∣ x ∣,$ 并且集合 ${PF (x) : x \in {0, 1}^{*}}$ 是前缀无关的. 其中因子 $0.9$ 是任意的, 关键是其值小于 $1.$

习题 2.12 (单射函数的复合). 证明对于任意两个单射函数 $F : S \to T$ 和 $G : T \to U,$ 由 $H (x) = G (F (x))$ 定义的函数 $H : S \to U$ 是单射的.

习题 2.13 (自然数与字符串).

我们已经证明了自然数可以表示为字符串. 证明反方向也成立: 存在一个一对一映射 $StN : {0, 1}^{*} \to N .$ ( $StN$ 表示“字符串到数字”. )
回忆一下, Cantor 证明了不存在一对一映射 $RtN : R \to N .$ 证明 Cantor 的结果蕴含定理 2.1.

习题 2.14 (将整数序列映射到数). 回忆一下, 对于每个集合 $S,$ 集合 $S^{*}$ 定义为 $S$ 中元素的所有有限序列的集合( 即 $S^{=} (x_{0}, \dots, x_{n - 1}); ∣; n \in N;,; \forall_{i \in [n]} x_{i} \in S) .$ 证明存在一个从 $Z^{*}$ 到 $N$ 的单射映射, 其中 $Z$ 是所有整数的集合 $\dots, - 3, - 2, - 1, 0, + 1, + 2, + 3, \dots .$

2.8 参考书目

将数据表示为字符串的研究( 包括压缩和纠错等问题)属于 信息论 的范畴, 这在 Cover 和 Thomas 的经典教材 (Cover, Thomas, 2006) 中有涵盖. 表示法也在 数据结构设计 领域中被研究, 相关教材如 (Cormen, Leiserson, Rivest, Stein, 2009).

关于用最高有效位在前还是在后表示整数的问题, 被称为大端序与小端序表示法. 这一术语来源于 Cohen 的 (Cohen, 1981) 那篇兼具趣味性与知识性的论文, 他在文中将两派拥护者之间的冲突比作乔纳森·斯威夫特的《格列佛游记》中交战不休的部落. 有符号整数的二进制补码表示法是在冯·诺依曼的经典报告 (von Neumann, 1945) 中提出的, 该报告详细阐述了存储程序计算机的设计方案, 不过类似的表示法甚至更早就在算盘和其他机械计算设备中得到了使用.

我们应当将函数的定义或规范与其实现或计算分离开来, 这一想法看似“显而易见“, 但数学家们花了相当长的时间才达成这一观点. 历史上, 函数 $F$ 是通过展示如何从输入推导出输出的规则或公式来标识的. 正如我们在第9章中更深入讨论的那样, 在 19 世纪, 这种有些非正式的函数概念开始“出现裂痕“, 最终数学家们得出了更严谨的定义, 即函数是输入到输出的任意赋值. 虽然许多函数可以通过一个或多个公式来描述( 或计算), 但如今我们并不认为这是函数的基本属性, 也允许存在不对应于任何“优美“公式的函数.

我们已经提到, 实数的所有表示法本质上都是 近似的. 因此, 一项重要的努力是理解, 我们能够就算法输出的近似质量提供何种保证, 并将其作为输入近似质量的函数. 这个问题被称为确定给定方程的数值稳定性的问题. 浮点数指南网站详细描述了浮点数表示法及其可能微妙失效的多种方式, 另请参阅网站 0.30000000000000004.com.

Dauben (Dauben, 1990) 撰写了康托尔的传记, 重点介绍了他的数学思想发展历程. (Halmos, 1960) 是一本关于集合论的经典教材, 也包括了康托尔定理. 康托尔定理也在许多离散数学教材中有所涵盖, 包括 (Meyer, 2018)(Lewis, Zax, 2019).

图的邻接矩阵表示法不仅仅是将图映射成二进制字符串的便捷方法, 而且事实证明, 矩阵的许多自然概念和运算对图也很有用. ( 例如, 谷歌的 PageRank 算法就依赖于这一观点. )Spielman 课程的笔记是这个领域( 称为 谱图论 )的极佳资源. 我们将在本书后面讨论 随机游走 时, 重新回到这一观点.

1: 尽管巴比伦人早已发明了位置记数法, 我们今天使用的十进制位置记数法是印度数学家约在公元三世纪发明的, 再由阿拉伯数学家在八世纪采用与发展. 它在欧洲首次受到显著关注是在 1202 年 Fibonacci(又名 Leonardo of Pisa)出版的著作 “Liber Abaci” 中, 但直到十五世纪, 它才在日常使用中取代罗马数字.

2: 其中 $RtS$ 代表 “real numbers to strings”.

3: $FtS$ 代表 “functions to strings”.

4: $FtR$ 代表 “functions to reals”.

5: 实际上, 这家虚构公司使用的指标更关注压缩速度而非压缩率, 参见这里和这里.

6: 提示: 递归地思考如何表示字符串的长度.

定义计算

定义计算

Quote

“没有理由不借助机器来节省脑力劳动和体力劳动. “ – Charles Babbage, 1852

“如果有谁不以我的例子为戒, 而尝试并成功地用不同的原理或更简单的机械手段, 构造出一台在自身中体现数学分析执行部门全部功能的机器, 那么我丝毫不担心将我的声誉交付于他, 因为唯有他能完全理解我努力的性质及其成果的价值. “ – Charles Babbage, 1864

“要理解一个程序, 你必须既成为机器, 又成为程序. “ – Alan Perlis, 1982

学习目标

理解计算可以被精确建模.
学习 布尔电路 / 直线程序 的计算模型.
电路与直线程序的等价性.
$AND$ / $OR$ / $NOT$ 与 $NAND$ 的等价性.
物理世界中的计算实例.

babbagewheels

图 3.1. Charles Babbage的计算轮. 图片取自 Harvard Mark I 计算机的“操作手册“.

markIcomp

图 3.2. 摘自 Popular Mechanics 上的一篇关于 Harvard Mark I 计算机的文章, 1944 年.

几千年来, 人类一直在进行计算, 不仅依靠纸笔, 还使用过算盘、计算尺、各种机械装置, 直到现代的电子计算机. 从先验的角度来看, 计算这一概念似乎总是依赖于所使用的具体工具. 例如, 你也许会认为, 在现代笔记本电脑上用 Python 实现的乘法算法, 与用纸笔进行乘法运算时的“最佳“算法会有所不同.

然而, 正如我们在引言中所看到的, 一个在渐近意义上更优的算法, 无论底层技术如何, 最终都会优于较差的算法. 这让我们看到希望: 可以找到一种独立于技术的方式来刻画计算的概念.

本章正是要做这件事. 我们将把“从输入计算输出“定义为一系列基本操作的应用 (见图 3.3) . 借助这一框架, 我们便能精确地表述诸如: “函数 $f$ 可以由模型 $X$ 计算“或“函数 $f$ 可以由模型 $X$ 在 $s$ 步操作内计算完成“这样的命题.

compchapwhatvshowfig

图 3.3. 一个将字符串映射到字符串的函数, 规定了一项计算任务, 也就是说, 它描述了输入与输出之间所期望的关系. 在本章中, 我们将定义一些模型, 用来实现这些计算过程, 从而达到所需的关系, 也就是描述如何根据输入来计算输出. 我们将看到若干此类模型的例子, 包括布尔电路和直线型编程语言.

简要概述

阅读本章, 我们希望读者能够有以下收获:

我们可以使用 逻辑运算, 如 $AND$ (与)、 $OR$ (或) 和 $NOT$ (非), 从输入计算输出 (见 3.2节) .
布尔电路 是一种通过组合基本逻辑运算来计算更复杂函数的方法 (见 3.3节) .
我们既可以将布尔电路看作一种数学模型 (基于有向无环图) , 也可以将其视为现实世界中可实现的物理装置. 实现方式多种多样, 不仅包括基于硅的半导体, 还包括机械甚至生物机制 (见 3.5节) .
我们还可以把布尔电路描述为 直线型程序, 即不包含循环结构的程序 (没有 while / for / do .. until 等) (见 3.4节) .
可以通过 $NAND$ 运算来实现 $AND$ 、 $OR$ 和 $NOT$ 运算 (反之亦然) .
这意味着带有 $AND$ / $OR$ / $NOT$ 门的电路, 与带有 $NAND$ 门的电路在计算能力上是等价的, 我们可以根据需要选择其中任一模型来描述计算 (见 3.6节) .
先提前剧透一下, 在下一章中我们将看到, 这类电路可以计算所有有限函数.

本章的一个“重要启示“是 模型之间的等价性 (见重要提示 3.1) . 如果两个计算模型能够计算相同集合的函数, 那么它们就是等价的. 布尔电路 ( $AND$ / $OR$ / $NOT$ 门) 与 $NAND$ 电路的等价性只是一个例子, 本书中我们还会多次遇到类似的普遍现象.

3.1 定义计算

“算法“一词来源于对穆罕默德·伊本·穆萨·花剌子密(Muhammad ibn Musa al-Khwarizmi)名字的拉丁化转写. al-Khwarizmi 是九世纪的一位波斯学者, 他的著作向西方世界介绍了十进位值制数字系统, 以及一次方程与二次方程的解法 (见图 3.4) . 然而, 以今天的标准来看, al-Khwarizmi 对算法的描述的形式化程度相当不足. 他没有使用如 $x, y$ 这样的变量, 而是采用具体的数字 (如 10 和 39) , 并依赖读者从这些例子中自行类推出一般情况–这与当今儿童学习算法时的教学方式颇为相似.

以下是 al-Khwarizmi 对解形如 $x^{2} + b x = c$ 方程的算法的描述:

如何解形如’平方与根的和等于某数’的方程

举例来说: “一个平方加上它的十倍平方根等于三十九迪拉姆. “ 换句话说, 求这样一个平方数: 它加上它自身的十倍平方根, 结果是三十九.

解法如下:

将根的数量减半, 本例中十的一半是五.
将这个数 (五) 平方, 得到二十五.
将平方结果加到三十九上, 得到六十四.
取六十四的平方根, 得到八.
从平方根中减去根数量的一半 (五) , 余数为三.

因此, 这个平方根为三, 对应的平方为九.

alKhwarizmi

图 3.4. 代数学手稿中的文字页, 展示了解两类二次方程的几何解法. 馆藏号: MS. Huntington 214, 页码 fol. 004v-005r

childrenalg

图 3.5. 面向儿童的两位数加法算法讲解.

为了本书的目的, 我们需要一种更加精确的方式来描述算法. 幸运 (或者说不幸) 的是, 至少目前, 计算机在从实例中学习方面远远落后于学龄儿童. 因此, 在 20 世纪, 人们提出了用于精确描述算法的形式化语言, 即 编程语言.

下面是用 Python 转写的 al-Khwarizmi 二次方程求解算法:

from math import sqrt
# 使用 Python 的 sqrt 函数来计算平方根

def solve_eq(b, c):
    # 根据 al-Khwarizmi 的方法求解 x^2 + b*x = c
    # al-Khwarizmi 在 b=10, c=39 的例子中演示了这个方法

    val1 = b / 2.0  # "将根的数量减半"
    val2 = val1 * val1  # "将这个数平方"
    val3 = val2 + c  # "将平方结果加到 c 上"
    val4 = sqrt(val3)  # "取和的平方根"
    val5 = val4 - val1  # "从平方根中减去根数量的一半"
    return val5  # "这就是所求的平方根"

# 测试: 求解 x^2 + 10*x = 39
print(solve_eq(10, 39))
# 输出 3.0

我们可以非正式地定义算法如下:

定义 3.1 (算法的非正式定义). 算法是一组指令, 用于通过执行一系列“基本步骤“从输入计算出输出. 如果对于每一个输入 $x,$ 按照算法 $A$ 的指令操作都能得到输出 $F (x),$ 则称算法 $A$ 计算函数 $F .$

在本章中, 我们将使用 布尔电路 (Boolean Circuits) 模型, 更精确而正式地定义算法. 我们将展示, 布尔电路在计算能力上等价于用“极简“编程语言编写的 直线程序 (straight line programs), 即不包含循环的编程语言. 我们还将看到, 具体选择哪种 基本运算 (elementary operations) 并不重要, 不同的选择都可以得到计算能力等价的模型 (见图 3.6). 然而, 要理解这一点, 我们需要一些时间. 我们将从讨论什么是“基本运算“开始, 并说明如何将算法的描述映射为实际物理过程, 使其在现实世界中从输入生成输出.

Note

compchapoverviewfig

图 3.6. 本章定义的计算模型概览. 我们将展示几种等价的方式来表示执行有限计算的“操作方法“. 具体而言, 我们将证明, 可以使用 布尔电路 (Boolean circuit) 或 直线程序 (straight line program) 来表示这样的计算, 且这两种表示方式在计算能力上是等价的. 我们还将展示, 作为基本运算, 我们可以选择集合 ${AND, OR, NOT}$ 或集合 ${NAND},$ 这两种选择在计算能力上也是等价的. 通过选择使用电路还是程序, 以及选择 ${AND, OR, NOT}$ 还是 ${NAND},$ 我们可以得到四种等价的有限计算建模方法. 此外, 还有许多其他基本操作集合的选择, 它们在计算能力上同样是等价的.

3.2 使用与( $AND),$ 或( $OR),$ 非( $NOT)$ 进行计算

算法的表示需要将一个较为复杂的计算分解为一系列更简单的步骤. 这些步骤可以通过多种不同的方式来执行, 包括:

在纸上书写符号.
改变电线中的电流.
蛋白质与 DNA 链结合.
集体中的个体对刺激做出反应 (例如, 蜂群中的蜜蜂, 市场中的交易者) .

为了形式化地定义算法, 我们尝试“化繁为简“, 挑出组成算法的“最小单位“, 例如下列一组简单逻辑函数:

与函数 $AND : {0, 1}^{2} \to {0, 1}$ 定义为

$AND (a, b) = {10 a = b = 1 otherwise$

或函数 $OR : {0, 1}^{2} \to {0, 1}$ 定义为

$OR (a, b) = {01 a = b = 0 otherwise$

非函数 $NOT : {0, 1} \to {0, 1}$ 定义为

$NOT (a) = {01 a = 1 a = 0$

函数 $AND$ 、 $OR$ 和 $NOT$ 是逻辑学以及许多计算机系统中使用的基本逻辑运算符. 在逻辑学中, $AND (a, b)$ 表示为 $a \land b,$ $OR (a, b)$ 表示为 $a \lor b,$ $NOT (a)$ 表示为 $\overline{a}$ 或 $\neg a,$ 我们也将采用这种表示法.

每一个函数 $AND, OR, NOT$ 都以一个或两个单比特作为输入, 并输出一个单比特. 尽管这些运算看起来相当基本, 然而, 计算的威力正来源于将这些简单的运算组合在一起.

用 $AND,$ $OR$ 和 $NOT$ 写出多数函数 $MAJ$

样例 3.1. 考虑函数 $MAJ : {0, 1}^{3} \to {0, 1},$ 其定义如下:

$MAJ (x) = {10 x_{0} + x_{1} + x_{2} \geq 2 otherwise .$

也就是说, 对于每个 $x \in {0, 1}^{3},$ 当且仅当 $x$ 的三个元素中至少有两个等于 $1$ 时, $MAJ (x) = 1.$ 你能用 $AND$ 、 $OR$ 和 $NOT$ 写出一个计算 $MAJ$ 的公式吗? (此处建议你先停下来自己推导公式. 提示: 虽然某些函数需要用到 $NOT,$ 但计算 $MAJ$ 不需要使用它. )

我们先用文字重新表述 $MAJ (x) :$ “当且仅当存在一对不同的元素 $i, j,$ 且 $x_{i}$ 和 $x_{j}$ 都等于 $1$ 时, $MAJ (x) = 1.$ “
换句话说, $MAJ (x) = 1$ 当且仅当 $x_{0} = 1$ 且 $x_{1} = 1$ , 或 $x_{1} = 1$ 且 $x_{2} = 1$ , 或 $x_{0} = 1$ 且 $x_{2} = 1$ .

由于三个条件 $c_{0}, c_{1}, c_{2}$ 的 $OR$ 可以写作 $OR (c_{0}, OR (c_{1}, c_{2})),$ 我们可以将其翻译为如下公式:

$MAJ (x_{0}, x_{1}, x_{2}) = OR (AND (x_{0}, x_{1}), OR (AND (x_{1}, x_{2}), AND (x_{0}, x_{2}))) . (3.1)$

回想一下, 我们也可以将 $OR (a, b)$ 写作 $a \lor b,$ 将 $AND (a, b)$ 写作 $a \land b .$ 使用这种符号表示, 公式 (3.1) 也可以写作:

$MAJ (x_{0}, x_{1}, x_{2}) = ((x_{0} \land x_{1}) \lor (x_{1} \land x_{2})) \lor (x_{0} \land x_{2}) .$

我们也可以将公式 (3.1) 以“编程语言“的形式表示: 将其表达为一组指令, 用于在给定基本操作 $AND, OR, NOT$ 的情况下计算 $MAJ :$

def MAJ(X[0],X[1],X[2]):
    firstpair  = AND(X[0],X[1])
    secondpair = AND(X[1],X[2])
    thirdpair  = AND(X[0],X[2])
    temp       = OR(secondpair,thirdpair)
    return OR(firstpair,temp)

3.2.1 $AND$ 和 $OR$ 的一些性质

与标准的加法和乘法类似, 函数 $AND$ 和 $OR$ 满足交换律: $a \lor b = b \lor a$ 和 $a \land b = b \land a,$ 以及结合律: $(a \lor b) \lor c = a \lor (b \lor c)$ 和 $(a \land b) \land c = a \land (b \land c) .$

于是如同加法和乘法的情况, 我们通常可以省略括号, 将 $((a \lor b) \lor c) \lor d$ 写作 $a \lor b \lor c \lor d,$ 对更多项的 $AND$ 和 $OR$ 同理.

它们还满足分配律的一种变体:

练习 3.1 ( $AND$ 与 $OR$ 满足分配律). 证明: 对于任意 $a, b, c \in {0, 1},$ 都有 $a \land (b \lor c) = (a \land b) \lor (a \land c) .$

对练习 3.1的解答

我们可以通过枚举 $a, b, c \in {0, 1}$ 的所有 $8$ 种可能取值来证明这一点, 但它也可以直接从标准的分配律推导出来.

根据标准的分配律 $a \cdot (b + c) = a \cdot b + a \cdot c,$ 因此前者表达式为真当且仅当后者表达式为真.

3.2.2 扩展例子: 计算异或( $XOR)$

让我们看看如何用方才的基本运算得到一种新运算. 定义 $XOR : {0, 1}^{2} \to {0, 1}$ 为函数 $XOR (a, b) = a + b mod 2.$ 也就是说, $XOR (0, 0) = XOR (1, 1) = 0,$ $XOR (1, 0) = XOR (0, 1) = 1.$

我们指出, 可以仅使用 $AND$ 、 $OR$ 和 $NOT$ 来构造 $XOR .$

暂停一下

像往常一样, 在继续阅读之前, 先尝试自己用 $AND$ 、 $OR$ 和 $NOT$ 算法推导出 $XOR$ 的实现方法, 将会是一个很好的练习.

以下算法使用 $AND$ 、 $OR$ 和 $NOT$ 来计算 $XOR :$

算法 3.1 (用 $AND,$ $OR$ 与 $NOT$ 计算 $XOR$ ).

$Input : a, b \in {0, 1} Output : XOR (a, b) Step1 : w_{1} \leftarrow AND (a, b) Step2 : w_{2} \leftarrow NOT (w_{1}) Step3 : w_{3} \leftarrow OR (a, b) Step4 : return AND (w_{2}, w_{3})$

引理 3.1. 对于每个 $a, b \in {0, 1},$ 在输入 $a, b$ 时, 算法 3.1 输出 $a + b mod 2.$

对引理 3.1的证明

如果 $a = b = 0,$ 则 $w 3 = OR (a, b) = 0,$ 因此输出为 $0.$
如果 $a = b = 1,$ 则 $AND (a, b) = 1,$ 所以 $w 2 = NOT (AND (a, b)) = 0,$ 输出为 $0.$
如果 $a = 1$ 且 $b = 0$ (或反之) , 则 $w 3 = OR (a, b) = 1$ 且 $w 1 = AND (a, b) = 0,$ 此时算法输出
$AND (NOT (w 1), w 3) = 1.$

我们也可以用编程语言来描述算法 3.1. 特别地, 以下是 $XOR$ 函数的 Python 实现:

def AND(a,b): return a*b
def OR(a,b):  return 1-(1-a)*(1-b)
def NOT(a):   return 1-a

def XOR(a,b):
    w1 = AND(a,b)
    w2 = NOT(w1)
    w3 = OR(a,b)
    return AND(w2,w3)

# 一个测试
print([f"XOR({a},{b})={XOR(a,b)}" for a in [0,1] for b in [0,1]])
# ['XOR(0,0)=0', 'XOR(0,1)=1', 'XOR(1,0)=1', 'XOR(1,1)=0']

练习 3.2 (在三个输入上计算 $XOR$ ). 定义 $XOR_{3} : {0, 1}^{3} \to {0, 1}$ 为 $XOR_{3} (a, b, c) = a + b + c (mod 2) .$ 也就是说, 当 $a + b + c$ 为奇数时 $XOR_{3} (a, b, c) = 1,$ 否则 $XOR_{3} (a, b, c) = 0.$ 证明可以仅用 $AND$ 、 $OR$ 和 $NOT$ 三种逻辑运算来计算 $XOR_{3} .$ 你可以将其表示为公式、使用诸如 Python 的编程语言实现, 或构造相应的布尔电路.

对练习 3.2的解答

模 2 加法具有与通常加法相同的 结合律 ( $(a + b) + c = a + (b + c))$ 和 交换律 ( $a + b = b + a) .$
这意味着, 如果我们定义 $a \oplus b = a + b (mod 2),$ 那么
$XOR_{3} (a, b, c) = (a \oplus b) \oplus c$ 换句话说,
$XOR_{3} (a, b, c) = XOR (XOR (a, b), c) .$

由于我们已经知道如何仅用 $AND$ 、 $OR$ 和 $NOT$ 来计算 $XOR,$ 因此可以将其组合起来, 用同样的基本运算实现 $XOR_{3} .$ 在 Python 中, 这可以写作如下程序:

def XOR3(a,b,c):
    w1 = AND(a,b)
    w2 = NOT(w1)
    w3 = OR(a,b)
    w4 = AND(w2,w3)
    w5 = AND(w4,c)
    w6 = NOT(w5)
    w7 = OR(w4,c)
    return AND(w6,w7)

# 一个小测试
print([f"XOR3({a},{b},{c})={XOR3(a,b,c)}" for a in [0,1] for b in [0,1] for c in [0,1]])
# ['XOR3(0,0,0)=0', 'XOR3(0,0,1)=1', 'XOR3(0,1,0)=1', 'XOR3(0,1,1)=0', 'XOR3(1,0,0)=1', 'XOR3(1,0,1)=0', 'XOR3(1,1,0)=0', 'XOR3(1,1,1)=1']

暂停一下

尝试将上述例子推广, 构造一种对任意正整数 $n$ 都适用的方法, 用不超过 $4 n$ 个基本步骤计算函数 $XOR_{n} : {0, 1}^{n} \to {0, 1} .$
这里每一“基本步骤“指的是对某个已知输出或先前计算得到的值, 应用集合 ${AND, OR, NOT}$ 中的某个布尔运算.

3.2.3 非正式地定义“基本运算“和“算法“

我们已经看到, 通过组合应用 $AND$ 、 $OR$ 和 $NOT$ 可以得到一些有趣的函数. 这启发我们将 $AND$ 、 $OR$ 和 $NOT$ 视为我们的基本运算, 从而给出如下关于算法的定义:

定义 3.2 (算法的半形式化定义).一个算法由一系列步骤组成, 每一步的形式是: “通过将 $AND$ 、 $OR$ 或 $NOT$ 应用于先前计算得到的值 (假定输入也已计算得到) , 来计算一个新值”. 若对于函数 $F$ 的任意输入 $x,$ 当我们将 $x$ 作为算法 $A$ 的输入时, 其最后一步计算出的值为 $F (x),$ 则称算法 $A$ 计算了函数 $F .$

这一定义引出了若干值得关注的问题:

首先, 这一定义确实过于非正式. 我们既没有精确说明每一步到底做了什么, 也没有明确“将 $x$ 作为输入“究竟是什么意思.
其次, 选择 $AND$ 、 $OR$ 或 $NOT$ 看起来相当任意. 为什么不是 $XOR$ 和 $MAJ$ ? 为什么不允许加法和乘法这样的运算? 又或者其他逻辑结构, 例如 if/then 或 while?
第三, 我们是否确信该定义真的与实际计算有关? 如果有人给出了这种算法的描述, 我们是否真的能够在现实中用它来计算相应的函数?

暂停一下

这些问题将在很大程度上引导我们接下来的章节. 因此, 建议你重新阅读上述非正式定义, 并思考自己对这些问题的看法.

本书的很大一部分内容将致力于回答上述问题. 我们将看到:

我们可以把算法的定义完全形式化, 从而为“算法 $A$ 计算函数 $f$ “这样的表述赋予精确的数学含义.
虽然选择 $AND$ / $OR$ / $NOT$ 看似任意, 我们本可以选择其他函数, 但实际上这种选择影响不大. 我们会看到, 即使改用加法和乘法, 或者几乎任何可以合理视为基本步骤的操作, 我们依然能够得到相同的计算能力.
事实证明, 我们确实可以在现实世界中计算这种基于 $AND$ / $OR$ / $NOT$ 的算法. 首先, 这样的算法定义清晰, 因此人类可以用纸和笔逐步执行. 其次, 这种计算可以通过多种方式机械化. 我们已经看到, 可以编写 Python 程序来对应执行这样的指令序列. 而实际上, 还可以通过被称为晶体管的元件, 用电子信号直接实现 $AND$ 、 $OR$ 和 $NOT$ 等操作. 这正是现代电子计算机的工作方式.

在本章余下的内容以及本书后续部分, 我们将开始回答这些问题. 我们会看到更多简单操作组合出复杂操作的实例, 包括加法、乘法、排序等. 同时, 我们还会讨论如何通过多种技术物理实现 $AND$ 、 $OR$ 和 $NOT$ 等基本操作.

3.3 布尔电路

logicgatesfig

图 3.7. 逻辑运算或“门“的标准符号包括 $AND$ 、 $OR$ 、 $NOT,$ 以及在3.6节中讨论的 $NAND$ 运算.

smallandornotcircxorfig 图 3.8. 一个由 $AND$ 、 $OR$ 和 $NOT$ 门构成的, 用于计算 $XOR$ 函数的电路.

布尔电路提供了“组合基本运算“的精确定义. 一个布尔电路 (参见图 3.9) 由门和输入组成, 并通过导线连接.

导线传递的信号表示值 $0$ 或 $1,$ 每个门对应 $OR$ 、 $AND$ 或 $NOT$ 运算. 一个 $OR$ 门有两条输入导线和一条或多条输出导线, 如果这两条输入导线的信号分别为 $a$ 和 $b$ ( $a, b \in {0, 1})$ , 则输出导线上的信号为 $OR (a, b) .$ $AND$ 和 $NOT$ 门的定义类似.

输入端只有输出导线. 如果我们将某个输入设为 $a \in {0, 1},$ 则该值会沿其所有输出导线传播. 我们还将一些门指定为输出门, 其值对应于电路的计算结果. 例如, 图 3.8 给出了一个用于计算 $XOR$ 函数的电路, 参考节3.2.2.

对于一个 $n$ 输入的布尔电路 $C,$ 我们在输入端放置 $x \in {0, 1}^{n}$ 的比特, 然后沿导线传播信号, 直到到达输出端, 从而完成电路的计算, 参见图 3.9.

布尔电路的物理电路模拟

备注 3.1.

布尔电路是一种 数学模型, 不一定直接对应于物理对象, 但它们可以被物理电路模拟.

在电路中, 信号通常通过导线上的电位 (电压) 来表示. 例如, 高于某一电压水平被解释为逻辑值 $1,$ 低于某一电压水平被解释为逻辑值 $0.$

3.5节讨论了布尔电路的物理实现, 包括使用电信号 (如硅基电路) 、生物实现以及机械实现的实例.

booleancircfig 图 3.9. 一个布尔电路由门组成, 这些门通过导线彼此连接, 并与输入端相连.

左图显示了一个具有 $2$ 个输入和 $5$ 个门的电路, 其中一个门被指定为输出门.
右图展示了该电路在输入 $x \in {0, 1}^{2}$ ( $x_{0} = 1,$ $x_{1} = 0)$ 下的计算过程.

每个门的值是通过对进入该门的导线上的值应用相应的函数 ( $AND$ 、 $OR$ 或 $NOT)$ 得到的.
电路在给定输入下的输出为输出门的值.

在此例中, 该电路计算 $XOR$ 函数, 因此在输入 $10$ 下输出为 $1.$

练习 3.3 (全相等函数). 定义函数 $ALLEQ : {0, 1}^{4} \to {0, 1},$ 其输入为 $x \in {0, 1}^{4},$ 当且仅当 $x_{0} = x_{1} = x_{2} = x_{3}$ 时输出 $1.$

对练习 3.3的解答

另一种描述函数 $ALLEQ$ 的方式是: 当且仅当输入 $x \in {0, 1}^{4}$ 满足 $x = 0^{4}$ 或 $x = 1^{4}$ 时, 它输出 $1.$
我们可以将条件 $x = 1^{4}$ 表述为 $x_{0} \land x_{1} \land x_{2} \land x_{3},$ 这可以用三个 $AND$ 门计算.
同样地, 我们可以将条件 $x = 0^{4}$ 表述为 $\overline{x}_{0} \land \overline{x}_{1} \land \overline{x}_{2} \land \overline{x}_{3},$ 这可以用四个 $NOT$ 门和三个 $AND$ 门计算.
$ALLEQ$ 的输出是这两个条件的 $OR,$ 由此得到的电路包含 4 个 $NOT$ 门、6 个 $AND$ 门和 1 个 $OR$ 门, 如图 3.10所示.

allequalfig

图 3.10. 一个用于计算 全相等函数 $ALLEQ : {0, 1}^{4} \to {0, 1}$ 的布尔电路. 当且仅当 $x \in {0, 1}^{4}$ 满足 $x_{0} = x_{1} = x_{2} = x_{3}$ 时, 它输出 $1.$

3.3.1 布尔电路: 形式化定义

我们之前非正式地将布尔电路定义为通过导线连接 $AND$ 、 $OR$ 和 $NOT$ 门, 从输入生成输出的电路.
然而, 为了能够证明关于计算各种函数的布尔电路存在性或非存在性的定理, 我们需要:

将布尔电路作为数学对象进行形式化定义.
正式定义电路 $C$ 计算函数 $f$ 的含义.

接下来我们将进行这一定义. 我们把布尔电路定义为带标记的有向无环图 (DAG) . 图的顶点对应电路的门和输入端, 图的边对应导线. 电路中从输入或门 $u$ 到门 $v$ 的导线对应顶点间的有向边. 输入顶点没有入边, 而每个门根据其计算的函数具有适当数量的入边 (即 $AND$ 和 $OR$ 门有两个入邻居, $NOT$ 门有一个入邻居) .

正式定义如下 (参见图 3.11) :

generalcircuitfig

图 3.11. 布尔电路 是一个带标记的有向无环图 (DAG). 它有 $n$ 个输入顶点, 这些顶点标记为 X[ $0$ ], $\dots,$ X[ $n - 1$ ], 且没有入边, 其余顶点为门.
$AND$ 、 $OR$ 和 $NOT$ 门分别有两个、两个和一个入边. 若电路有 $m$ 个输出, 则 $m$ 个门被称为输出, 标记为 Y[ $0$ ], $\dots,$ Y[ $m - 1$ ].

在对输入 $x \in {0, 1}^{n}$ 评估电路 $C$ 时, 我们首先将输入顶点的值设置为 $x_{0}, \dots, x_{n - 1},$ 然后将值向下传播, 将每个门 $g$ 的值设置为对 $g$ 的入邻居的值应用 $g$ 的操作的结果. 电路的输出即为分配给输出门的值.

定义 3.3 (布尔电路). 设 $n, m, s$ 为正整数, 且 $s \geq m .$ 一个具有 $n$ 个输入、 $m$ 个输出和 $s$ 个门的布尔电路是一个带标记的有向无环图 (DAG) $G = (V, E),$ 其顶点数为 $s + n,$ 满足以下性质:

恰好有 $n$ 个顶点没有入邻居. 这些顶点称为输入端, 标记为 $X [0],$ $\dots,$ $X [n - 1] .$ 每个输入端至少有一个出邻居.
其余 $s$ 个顶点称为门. 每个门标记为 $\land$ 、 $\lor$ 或 $\neg.$ 标记为 $\land$ ( $AND)$ 或 $\lor$ ( $OR)$ 的门有两个入邻居, 标记为 $\neg$ ( $NOT)$ 的门有一个入邻居. 允许存在平行边. ^[平行边意味着 AND 或 OR 门 $u$ 的两个入邻居可以是同一个门 $v .$ 由于对任意 $a \in {0, 1}$ 有 $AND (a, a) = OR (a, a) = a,$ 在仅使用 AND/OR/NOT 门的电路中, 这类平行边并不会计算出新的值. 但在后面引入更一般门集合时, 我们将看到平行边的用途. ]
恰好有 $m$ 个门同时标记为 $Y [0],$ $\dots,$ $Y [m - 1]$ (除了其本来的 $\land$ / $\lor$ / $\neg$ 标记之外) , 称为输出端.

布尔电路的规模定义为其包含的门的数量 $s .$

暂停一下

这是一个非平凡的数学定义, 因此值得慢慢仔细阅读.
正如所有数学定义一样, 我们使用已知的数学对象–**有向无环图 (DAG) **–来定义一个新的对象, 即布尔电路.

此时复习一些 DAG 的基本性质会很有帮助, 特别是它们可以进行拓扑排序的事实, 参见1.6节.

如果 $C$ 是一个具有 $n$ 个输入和 $m$ 个输出的布尔电路, 且 $x \in {0, 1}^{n},$ 则自然可以计算 $C$ 在输入 $x$ 的输出:
将输入顶点 $X [0],$ $\dots,$ $X [n - 1]$ 赋值为 $x_{0}, \dots, x_{n - 1},$ 然后对每个门应用其入邻居的值, 最后输出对应于输出顶点的值.

形式化定义如下:

定义 3.4 (利用布尔电路计算函数). 设 $C$ 为一个具有 $n$ 个输入和 $m$ 个输出的布尔电路.
对于每个 $x \in {0, 1}^{n},$ $C$ 在输入 $x$ 上的输出, 记作 $C (x),$ 定义为以下过程的结果:

我们令 $h : V \to N$ 为 $C$ 的 最小分层 (又称 拓扑排序, 见定理1.26) .
令 $L$ 为 $h$ 的最大层数, 对每个 $ℓ = 0, 1, \dots, L,$ 执行以下操作:

对每个位于第 $ℓ$ 层的顶点 $v$ (即 $v$ 满足 $h (v) = ℓ)$ 执行:
- 如果 $v$ 是输入顶点, 标记为 X[i], 其中 $i \in [n],$ 则将 $x_{i}$ 赋值给 $v .$
- 如果 $v$ 是标记为 $\land$ 的门顶点, 且有两个入邻居 $u, w,$ 则将 $u$ 和 $w$ 的值的 $AND$ 赋给 $v .$ (由于 $u$ 和 $w$ 是 $v$ 的入邻居, 它们位于比 $v$ 更低的层, 因此它们的值已经被赋值. )
- 如果 $v$ 是标记为 $\lor$ 的门顶点, 且有两个入邻居 $u, w,$ 则将 $u$ 和 $w$ 的值的 $OR$ 赋给 $v .$
- 如果 $v$ 是标记为 $\neg$ 的门顶点, 且有一个入邻居 $u,$ 则将 $u$ 的值取反并赋给 $v .$
该过程的结果是一个 $y \in {0, 1}^{m},$ 其中对于每个 $j \in [m],$ $y_{j}$ 为标记为 Y[j] 的顶点的值.

设 $f : {0, 1}^{n} \to {0, 1}^{m},$ 如果对于每个 $x \in {0, 1}^{n},$ 都有 $C (x) = f (x),$ 则称电路 $C$ 计算函数 $f .$

一些对布尔电路的吹毛求疵 (选读)

备注 3.2.

在表述定义 3.3 时, 我们做了一些技术性的选择, 这些选择并不是非常重要, 但对我们后续会很方便.

允许存在平行边意味着一个 $AND$ 或 $OR$ 门 $u$ 可以让它的两个入邻居都是同一个门 $v .$
由于对每个 $a \in {0, 1}$ 都有 $AND (a, a) = OR (a, a) = a,$ 因此在仅使用 $AND / OR / NOT$ 门的电路中, 这类平行边并不会带来新的计算值.
然而, 我们稍后会看到包含更一般门集合的电路.

要求每个输入顶点至少有一个出邻居也不是特别重要, 因为我们总可以添加“虚拟门“来使用这些输入.
不过这个要求很方便, 因为它保证了 (由于每个门最多有两个入邻居) 电路中的输入数量永远不会超过其规模的两倍.

3.4 直线程序

我们已经看到两种使用 $AND$ 、 $OR$ 和 $NOT$ 来计算函数 $f$ 的方式:

布尔电路, 在定义 3.3 中定义, 通过将 $AND$ 、 $OR$ 和 $NOT$ 门通过导线连接到输入来计算 $f .$
我们也可以使用 直线程序 来描述这样的计算, 该程序的每一行形式为 foo = AND(bar,blah)、foo = OR(bar,blah) 和 foo = NOT(bar), 其中 foo、bar 和 blah 是变量名. (称其为 直线程序, 因为它不包含循环或分支 (例如 if/then) 语句. )

为了更精确地描述第二种定义, 我们现在定义一种与布尔电路等价的 编程语言.
我们将这种编程语言称为 AON-CIRC 编程语言 (“AON” 代表 $AND / OR / NOT;$ “CIRC” 代表 circuit) .

例如, 以下是一个 AON-CIRC 程序, 对于输入 $x \in {0, 1}^{2},$ 输出 $\overline{x_{0} \land x_{1}}$ (即对 $AND (x_{0}, x_{1})$ 应用 $NOT$ 操作) :

temp = AND(X[0],X[1])
Y[0] = NOT(temp)

AON-CIRC 并不是一种实用的编程语言: 它仅用于教学目的, 用来将计算建模为 $AND$ 、 $OR$ 和 $NOT$ 的组合. 然而, 它仍然可以很容易地在计算机上实现.

根据这个例子, 你可能已经能够猜到如何编写程序来计算 (例如) $x_{0} \land \overline{x_{1} \lor x_{2}},$ 以及更一般地, 如何将布尔电路翻译为 AON-CIRC 程序. 但是, 由于我们希望对 AON-CIRC 程序证明数学性质, 我们需要精确定义 AON-CIRC 编程语言.

编程语言的精确定义有时可能冗长且枯燥, 例如, C 语言规范就超过 500 页. 但对于安全可靠的实现至关重要. 幸运的是, AON-CIRC 编程语言足够简单, 我们可以相对轻松地对其进行正式定义.

3.4.1 AON-CIRC 编程语言规范

一个 AON-CIRC 程序是一系列字符串, 我们称之为“行“, 满足以下条件:

每一行具有以下形式之一: foo = AND(bar,baz)、foo = OR(bar,baz) 或 foo = NOT(bar), 其中 foo、bar 和 baz 是 变量标识符. (我们遵循常见的编程语言惯例, 使用 foo、bar、baz 等名称作为通用标识符的示例. )
行 foo = AND(bar,baz) 对应于将变量 foo 赋值为变量 bar 和 baz 的逻辑 $AND .$ 类似地, foo = OR(bar,baz) 和 foo = NOT(bar) 分别对应逻辑 $OR$ 和逻辑 $NOT$ 操作.
AON-CIRC 编程语言中的 变量标识符 可以由字母、数字、下划线和方括号的任意组合构成. 有两类特殊变量:
- 形式为 X[i] 的变量, 其中 $i \in {0, 1, \dots, n - 1},$ 称为 输入变量.
- 形式为 Y[j] 的变量, 称为 输出变量.
一个有效的 AON-CIRC 程序 $P$ 包含输入变量 X[0], $\dots,$ X[n-1] 和输出变量 Y[0], $\dots,$ Y[m-1], 其中 $n, m$ 为自然数. 我们称 $n$ 为程序 $P$ 的 输入数, $m$ 为 输出数.
在有效的 AON-CIRC 程序中, 每一行右侧的变量必须是输入变量或在之前的行中已经被赋值的变量.
若 $P$ 是一个具有 $n$ 个输入和 $m$ 个输出的有效 AON-CIRC 程序, 则对于每个 $x \in {0, 1}^{n},$ 程序 $P$ 在输入 $x$ 上的输出是字符串 $y \in {0, 1}^{m},$ 定义如下:
- 将输入变量 X[0], $\dots,$ X[n-1] 初始化为 $x_{0}, \dots, x_{n - 1} .$
- 按顺序逐行执行 $P$ 的操作行, 在每行中将左侧变量赋值为右侧操作的结果.
- 执行结束后, 令 $y \in {0, 1}^{m}$ 为输出变量 Y[0], $\dots,$ Y[m-1] 的值.
我们用 $P (x)$ 表示程序 $P$ 在输入 $x$ 上的输出.
AON-CIRC 程序 $P$ 的规模是它包含的行数. (读者可能注意到, 这与我们定义的电路规模–门的数量–是一致的. )

现在我们已经正式定义了 AON-CIRC 程序的规范, 就可以定义 AON-CIRC 程序 $P$ 计算一个函数 $f$ 的含义:

定义 3.5 (使用AON-CIRC程序计算一个函数). 设 $f : {0, 1}^{n} \to {0, 1}^{m},$ 且 $P$ 为一个具有 $n$ 个输入和 $m$ 个输出的有效 AON-CIRC 程序.
如果对于每个 $x \in {0, 1}^{n}$ 都有 $P (x) = f (x),$ 则称 $P$ 计算函数 $f$ .

以下已解练习给出了一个 AON-CIRC 程序的示例.

练习 3.4. 考虑如下函数 $CMP : {0, 1}^{4} \to {0, 1} :$ 对四个输入比特 $a, b, c, d \in {0, 1},$ 当且仅当由 $(a, b)$ 表示的数字大于由 $(c, d)$ 表示的数字时输出 $1.$
即 $CMP (a, b, c, d) = 1$ 当且仅当 $2 a + b > 2 c + d .$ 给出一个计算 $CMP$ 的 AON-CIRC 程序示例.

对练习 3.4的解答

编写这样的程序虽然繁琐, 但并不困难. 比较两个数字时, 我们首先比较它们的最高有效位, 然后依次比较下一位, 以此类推. 在数字仅有两位二进制的情况下, 这些比较特别简单. 由 $(a, b)$ 表示的数字大于由 $(c, d)$ 表示的数字, 当且仅当满足以下任一条件:

$(a, b)$ 的最高有效位 $a$ 大于 $(c, d)$ 的最高有效位 $c;$

或

两个最高有效位 $a$ 和 $c$ 相等, 但 $b > d .$

另一种等价表述为: 数字 $(a, b)$ 大于 $(c, d)$ 当且仅当 $a > c$ 或 ( $a \geq c$ 且 $b > d) .$

对于二进制位 $α, β,$ 条件 $α > β$ 仅当 $α = 1$ 且 $β = 0,$ 也就是 $AND (α, NOT (β)) = 1;$ 条件 $α \geq β$ 则为 $OR (α, NOT (β)) = 1.$

结合这些观察, 可以得到用于计算 $CMP$ 的以下 AON-CIRC 程序:

# Compute CMP:{0,1}^4-->{0,1}
# CMP(X)=1 iff 2X[0]+X[1] > 2X[2] + X[3]
temp_1 = NOT(X[2])
temp_2 = AND(X[0],temp_1)
temp_3 = OR(X[0],temp_1)
temp_4 = NOT(X[3])
temp_5 = AND(X[1],temp_4)
temp_6 = AND(temp_5,temp_3)
Y[0] = OR(temp_2,temp_6)

我们也可以将这个 8 行程序表示为一个包含 8 个门的电路, 见图 3.12.

aoncmpfig

图 3.12. 一个用于计算 $CMP$ 函数的电路. 以输入 $(1, 1, 1, 0)$ 运行该电路, 输出为 $1,$ 因为数字 $3$ (二进制表示为 $11)$ 大于数字 $2$ (二进制表示为 $10)$ .

3.4.2 证明AON-CIRC程序与布尔电路的等价性

我们现在正式证明 AON-CIRC 程序和布尔电路具有完全相同的计算能力:

定理 3.1 (电路与直线程序的等价性). 设 $f : {0, 1}^{n} \to {0, 1}^{m},$ $s \geq m$ 为某个正整数. 则 $f$ 可以由一个包含 $s$ 个门的布尔电路计算, 当且仅当 $f$ 可以由一个包含 $s$ 行的 AON-CIRC 程序计算.

证明思路

证明思路很简单–AON-CIRC 程序和布尔电路只是描述同一计算过程的不同方式.
例如, 布尔电路中的一个 $AND$ 门对应于对两个已计算值执行 $AND$ 操作.
在 AON-CIRC 程序中, 这对应于一行将两个已计算变量的 $AND$ 结果存储到一个变量中的语句.

暂停一下

定理 3.1 的证明本质上很简单, 但其中包含的所有细节可能会让阅读起来有些繁琐.
你最好先尝试自己推导一遍, 再去阅读证明.
我们的 GitHub 仓库中提供了定理 3.1 的“Python 证明“: 实现了 circuit2prog 和 prog2circuits 函数, 用于在布尔电路和 AON-CIRC 程序之间互相转换.

对定理 3.1的证明

设 $f : {0, 1}^{n} \to {0, 1}^{m} .$ 由于该定理是**“当且仅当”**的命题, 要证明它, 我们需要展示两个方向:

将计算 $f$ 的 AON-CIRC 程序转换为计算 $f$ 的布尔电路;
将计算 $f$ 的布尔电路转换为计算 $f$ 的 AON-CIRC 程序.

我们先考虑第一个方向. 设 $P$ 是一个计算 $f$ 的 AON-CIRC 程序. 我们定义一个电路 $C$ 如下: 该电路有 $n$ 个输入和 $s$ 个门. 对于每个 $i \in [s],$ 若第 $i$ 行运算为 foo = AND(bar,blah), 则电路中的第 $i$ 个门为 $AND$ 门, 其入邻居连接到对应的第 $j$ 和第 $k$ 个门, $j$ 和 $k$ 分别对应于在第 $i$ 行之前最后一次写入变量 bar 和 blah 的行号. (例如, 如果 $i = 57,$ 且 bar 最近一次被写入的是第 $35$ 行, blah 最近一次被写入的是第 $17$ 行, 则门 $57$ 的两个入邻居为门 $35$ 和门 $17.$ )
如果 bar 或 blah 是输入变量, 则将门连接到对应的输入顶点.
如果 foo 是输出变量 (形式为 Y[j]) , 则在对应门上添加相同标签, 将其标记为输出门.
对于 $OR$ 或 $NOT$ 操作的情况也类似, 只是使用对应的 $OR$ 或 $NOT$ 门, 并且 $NOT$ 门只有一个入邻居.

对于任意输入 $x \in {0, 1}^{n},$ 若运行程序 $P,$ 第 $i$ 行计算的值恰好等于在电路 $C$ 上对 $x$ 求值时第 $i$ 个门的值. 因此, 对所有 $x \in {0, 1}^{n},$ 有 $C (x) = P (x) .$

再看另一个方向. 设 $C$ 是一个具有 $n$ 个输入、 $s$ 个门的电路, 计算函数 $f .$ 我们对门按照拓扑序排序, 记为 $v_{0}, \dots, v_{s - 1} .$
现在可以构造一个包含 $s$ 行运算的程序 $P :$
对于每个 $i \in [s],$ 若 $v_{i}$ 是一个 $AND$ 门, 其入邻居为 $v_{j}, v_{k},$ 则在 $P$ 中添加一行 temp_i = AND(temp_j,temp_k), 除非某个顶点是输入顶点或输出门, 此时改用 X[.] 或 Y[.].
由于我们按照拓扑顺序操作, 保证入邻居 $v_{j}$ 和 $v_{k}$ 对应的变量已被赋值.
$OR$ 和 $NOT$ 门同理.

再次验证, 对于每个输入 $x,$ $P (x) = C (x),$ 因此程序计算与电路相同的函数.
(注意, 由于 $C$ 是合法电路, 根据定义 3.3, $C$ 的每个输入顶点至少有一个出邻居, 并且恰有 $m$ 个输出门标记为 $0, \dots, m - 1;$ 因此所有变量 X[0],\ldots,X[n-1] 和 Y[0],\ldots,Y[m-1] 都会出现在程序 $P$ 中. )

aoncircequivfig

图 3.13. 同一 $AND / OR / NOT$ 计算的两种等效描述: 既作为 AON 程序, 也作为布尔电路.

3.5 计算设备的物理实现 (插曲)

计算是一个抽象概念, 它并不等同于其物理实现.
虽然大多数现代计算设备是通过将逻辑门映射到基于半导体的晶体管实现的, 但纵观历史, 人类曾经使用过各种各样的机制来进行计算, 包括机械系统、气体与液体 (称为流体计算) 、生物和化学过程, 甚至是生物体本身 (参见图 3.14或这个视频, 了解螃蟹或黏菌如何被用于计算) .

在本节中, 我们将回顾这些实现方式, 以帮助理解如何能够将布尔电路直接转化为物理世界中的系统, 而无需经过体系结构、操作系统和编译器的完整抽象层. 同时, 这也强调了基于硅的处理器绝不是实现计算的唯一方式.

事实上, 正如我们将在第23章中看到的, 一个令人兴奋的研究方向是使用不同的介质来进行计算, 从而利用量子力学效应来实现全新的算法类型.

crabfig

图 3.14. 摘自 Gunji、Nishiyama 和 Adamatzky 的论文 Robust soldier-crab ball gate 的蟹群逻辑门. 这是一个 AND 门的实例, 它依赖于从不同方向出发的两群螃蟹汇合成一群, 并沿两方向的平均方向继续前进.

Such a cool way to explain logic gates. pic.twitter.com/6Wgu2ZKFCx
— Lionel Page (\@page_eco) 2019年10月28日

3.5.1 晶体管

晶体管 (transistor) 可以看作是一个具有两个输入和一个输出的电路: 输入称为源极 (source) 和栅极 (gate) , 输出称为漏极 (sink) .
栅极决定了电流是否能够从源极流向漏极.

在标准晶体管中, 如果栅极处于“开 (ON) “状态, 则电流可以从源极流向漏极; 如果栅极处于“关 (OFF) “状态, 则电流无法流动.
在互补晶体管中, 情况正好相反: 栅极“关“时允许电流流动, 而栅极“开“时则不允许.

transistor-water-fig

图 3.15. 我们可以用水来实现晶体管的逻辑. 来自栅极的水压控制着源极与漏极之间的阀门是否打开.

实现晶体管逻辑的方法有很多. 例如, 可以通过水压与水龙头的开合来模拟晶体管的工作 (见图 3.15) . 这似乎只是个小趣味, 但事实上有一个名为流体计算 (fluidics) 的研究领域, 专门研究如何利用液体或气体实现逻辑运算. 其动机之一是在极端环境 (如太空或战场) 中工作, 因为在这些环境下常规电子设备可能无法存活.

晶体管的标准实现是通过电流. 而最早的实现方式之一是真空管. 顾名思义, 真空管是一个内部抽空的管子, 电子可以自由地从源 (电丝) 流向漏 (金属板) . 但在它们之间有一个“栅极“ (网格) , 通过调节其电压可以阻止电子的流动.

早期真空管大约有灯泡那么大 (外形也很像灯泡) . 到 1950 年代, 它们被晶体管取代. 晶体管利用半导体实现相同的逻辑. 半导体在正常情况下不导电, 但通过掺杂 (doping) 以及施加外部电场, 可以调控其导电性 (即场效应) .

进入 1960 年代后, 计算机开始使用集成电路 (integrated circuits) , 极大提高了晶体管的集成密度. 1965 年, 戈登·摩尔 (Gordon Moore) 预测集成电路中晶体管的数量大约每年会翻一番 (见图 3.16) . 他还推测这将带来“诸如家庭计算机–或至少是接入中央计算机的终端–、汽车的自动控制, 以及个人便携通信设备等奇迹“.

从那时起, 经调整后的“摩尔定律“基本上一直成立, 尽管指数级增长不可能无限持续, 一些物理极限已经逐渐显现.

moorefig

图 3.16. 1959 至 1965 年间集成电路中的晶体管数量, 并预测指数级增长至少能持续十年. 取自戈登·摩尔 1965 年的文章 Cramming More Components onto Integrated Circuits.

moore-cartoon-fig

图 3.17. 戈登·摩尔文章中的漫画, “预测“了晶体管密度大幅提升的影响.

kurzweil-fig

图 3.18. 过去 120 年间计算能力的指数级增长. 图表由 Steve Jurvetson 绘制, 基于雷·库兹韦尔的早期图表扩展而来.

3.5.2 由晶体管到逻辑门

我们可以使用晶体管来实现各种布尔函数, 例如 $AND$ 、 $OR$ 和 $NOT .$
对于每一个二输入门 $G : {0, 1}^{2} \to {0, 1},$ 其实现方式是一个具有两个输入导线 $x, y$ 和一个输出导线 $z$ 的系统. 若我们将高电压视为“ $1$ “, 低电压视为” $0$ “, 那么当且仅当 $G (x, y) = 1$ 时, 导线 $z$ 的值为” $1$ “ (参见下列图 3.19 和图 3.20) .

这意味着: 如果存在一个 $AND / OR / NOT$ 电路可以计算函数 $g : {0, 1}^{n} \to {0, 1}^{m},$ 那么我们也可以在物理世界中通过晶体管来计算 $g .$

logicgatestransistorsfig

图 3.19. 使用晶体管实现逻辑门. 图源自 Rory Mangles 的网站.

transistor-nand-fig

图 3.20. 使用晶体管实现 $NAND$ 门 (参见 3.6节) .

3.5.3 生物计算

计算也可以基于生物或化学系统. 例如, lac 操纵子仅在条件 $x \land (\neg y)$ 成立时才会产生消化乳糖所需的酶, 其中 $x$ 表示“存在乳糖“, $y$ 表示“存在葡萄糖“.

研究人员已经成功制造出基于 DNA 分子的晶体管, 并由此构建逻辑门 (参见图 3.21) . 诸如 Cello 编程语言这样的项目, 能够将布尔电路转换为 DNA 序列, 从而在细菌细胞中执行运算 (参见该视频) .

DNA 计算的动机之一是实现更高的并行性或存储密度; 另一个动机是创造“智能生物因子“, 这些因子或许能够被注入体内, 自我复制, 并修复或杀死因癌症等疾病损伤的细胞.

当然, 生物系统中的计算不仅限于 DNA: 甚至更大规模的系统, 例如鸟群, 也可以被视为计算过程.

transcriptorfig

图 3.21. 基于 DNA 的逻辑门性能. 图源自 Bonnet 等人, Science, 2013.

3.5.4 元胞自动机和生命游戏(GoL)

元胞自动机是一种由一系列细胞组成的系统模型, 每个细胞都可以处于有限的状态之一.
在每一步中, 细胞会根据其邻居细胞的状态以及一些简单规则来更新自身状态.

正如我们将在本书后续部分讨论的那样 (参见第8.4节) , 元胞自动机 (例如康威的“生命游戏“) 可以用来模拟计算门.

gameoflifefig

图 3.22. 利用“生命游戏“配置实现的 AND 门. 图源自 Jean-Philippe Rennard 的论文.

3.5.5 神经网络

我们每个人都随身携带的一种计算设备就是我们自己的大脑. 大脑在人类历史上一直发挥作用, 从区分猎物与捕食者, 到进行科学发现和艺术创作, 再到写出精巧的 280 字短消息. 大脑的确切工作机制仍未完全被理解, 但一种常见的数学模型是 (非常庞大的) 神经网络.

神经网络可以看作布尔电路, 只是它并非以 $AND$ / $OR$ / $NOT$ 为基本门, 而是使用其他类型的基本门. 例如, 一种可以使用的基是阈值门.

对于每个整数向量 $w = (w_{0}, \dots, w_{k - 1})$ 和整数 $t$ (其中一些分量可以为负) , 定义对应的阈值函数 $T_{w, t} : {0, 1}^{k} \to {0, 1}$ 为: 当且仅当 $\sum_{i = 0}^{k - 1} w_{i} x_{i} \geq t$ 时, 输入 $x \in {0, 1}^{k}$ 被映射为 $1.$

例如, 向量 $w = (1, 1, 1, 1, 1)$ 与阈值 $t = 3$ 所对应的 $T_{w, t},$ 就是 ${0, 1}^{5}$ 上的多数函数 $MAJ_{5} .$ 阈值门可以看作对构成人类与动物大脑核心的神经元的一种近似. 粗略来说, 一个神经元有 $k$ 个输入和一个输出, 当这些信号的强度超过某个阈值时, 神经元就会“触发“或“激活“其输出.

许多机器学习算法采用的人工神经网络并非旨在模仿生物学, 而是为了执行某些计算任务, 因此它们并不局限于阈值门或其他生物学启发的门. 通常来说, 神经网络的输入信号被视为实数而非 $0/1$ 值, 并且一个门的输出是通过计算 $f (\sum_{i} w_{i} x_{i})$ 得到的, 其中 $f : R \to R$ 是某种激活函数, 例如修正线性单元 (ReLU) 、Sigmoid 或其他函数 (见图 3.23) .

不过, 就我们讨论的范围而言, 上述所有模型在本质上是等价的 (参见习题 3.13) . 特别是, 我们可以通过二进制表示实数并将对应权重乘以 $2^{i}$ 的方式, 将实数输入化为二进制输入.

activationfunctionsfig

图 3.23. 神经网络中常用的激活函数, 包括修正线性单元 (ReLU) 、Sigmoid 和双曲正切. 它们都可以看作阶跃函数的连续近似形式. 所有这些函数都能用来计算 $NAND$ 门 ( 习题 3.13) . 这一性质使得神经网络 (近似地) 能够计算任何布尔电路可计算的函数.

3.5.6 利用弹珠和管道搭建的计算机

我们可以利用许多其他物理介质来实现计算, 而无需任何电子、生物或化学组件. 人们曾经提出许多关于机械计算机的构想, 至少可以追溯到 1670 年代 Gottfried Leibniz 的计算机, 以及 Charles Babbage 1837 年提出的机械“分析机“计划.

打个比方, 图 3.24 展示了使用弹珠通过管道来实现 $NAND$ ( $AND$ 的取反, 参见 3.6节) 门的简单方法. 我们通过一对管道表示逻辑值 ${0, 1},$ 保证恰好有一颗弹珠在其中一条管道中流动. 将其中一条管道称为“ $0$ 管“, 另一条管道称为“ $1$ 管“, 弹珠所在管道的身份决定逻辑值.

一个 $NAND$ 门对应一个机械装置, 具有两对输入管道和一对输出管道, 使得对于每个 $a, b \in {0, 1},$ 如果两颗弹珠分别沿第一对管道的 $a$ 管和第二对管道的 $b$ 管滚向装置, 那么弹珠将沿输出对中对应 $NAND (a, b)$ 的管道滚出.

事实上, 市面上还有一个以弹珠为计算基础的教育游戏, 参见下方的图 3.26.

marblefig

图 3.24. 使用弹珠实现的 $NAND$ 门. 布尔电路中的每条导线由一对分别表示值 $0$ 和 $1$ 的管道建模, 因此一个门有四条输入管 (每个逻辑输入两条) 和两条输出管. 如果代表值 $0$ 的输入管有弹珠, 则该弹珠会流向输出管表示值 $1.$ (虚线表示一个装置, 确保管道中最多只有一颗弹珠可以继续流动. ) 如果代表值 $1$ 的输入管中两颗弹珠都在流动, 则第一颗弹珠会被阻住, 但第二颗弹珠会流向输出管表示值 $0.$

gadgetfig

图 3.25. 管道中的一个“装置“, 确保最多只有一颗弹珠可以通过它. 第一颗通过的弹珠会抬起障碍, 阻挡后续弹珠.

turingtumblefig

图 3.26. 游戏 “Turing Tumble” 中使用弹珠实现逻辑门.

3.6 NAND函数

$NAND$ 函数是另一个非常简单且在定义计算中极为有用的函数.
它是一个将 ${0, 1}^{2}$ 映射到 ${0, 1}$ 的函数, 定义为:

$NAND (a, b) = {01 a = b = 1 否则 .$

顾名思义, $NAND$ 是 AND 的取反 (即 $NAND (a, b) = NOT (AND (a, b)))$ , 因此显然可以使用 $AND$ 和 $NOT$ 来计算 $NAND .$
有趣的是, 反过来我们也有:

定理 3.2 (用 $NAND$ 构造 $AND / OR / NOT$ ). 我们可以通过仅组合 $NAND$ 来计算 $AND,$ $OR,$ 和 $NOT .$

对定理 3.2的证明

我们从以下观察开始. 对于每个 $a \in {0, 1},$ 有 $AND (a, a) = a .$
因此, $NAND (a, a) = NOT (AND (a, a)) = NOT (a) .$

这意味着 $NAND$ 可以计算 $NOT .$
根据“双重否定“原理, $AND (a, b) = NOT (NOT (AND (a, b))),$ 因此我们也可以使用 $NAND$ 来计算 $AND .$

一旦我们能够计算 $AND$ 和 $NOT,$ 就可以利用de Morgan定律计算 $OR :$
$OR (a, b) = NOT (AND (NOT (a), NOT (b)))$ (也可以写作 $a \lor b = \overline{\overline{a} \land \overline{b}})$ , 对每个 $a, b \in {0, 1}$ 都成立.

暂停一下

定理 3.2 的证明非常简单, 但你应当确保 (1) 你理解该定理的陈述, 且 (2) 你能够读懂其证明过程. 尤其要理解为什么de Morgan定律成立.

我们可以使用 $NAND$ 来计算许多其他函数, 如以下练习所示.

练习 3.5 (利用 $NAND$ 计算 $MAJ$ ). 设 $MAJ : {0, 1}^{3} \to {0, 1}$ 为函数: 对输入 $a, b, c,$ 当且仅当 $a + b + c \geq 2$ 时输出 $1.$ 说明如何用若干个 $NAND$ 的组合来计算 $MAJ .$

对练习 3.5的解答

回想一下 (3.1) 给出的是: $MAJ (x_{0}, x_{1}, x_{2}) = OR (AND (x_{0}, x_{1}), OR (AND (x_{1}, x_{2}), AND (x_{0}, x_{2}))) . (3.2)$ 我们可以利用定理 3.2 将所有出现的 $AND$ 和 $OR$ 用 $NAND$ 替换. 具体地, 使用等价关系 $AND (a, b) OR (a, b) NOT (a) = NOT (NAND (a, b)), = NAND (NOT (a), NOT (b)), = NAND (a, a),$ 把上式右边全部替换为仅含 $NAND$ 的表达式, 就得到 $MAJ (a, b, c)$ 等价于下列 (略显冗长的) 表达式: $NAND (NAND (NAND (NAND (a, b), NAND (a, c)), NAND (NAND (a, b), NAND (a, c))), NAND (b, c))$ 同样的公式也可以表示为由 $NAND$ 门组成的电路, 见图 3.27.

majnandcircfig

图 3.27. 用于计算三位多数函数的 $NAND$ 门电路

3.6.1 $NAND$ 电路

我们将 $NAND$ 电路 定义为所有逻辑门均为 $NAND$ 运算的电路.
这样的电路同样对应一个有向无环图 (DAG) , 因为所有逻辑门都执行相同的功能 (即 $NAND)$ , 因此甚至无需对它们进行标记, 并且所有逻辑门的入度都恰好为 2.
尽管形式简单, $NAND$ 电路却具有相当强大的能力.

例: 基于 $NAND$ 电路的 $XOR$ 实现

回忆 $XOR$ 函数, 它将 $x_{0}, x_{1} \in {0, 1}$ 映射为 $x_{0} + x_{1} mod 2.$
我们在先前的例子中已经看到, 可以使用 $AND$ 、 $OR$ 和 $NOT$ 来计算 $XOR,$ 因此根据定理 3.2, 我们也可以仅用 $NAND$ 来实现它.
然而, 下面给出的是一个直接利用一系列 $NAND$ 运算来计算 $XOR$ 的构造:

令 $u = NAND (x_{0}, x_{1}) .$
令 $v = NAND (x_{0}, u) .$
令 $w = NAND (x_{1}, u) .$
则 $x_{0}$ 与 $x_{1}$ 的 $XOR$ 为 $y_{0} = NAND (v, w) .$

我们可以通过枚举 $x_{0}, x_{1} \in {0, 1}$ 的所有四种取值情况来验证, 该算法确实计算了 $XOR .$
此外, 我们还可以将该算法表示为电路图, 参见图 3.28.

cornandcircfig

图 3.28. 一个由 $NAND$ 门组成的电路, 用于计算两个比特的 $XOR .$

事实上, 我们可以证明以下定理:

定理 3.3 ( $NAND$ 可作为通用逻辑门). 对于任意包含 $s$ 个逻辑门的布尔电路 $C,$ 都存在一个至多包含 $3 s$ 个逻辑门的 $NAND$ 电路 $C^{'},$ 其计算结果与 $C$ 相同.

对定理 3.3的证明思路

该证明的思路是: 按照定理 3.2 的证明方法, 将每一个 $AND$ 、 $OR$ 和 $NOT$ 门替换为它们对应的 $NAND$ 实现.

对定理 3.3的证明

如果 $C$ 是一个布尔电路, 那么由于我们在定理 3.2 的证明中已经看到, 对于任意 $a, b \in {0, 1}$ 有:

$AND (a, b) = NAND (NAND (a, b), NAND (a, b))$
$OR (a, b) = NAND (NAND (a, a), NAND (b, b))$
$NOT (a) = NAND (a, a)$

因此, 我们可以将 $C$ 中的每一个逻辑门替换为至多三个 $NAND$ 门, 从而得到一个等价电路 $C^{'} .$
由此得到的电路至多包含 $3 s$ 个逻辑门.

重要启示

重要提示 3.1. 如果两个模型能够计算相同的函数集合, 那么它们就是 等效的.

3.6.2 更多 $NAND$ 电路的例子 (选读)

下面给出一些更复杂的 $NAND$ 电路示例:

后继数: 考虑如下任务: 输入一个字符串 $x \in {0, 1}^{n},$ 它表示一个自然数 $X \in N,$ 我们希望计算 $X + 1.$ 换句话说, 我们希望计算函数
$INC_{n} : {0, 1}^{n} \to {0, 1}^{n + 1}$
使得对于任意 $x_{0}, \dots, x_{n - 1},$ 有 $INC_{n} (x) = y,$ 并且满足
$i = 0 \sum n y_{i} 2^{i} = (i = 0 \sum n - 1 x_{i} 2^{i}) + 1.$
(为了书写简洁, 在此示例中我们采用最低有效位在前而不是在后的表示方式. )

后继操作可以非正式地描述为: “将 $1$ 加到最低有效位并向高位传递进位”.
更准确地说, 在二进制表示的情形下, 要得到 $x$ 的后继, 我们从最低有效位开始扫描 $x,$ 把所有的 $1$ 翻转为 $0,$ 直到遇到一个等于 $0$ 的比特, 把它翻转为 $1$ 并停止.

因此, 我们可以通过以下步骤来计算 $x_{0}, \dots, x_{n - 1}$ 的后继:

算法 3.2 (后继函数).

$Input : x_{0}, x_{1}, \dots, x_{n - 1} representing \sum_{i = 0}^{n - 1} x_{i} \cdot 2^{i} (LSB-first) Output : y \in {0, 1}^{n + 1} such that \sum_{i = 0}^{n} y_{i} \cdot 2^{i} = \sum_{i = 0}^{n - 1} x_{i} \cdot 2^{i} + 1 Step1 : c_{0} \leftarrow 1 (initial carry = 1) Step2 : For i = 0, \dots, n - 1 Step2.1 : y_{i} \leftarrow XOR (x_{i}, c_{i}) Step2.2 : If (c_{i} = 1 \land x_{i} = 1) then c_{i + 1} \leftarrow 1 Step2.3 : Else c_{i + 1} \leftarrow 0 Step2.4 : Endif Step3 : Endfor Step4 : y_{n} \leftarrow c_{n}$

算法 3.2 精确描述了如何计算后继, 并且可以很容易地转化为执行相同计算的 Python 代码, 但它似乎不能直接生成一个计算该运算的 $NAND$ 电路.
然而, 我们可以逐行将该算法转换为 $NAND$ 电路.

例如, 由于对任意 $a$ 都有 $NAND (a, NOT (a)) = 1,$ 我们可以将最初的语句 $c_{0} = 1$ 替换为
$c_{0} = NAND (x_{0}, NAND (x_{0}, x_{0})) .$

我们已经知道如何用 $NAND$ 实现 $XOR,$ 因此可以用它来实现操作 $y_{i} \leftarrow XOR (x_{i}, c_{i}) .$

类似地, 可以将 “if” 语句写作 $c_{i + 1} \leftarrow AND (c_{i}, x_{i}),$ 也就是
$c_{i + 1} \leftarrow NAND (NAND (c_{i}, x_{i}), NAND (c_{i}, x_{i})) .$

最后, 赋值 $y_{n} = c_{n}$ 可以写作
$y_{n} = NAND (NAND (c_{n}, c_{n}), NAND (c_{n}, c_{n})) .$

结合这些观察, 对于任意 $n \in N,$ 我们就得到了一个计算 $INC_{n}$ 的 $NAND$ 电路.
例如, 图 3.29展示了 $n = 4$ 时该电路的样子.

nandincrememntcircfig

图 3.29. 用于计算 $4$ 位 自增函数 的 $NAND$ 电路.

从自增到加法

一旦有了自增运算, 我们当然可以通过重复自增来计算加法 (即通过对 $x$ 执行 $y$ 次 $INC (x)$ 来计算 $x + y)$ . 然而, 这种方法既低效又没有必要.

利用同样的进位跟踪思想, 我们可以实现“中学“加法算法, 并计算函数 $ADD_{n} : {0, 1}^{2 n} \to {0, 1}^{n + 1},$ 其在输入 $x \in {0, 1}^{2 n}$ 时输出由 $x_{0}, \dots, x_{n - 1}$ 与 $x_{n}, \dots, x_{2 n - 1}$ 所表示的两个数之和的二进制表示:

算法 3.3 (利用 $NAND$ 计算加法).

$Input : u \in {0, 1}^{n}, v \in {0, 1}^{n} (LSB-first binary representation) Output : LSB-first binary representation of u + v Step1 : c_{0} \leftarrow 0 Step2 : For i = 0, \dots, n - 1 Step2.1 : y_{i} \leftarrow (u_{i} + v_{i} + c_{i}) mod 2 Step2.2 : If (u_{i} + v_{i} + c_{i} \geq 2) then c_{i + 1} \leftarrow 1 Step2.3 : Else c_{i + 1} \leftarrow 0 Step2.4 : Endif Step3 : Endfor Step4 : y_{n} \leftarrow c_{n}$

同样地, 算法 3.3 可以被转换为 $NAND$ 电路.
关键的观察是, “if/then” 语句实际上对应于 $c_{i + 1} \leftarrow MAJ_{3} (u_{i}, v_{i}, v_{i}),$ 而我们在练习 3.5 中已经看到函数 $MAJ_{3} : {0, 1}^{3} \to {0, 1}$ 可以用 $NAND$ 实现.

3.6.3 编程语言 NAND-CIRC

正如我们为布尔电路所做的那样, 我们可以定义 NAND 电路对应的编程语言.
它甚至比 AON-CIRC 语言更简单, 因为这里只有一种操作.

我们将 NAND-CIRC 编程语言 定义为这样一种编程语言, 其中每行 (除了输入/输出声明外) 具有以下形式:

foo = NAND(bar,blah)

其中 foo, bar 和 blah 指代变量.

我们的第一个 NAND-CIRC 程序

样例 3.2. 以下是一个 NAND-CIRC 程序的例子

u = NAND(X[0],X[1])
v = NAND(X[0],u)
w = NAND(X[1],u)
Y[0] = NAND(v,w)

暂停一下

你知道这个程序计算的是什么函数吗? 提示: 你以前见过它.

形式上, 就像我们在定义 3.5 中对 AON-CIRC 所做的那样, 我们可以以自然的方式定义 NAND-CIRC 程序的计算概念:

定义 3.6 (由 NAND-CIRC 定义的计算). 设 $f : {0, 1}^{n} \to {0, 1}^{m}$ 为某个函数, $P$ 为一个 NAND-CIRC 程序. 我们说 $P$ 计算函数 $f,$ 如果满足以下条件:

$P$ 具有 $n$ 个输入变量 X[0], $\dots,$ X[n-1] 和 $m$ 个输出变量 Y[0], $\dots,$ Y[m-1].
对于任意 $x \in {0, 1}^{n},$ 如果在执行 $P$ 时将输入变量 X[0], $\dots,$ X[n-1] 赋值为 $x_{0}, \dots, x_{n - 1},$ 则在执行结束时, 输出变量 Y[0], $\dots,$ Y[m-1] 的值为 $y_{0}, \dots, y_{m - 1},$ 其中 $y = f (x) .$

和之前一样, 我们可以证明 NAND 电路与 NAND-CIRC 程序是等价的 (见图 3.30).

定理 3.4 (NAND电路与直线程序的等价性). 对于任意 $f : {0, 1}^{n} \to {0, 1}^{m}$ 和任意 $s \geq m,$ $f$ 可被一个含有 $s$ 行的 NAND-CIRC 程序计算, 当且仅当 $f$ 可被一个含有 $s$ 个门的 NAND 电路计算.

progandcircfig 图 3.30. 一个 NAND 程序及其对应的电路. 注意程序中的每一行都对应电路中的一个门.

我们省略定理 3.4 的证明, 因为其思路与布尔电路与 AON-CIRC 程序等价的证明完全相同 (参见定理 3.1) .

根据定理 3.3 和定理 3.4, 我们知道可以将任意 $s$ 行的 AON-CIRC 程序 $P$ 翻译为一个等价的 NAND-CIRC 程序, 行数最多为 $3 s .$
实际上, 这种翻译可以通过将每一行 foo = AND(bar,blah)、foo = OR(bar,blah) 或 foo = NOT(bar) 替换为使用 NAND 的等价 1-3 行来轻松完成.

我们的 GitHub 仓库提供了“代码证明“: 一个简单的 Python 程序 AON2NAND, 可以将 AON-CIRC 转换为等价的 NAND-CIRC 程序.

NAND-CIRC编程语言是否图灵完备?(选读)

备注 3.3.

你可能听说过“图灵完备 (Turing Complete) “这一术语, 有时用来描述编程语言. (如果没听过, 可以忽略本备注的其余部分: 我们将在第七章中给出精确定义. )

如果听说过, 你可能会好奇 NAND-CIRC 编程语言是否具备这一属性. 答案是否定的, 或者更准确地说, “图灵完备“这个术语并不真正适用于 NAND-CIRC 编程语言.

原因在于, 根据设计, NAND-CIRC 编程语言只能计算有限函数 $F : {0, 1}^{n} \to {0, 1}^{m},$ 这些函数接受固定数量的输入比特并产生固定数量的输出比特. “图灵完备“这一术语仅适用于可以处理任意长度输入的无限函数的编程语言.

在本书后续章节中, 我们将回到这一区分进行进一步讨论.

3.7 上述所有模型的等价性

如果我们将定理 3.1、定理 3.3 和定理 3.4 结合起来, 可得到以下结论:

定理 3.5 (有限计算模型之间的等价性). 对于足够大的 $s, n, m$ 以及函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 以下条件彼此等价:

$f$ 可以由最多 $O (s)$ 个门的布尔电路 (使用 $\land$ 、 $\lor$ 、 $\neg$ 门) 计算.
$f$ 可以由最多 $O (s)$ 行的 AON-CIRC 直线程序计算.
$f$ 可以由最多 $O (s)$ 个门的 $NAND$ 电路计算.
$f$ 可以由最多 $O (s)$ 行的 NAND-CIRC 直线程序计算.

这里的“ $O (s)$ “表示上界最多为 $c \cdot s,$ 其中 $c$ 是与 $n$ 无关的常数. 例如, 如果 $f$ 可以由 $s$ 个门的布尔电路计算, 那么它可以由最多 $3 s$ 行的 NAND-CIRC 程序计算; 如果 $f$ 可以由 $s$ 个门的 NAND 电路计算, 那么它可以由最多 $2 s$ 行的 AON-CIRC 程序计算.

对定理 3.5的证明思路

我们省略正式证明, 该证明可通过结合定理 3.1、定理 3.3 和定理 3.4 得出. 关键观察是: 我们看到的结果允许我们将一个在上述模型之一中计算 $f$ 的程序/电路, 转换为在另一模型中计算 $f$ 的程序/电路, 其行数或门数最多增加一个常数因子 (实际上该常数因子最多为 $3)$ .

定理 3.1 是一个更一般结果的特例.
我们可以考虑更一般的计算模型, 其中不仅使用 AND/OR/NOT 或 NAND, 还可以使用其他运算 (参见第3.7.1节) . 事实证明, 布尔电路在计算能力上与这些模型也是等价的.

所有这些不同的计算定义方式最终导致等价模型, 这表明我们“走在正确的道路上“. 它证明了我们选择 AND/OR/NOT 或 NAND 作为基本操作的看似任意的选择是合理的, 因为这些选择并不影响计算模型的能力. 像定理 3.5 这样的等价结果意味着我们可以轻松地在布尔电路、NAND 电路、NAND-CIRC 程序等之间进行转换. 在本书后续内容中, 我们将经常利用这一能力, 通常会根据方便选择最合适的表述, 而不会过分纠结. 因此, 我们不会过于担心例如布尔电路与 NAND-CIRC 程序之间的区别.

相比之下, 我们将继续特别注意区分电路/程序与函数 (回忆重要提示 2.2) .
一个函数对应于计算任务的规范, 它本质上不同于程序或电路, 后者对应于任务的实现.

3.7.1 基于其它门集合的电路

$AND / OR / NOT$ 或 $NAND$ 并没有什么特别之处. 对于任意函数集合 $G = {G_{0}, \dots, G_{k - 1}},$ 我们可以定义使用 $G$ 中元素作为门的电路的概念, 以及一个“ $G$ 编程语言“的概念, 其中每一行都将一个变量 foo 赋值为对某个 $G_{i} \in G$ 应用于先前定义的变量或输入变量的结果.

具体而言, 我们可以做如下定义:

定义 3.7 (广义直线程序). 设 $F = {f_{0}, \dots, f_{t - 1}}$ 为有限布尔函数集合, 其中 $f_{i} : {0, 1}^{k_{i}} \to {0, 1},$ $k_{i} \in N .$

一个 $F$ 程序 是一系列语句, 每条语句将某个变量赋值为对某个 $f_{i} \in F$ 应用于 $k_{i}$ 个其他变量的结果. 如上所述, 我们使用 X[i] 和 Y[j] 表示输入变量和输出变量.

当存在一个 $F$ 程序可以计算函数 $NAND$ 时, 我们称 $F$ 为通用运算集 (也称为通用门集) .

AON-CIRC 程序对应于 ${AND, OR, NOT}$ 程序, NAND-CIRC 程序对应于仅包含 $NAND$ 函数的 $F$ 程序, 但我们也可以定义 ${IF,ZERO,ONE}$ 程序 (见下文) , 或者使用任意其他集合.

我们还可以定义 $F$ 电路, 它是一个有向图, 其中每个门对应于应用某个 $f_{i} \in F$ 的操作, 每个门有 $k_{i}$ 条入边和一条出边. (如果函数 $f_{i}$ 不是对称的, 即输入顺序会影响结果, 那么我们需要标记每条入边对应函数的哪个参数. )

正如在定理 3.1 中, 我们可以证明 $F$ 电路与 $F$ 程序是等价的.
我们已经看到, 对于 $F = {A N D, OR, NOT},$ 生成的电路/程序在计算能力上等价于 NAND-CIRC 编程语言, 因为我们可以用 $AND$ / $OR$ / $NOT$ 计算 $NAND,$ 反之亦然.

这实际上是一个更一般现象的特例– $NAND$ 和其他门集的通用性–我们将在本书后续章节中深入探讨.

${IF , ZERO, ONE}$ 电路

样例 3.3. 设 $F = {IF , ZERO, ONE},$ 其中 $ZERO : {0, 1} \to {0}$ 和 $ONE : {0, 1} \to {1}$ 分别是常量零函数和常量一函数¹, $IF : {0, 1}^{3} \to {0, 1}$ 是一个函数, 对输入 $(a, b, c),$ 如果 $a = 1$ 则输出 $b,$ 否则输出 $c .$

则 $F$ 是通用的.

实际上, 我们可以通过以下 $NAND$ 的公式证明 ${IF, ZERO, ONE}$ 是通用的: $NAND (a, b) = IF (a, IF (b, ZERO, ONE), ONE) .$

也存在一些计算能力更受限的集合 $F .$
例如, 可以证明, 如果我们只使用 $AND$ 或 $OR$ 门 (不使用 $NOT)$ , 则无法得到等价的计算模型.
练习中提供了几个通用门集与非通用门集的示例.

3.7.2 规范 vs. 实现 (再次强调)

specvsimplfig 图 3.31. 区分计算任务的规范与其实现至关重要: 规范指明要计算的函数 (即“做什么“) , 而实现则是包含将输入映射到输出的指令的算法、程序或电路 (即“如何做“) . 同一个函数可以通过多种不同方式实现.

正如我们在第2.6.1节中讨论的, 本书中最重要的区别之一是规范与实现的区分, 即分离“做什么“和“如何做“ (见图 3.31) .
一个函数对应于计算任务的规范, 即对于每个特定输入应该产生什么输出.
一个程序 (或电路, 或其他任何用于指定算法的方式) 对应于实现, 即如何从输入计算所需输出.
也就是说, 程序是一组从输入计算输出的指令.

即便在同一个计算模型内, 也可能有多种不同方式来计算同一个函数. 例如, 计算多数函数的 NAND-CIRC 程序不止一个, 计算加法函数的布尔电路也不止一个, 等等.

混淆规范与实现 (或等价地, 函数与程序) 是一个常见错误, 而编程语言中常将程序部分称为“函数“也在一定程度上助长了这种误解. 然而, 在计算机科学的理论与实践中, 保持这一区别非常重要, 本书尤其重视这一点.

回顾

算法是通过一系列“基本“或“简单“操作来执行计算的步骤或配方.
“基本“操作的一种候选定义是集合 $AND$ 、 $OR$ 和 $NOT .$
另一种“基本“操作的候选定义是 $NAND$ 操作. 它可以通过多种物理方法轻松实现, 包括电子晶体管.
我们可以使用 $NAND$ 计算许多其他函数, 包括多数、增量等.
还有其他等价选择, 包括集合 ${AND, OR, NOT}$ 和 ${IF,ZERO,ONE} .$
我们可以形式化定义函数 $F : {0, 1}^{n} \to {0, 1}^{m}$ 可被 NAND-CIRC 编程语言 计算的概念.
对于任意基本操作集合, 通过电路可计算与通过直线程序可计算的概念是等价的.

习题

习题 3.1 (比较 $4$ bit 数字). 给出一个布尔电路 (使用 $AND / OR / NOT$ 门) , 该电路计算函数 $CMP_{8} : {0, 1}^{8} \to {0, 1},$ 使得当且仅当由 $a_{0} a_{1} a_{2} a_{3}$ 表示的数大于由 $b_{0} b_{1} b_{2} b_{3}$ 表示的数时, $CMP_{8} (a_{0}, a_{1}, a_{2}, a_{3}, b_{0}, b_{1}, b_{2}, b_{3}) = 1.$

习题 3.2 (比较 $n$ bit 数字). 证明存在常数 $c,$ 使得对任意正整数 $n,$ 存在一个布尔电路 (由 $AND, OR, NOT$ 门构成) $C,$ 其门数不超过 $c \cdot n,$ 并能计算函数 $CMP_{2 n} : {0, 1}^{2 n} \to {0, 1},$ 满足: 对任意输入 $a_{0} \dots a_{n - 1} b_{0} \dots b_{n - 1},$ 有 $CMP_{2 n} (a_{0} \dots a_{n - 1} b_{0} \dots b_{n - 1}) = 1$ 当且仅当由 $a_{0} \dots a_{n - 1}$ 表示的数大于由 $b_{0} \dots b_{n - 1}$ 表示的数.

习题 3.3 ( ${OR, NOT}$ 是通用的). 证明集合 ${OR, NOT}$ 是通用的, 即可以仅使用这些门来计算 $NAND .$

习题 3.4 ( ${AND, OR, 0, 1}$ 不是通用的). 证明: 对于任意只包含 $AND$ 和 $OR$ 门, 以及计算常数函数 $0$ 和 $1$ 的门的 $n$ 位输入电路 $C,$ $C$ 是单调的, 即若 $x, x^{'} \in {0, 1}^{n}$ 且对每个 $i \in [n]$ 有 $x_{i} \leq x_{i}^{'},$ 则 $C (x) \leq C (x^{'}) .$ 由此可得集合 ${AND, OR, 0, 1}$ 不是通用的.

习题 3.5 ( ${XOR, 0, 1}$ 不是通用的). 证明: 对于任意仅包含 $XOR$ 门以及计算常数函数 $0$ 和 $1$ 的门的 $n$ 位输入电路 $C,$ $C$ 是仿射 (模 $2)$ 或线性的, 即存在 $a \in {0, 1}^{n}$ 和 $b \in {0, 1},$ 使得对任意 $x \in {0, 1}^{n}$ 都有 $C (x) = i = 0 \sum n - 1 a_{i} x_{i} + b mod 2.$ 由此可得集合 ${XOR, 0, 1}$ 不是通用的.

习题 3.6 ( ${MAJ, NOT, 1}$ 是通用的). 设 $MAJ : {0, 1}^{3} \to {0, 1}$ 为多数函数 (当且仅当三个输入中至少有两个为 $1$ 时输出 $1)$ . 证明集合 ${MAJ, NOT, 1}$ 是通用的门集.

习题 3.7 ( ${MAJ, NOT}$ 不是通用的). 证明 ${MAJ, NOT}$ 不是通用门集. 见脚注中的提示. ²感谢 Nathan Brunelle 和 David Evans 对本练习的建议.

习题 3.8 ( $NOR$ 是通用的). 令 $NOR : {0, 1}^{2} \to {0, 1},$ 定义为 $NOR (a, b) = NOT (OR (a, b)) .$ 证明集合 ${NOR}$ 是一个通用门集.

习题 3.9 (Lookup 是通用的). 证明集合 ${LOOKUP_{1}, 0, 1}$ 是通用门集, 其中 $0$ 和 $1$ 是常数函数, 且 $LOOKUP_{1} : {0, 1}^{3} \to {0, 1}$ 满足: 当 $c = 0$ 时 $LOOKUP_{1} (a, b, c) = a,$ 当 $c = 1$ 时 $LOOKUP_{1} (a, b, c) = b .$

习题 3.10 (通用基底大小的界 (困难) ). 证明: 对任意集合 $B$ ( $B$ 为从 ${0, 1}^{k}$ 到 ${0, 1}$ 的函数的子集) , 如果 $B$ 是通用的, 则存在一个最多 $O (1)$ 个门的 $B$ -电路来计算 $NAND$ 函数. (可先证明存在一个大小至多 $O (k^{16})$ 的 $B$ -电路. ) ³

习题 3.11 (电路规模与输入/输出). 证明: 对于任意具有 $n$ 个输入和 $m$ 个输出的 $NAND$ 电路, 若电路规模为 $s,$ 则 $s \geq min {n /2, m} .$ 见脚注中的提示. ⁴.

习题 3.12 (使用 $NAND$ 的阈值函数). 证明存在常数 $c,$ 使得对任意 $n > 1$ 以及任意整数 $a_{0}, \dots, a_{n - 1}, b \in {- 2^{n}, - 2^{n} + 1, \dots, - 1, 0, 1, \dots, 2^{n}},$ 存在一个 $NAND$ 电路, 该电路至多包含 $c n^{4}$ 个门, 并能计算阈值函数 $f_{a_{0}, \dots, a_{n - 1}, b} : {0, 1}^{n} \to {0, 1} :$ 对输入 $x \in {0, 1}^{n},$ 当且仅当 $\sum_{i = 0}^{n - 1} a_{i} x_{i} > b$ 时输出 $1.$

习题 3.13 (由激活函数构造 $NAND$ ). 我们称函数 $f : R^{2} \to R$ 为 $NAND$ 近似器, 如果它满足以下性质: 对任意 $a, b \in R,$ 当 $min {∣ a ∣, ∣1 - a ∣} \leq 1/3$ 且 $min {∣ b ∣, ∣1 - b ∣} \leq 0.1$ 时, 有 $∣ f (a, b) - NAND (⌊ a ⌉, ⌊ b ⌉) ∣ \leq 0.1,$ 其中 $⌊ x ⌉$ 表示与 $x$ 最接近的整数. 也就是说, 当 $a, b$ 在距离 ${0, 1}$ 不超过 $1/3$ 的区域内时, 我们要求 $f (a, b)$ 等于与 $a, b$ 最近的那两个 ${0, 1}$ 值的 $NAND$ 值 (允许 $0.1$ 的误差) . 若 $a, b$ 不满足该接近条件, 则对 $f (a, b)$ 的值不作要求.

在本练习中你将证明可以从常见的深度神经网络激活函数构造出 $NAND$ 近似器. 作为推论, 你将得到深度神经网络可以模拟 $NAND$ 电路. 由于 $NAND$ 电路也可以模拟深度神经网络, 这两种计算模型因而等价.

证明存在一个 $NAND$ 近似器 $f,$ 其形式为 $f (a, b) = L (DReLU (L^{'} (a, b)))$ 其中 $L^{'} : R^{2} \to R$ 为仿射函数 (即 $L^{'} (a, b) = α a + β b + γ,$ 某些 $α, β, γ \in R)$ , $L$ 也是仿射函数 ( $L (y) = α y + β)$ , 而 $DReLU : R \to R$ 定义为 $DReLU (x) = min (1, max (0, x)) .$ 注意 $DReLU (x) = 1 - ReLU (1 - ReLU (x)),$ 其中 $ReLU (x) = max (x, 0)$ 是常用的整流线性单元激活函数.
证明存在一个 $NAND$ 近似器 $f,$ 其形式为 $f (a, b) = L (sigmoid (L^{'} (a, b)))$ 其中 $L^{'}, L$ 如上为仿射函数, 且 $sigmoid : R \to R$ 定义为 $sigmoid (x) = \frac{e ^{x}}{e ^{x} + 1} .$
证明存在一个 $NAND$ 近似器 $f,$ 其形式为 $f (a, b) = L (tanh (L^{'} (a, b)))$ 其中 $L^{'}, L$ 如上为仿射函数, 且 $tanh : R \to R$ 定义为 $tanh (x) = \frac{e ^{x} - e ^{- x}}{e ^{x} + e ^{- x}} .$
证明: 对任意具有 $n$ 个输入且单输出的 $NAND$ 电路 $C$ (计算函数 $g : {0, 1}^{n} \to {0, 1})$ , 如果用 $NAND$ 近似器替换 $C$ 中的每一个门, 然后将得到的“近似电路“在某个 $x \in {0, 1}^{n}$ 上求值, 则输出为某个实数 $y,$ 且满足 $∣ y - g (x) ∣ \leq 1/3.$

习题 3.14 (用 $NAND$ 高效实现多数函数). 证明存在常数 $c,$ 使得对任意 $n > 1,$ 存在一个包含至多 $c \cdot n$ 个门的 $NAND$ 电路, 该电路计算 $n$ 位输入的多数函数 $MAJ_{n} : {0, 1}^{n} \to {0, 1},$ 即当且仅当 $\sum_{i = 0}^{n - 1} x_{i} > n /2$ 时 $MAJ_{n} (x) = 1.$ 见脚注中的提示. ⁵

习题 3.15 (输出放在最后一层). 证明: 对任意 $f : {0, 1}^{n} \to {0, 1},$ 若存在一个门数为 $s$ 的布尔电路 $C$ 计算 $f,$ 则存在另一个门数不超过 $s$ 的布尔电路 $C^{'},$ 使得在 $C^{'}$ 的最小分层 (minimal layering) 中, 输出门位于最后一层. 见脚注中的提示. ⁶

杂记

阿尔-花拉子米 (Al-Khwarizmi) 著作的摘录来自《The Algebra of Ben-Musa》, Fredric Rosen, 1831 年.

查尔斯·巴贝奇 (Charles Babbage, 1791-1871) 是具有远见的科学家、数学家和发明家 (参见 Swade, 2002 Collier, MacLachlan, 2000) .
在现代电子计算机发明的一个多世纪之前, 巴贝奇就意识到计算原则上可以机械化.
他设计的第一台机械计算机是 差分机 (difference engine), 用于多项式插值.
随后他设计了 解析机 (analytical engine), 这是一台更加通用的机器, 也是第一台可编程通用计算机的原型.
遗憾的是, 巴贝奇从未完成这些原型机的设计.
最早意识到解析机潜力及其深远影响的人之一是阿达·洛芙莱斯 (Ada Lovelace) (参见第七章注释) .

布尔代数最早由布尔 (Boole) 和德摩根 (DeMorgan) 在 1840 年代研究 Boole, 1847 De Morgan, 1847.
布尔电路的定义及其与电继电器电路的联系由香农 (Shannon) 在其硕士论文中提出 Shannon, 1938.
(霍华德·加德纳称香农的论文为“可能是 20 世纪最重要、也最著名的硕士论文“. )
萨维奇 (Savage) 的书 Savage, 1998 与本书类似, 从布尔电路作为第一个模型开始引入计算理论.
Jukna 的书 Jukna, 2012 提供了现代深入的布尔电路论述, 另见 Wegener, 1987.

Sheffer Sheffer, 1913 证明了 $NAND$ 函数是通用的, 尽管早期 Peirce 的工作中也出现过类似结论, 参见 Burks, 1978.
怀特海德 (Whitehead) 和罗素 (Russell) 在其巨著《数学原理》 (Principia Mathematica) 中使用 $NAND$ 作为逻辑基础 Whitehead, Russell, 1912.
Ernst 在其博士论文中 Ernst, 2009 实证研究了各种函数的最小 $NAND$ 电路.
Nisan 和 Shocken 的书 Nisan, Schocken, 2005 从 $NAND$ 门开始构建计算系统, 直到高级程序和游戏 (“ $NAND$ 到 Tetris”) ; 另见网站 nandtotetris.org.

我们在定义 3.3 中将布尔电路的大小定义为其包含的门的数量. 这是文献中使用的两种约定之一. 另一种约定是将大小定义为导线的数量 (等价于门的数量加输入数量) .
在几乎所有情况下, 这差异很小, 但可能影响某些“病态例子“的电路规模复杂度, 例如常量零函数, 其输出几乎不依赖输入.

1: 也可以将这些函数定义为接受长度为零的输入, 这对模型的计算能力没有影响.

2: 提示: 利用 $MAJ (\overline{a}, \overline{b}, \overline{c}) = \overline{MAJ (a, b, c)},$ 证明任何仅由 $MAJ$ 与 $NOT$ 门构成的电路所计算的函数 $f : {0, 1}^{n} \to {0, 1}$ 都满足 $f (0, 0, \dots, 0) \neq = f (1, 1, \dots, 1) .$

3: 感谢 Alec Sun 和 Simon Fischer 对本题的评论.

4: 提示: 利用布尔电路定义中对于输入顶点必须至少有一个出边以及电路恰有 $m$ 个输出门的条件. 另见相关备注 3.2

5: 提示: 一个可行的方法是使用递归并用所谓的“主定理 (Master Theorem) “进行分析.

6: 提示: 层次中位于输出之后的顶点可以安全地移除而不改变电路功能.

** 本章仍在翻译中 **

4. 语法糖与通用函数计算

4. 语法糖与通用函数计算

学习目标

习惯于语法糖或高级逻辑到低级门电路的自动转换.
学习重要结论的证明: 任何有限函数都能通过布尔电路计算.
开始从量化角度思考计算过程所需的代码行数.

Quote

[于1951年] 我曾有一个能运行的编译器, 但没人愿意碰它, 因为他们谨慎地告诉我, 计算机只能做算术, 不能执行程序.

-Grace Murray Hopper, 1986.

Quote

语法糖会引起分号癌.

-Alan Perlis, 1982.

我们目前所考察的计算模型, 可谓极其精简.
例如. 我们的 NAND-CIRC “编程语言” 仅包含单一操作 foo = NAND(bar,blah).
本章将揭示, 这些简单模型实际上与更复杂的模型完全等价. 关键发现在于: 我们可以用基础构件来实现复杂功能, 再将这些新功能作为构件去实现更高级的功能. 这在编程语言设计领域被称为“语法糖“——因为我们并未改变底层编程模型本身, 而只是通过语法转换, 将使用了新特性的程序转译为不依赖这些特性的等效程序.

本章将提供一个“工具箱“, 以用于证明许多函数都能通过NAND-CIRC程序(进而也能通过布尔电路)进行计算. 我们还将借助这个工具箱证明一个基本定理: 任意有限函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 都能由布尔电路实现(详见下文定理 4.7).
虽然语法糖工具箱本身具有重要意义, 但定理 4.7也可以在不使用该工具箱的情况下直接证明. 我们将在第4.5节呈现这种替代证明方法. 图图 4.1概括了本章的核心结论脉络.

computefuncoverviewfig

图 4.1. 本章内容概要如下: 在第4.1节中, 我们将提供一套“语法糖“功能模块, 展示如何在NAND-CIRC中实现程序员自定义函数和条件语句等特性. 在第4.3节中, 我们将运用这些工具构建计算 $L OO K U P$ 函数的NAND-CIRC程序(或等效的布尔电路). 由此出发, 我们将在第4.4节中证明: NAND-CIRC程序(即布尔电路)能够计算所有有限函数. 该结论的另一种直接证明方法将在第4.5节中呈现.

简要概述

阅读本章, 我们希望读者能够有以下收获:

本章中, 我们将会得出第一个主要结果: 每个有限函数都可以被一些布尔电路计算(参见定理 4.7 和重要提示 4.2). 其有时也被称为 $A N D,$ $OR$ 与 $NOT$ 函数的“通用性“ (利用第3章中的等价, 这也是 $N A N D$ 的“通用性“)
尽管定理 4.7是一项重要结论, 但其证明过程实际上并不复杂. 第4.5节将给出该结论的一个相对简洁的直接证明. 不过在第4.1节和第4.3节中, 我们采用了“语法糖“(参见重要提示 4.1)这一概念来推导该结论. 对于编程语言的理论与实践而言, 这都是一个至关重要的概念. “语法糖“的核心思想在于: 我们可以通过基础组件实现高级功能, 从而扩展编程语言的表现力. 例如, 基于第3章介绍的AON-CIRC和NAND-CIRC编程语言, 我们可以通过扩展实现用户自定义函数(如def Foo(...))、条件语句(如if blah ...)等高级特性. 一旦掌握了这些扩展功能, 我们就不难证明: 通过获取任意函数的真值表(即所有输入输出对应表), 可以据此创建出能将每个输入映射至对应输出的AON-CIRC或NAND-CIRC程序.
本章中我们还将首次接触 定量分析 的概念. 虽然定理 4.7定理指出每个函数都能通过某个电路实现, 但该电路所需逻辑门的数量可能呈指数级增长. (此处使用的“指数级“并非口语中泛指的“非常巨大“, 而是精确的数学概念——当然这个数学概念恰好也意味着规模极其庞大. ) 我们发现, 某些函数 (例如, 整数加法和乘法) 事实上可以用更少的门电路计算. 我们将在第5章与接下来的章节中更加深入探讨这种“门电路复杂度“.

4.1 语法糖的一些例子

现在我们将展示若干“语法糖“转换的实例, 这些转换可用于构建直线式程序或电路. 我们主要从计算模型的直线式编程语言视角出发, 并具体以NAND-CIRC编程语言为例进行说明(以便更清晰地阐述概念). 这种视角的便利之处在于, 我们介绍的多数语法糖转换最容易理解的方式, 就是将其视为对程序源代码进行“查找替换“操作. 根据定理 3.5定理, 我们得到的所有结论同样适用于电路模型——无论是使用NAND门的电路, 还是使用AND、OR及NOT门构成的布尔电路. 虽然详细列举这类语法糖转换的实例可能略显枯燥, 但我们之所以这样做, 主要基于两个原因:

这可以让你确信, 尽管布尔电路或NAND-CIRC编程语言等简单模型看似基础且存在局限性, 但它们实际上具有强大的表达能力.
于是你就可以意识到, 选择学习计算理论课程而非编译原理课程是多么幸运… :)

4.1.1 用户定义过程

几乎所有编程语言都具备一个核心功能: 定义并执行过程或子程序的能力(在某些语言中常称为函数 , 但为避免与程序计算的函数混淆, 我们更倾向于使用过程这一名称). NAND-CIRC编程语言本身并未内置这种机制, 但我们可以通过沿用已久的“复制粘贴“技巧实现相同效果. 具体来说, 我们可以将定义过程的代码:

def Proc(a,b):
    proc_code
    return c
some_code
f = Proc(d,e)
some_more_code

替换为以下形式, 其中直接“粘贴“Proc过程的代码:

some_code
proc_code'
some_more_code

其中proc_code'是通过将Proc代码中所有a替换为d、b替换为e、c替换为f而得到的. 在执行此操作时, 我们需要确保proc_code'中出现的所有其他变量不会与其他变量产生冲突——这总是可以通过将变量重命名为之前未使用过的新名称来实现. 由上述推理, 我们可以得到以下定理:

定理 4.1 (语法糖: 过程定义).

令 NAND-CIRC-PROC 为 NAND_CIRC 编程语言的一个拓展, 其具有定义过程的语法. 则对于每个 NAND-CIRC-PROC 程序 $P,$ 存在一个标准的 (即“无糖“) NAND-CIRC 程序 $P^{'}$ 与 $P$ 计算相同的函数.

Info

备注 4.1 (无递归过程).

NAND-CIRC-PROC只允许 无递归 过程. 事实上, 过程Proc的代码无法调用Proc, 而只能使用在其之前定义的过程. 如果没有这样的限制, 上述的“搜索并替换“的过程可能永远无法结束, 而定理 4.1随之不成立.

定理 4.1 可通过上述转换方法证明, 但由于形式化证明过程较为冗长繁琐, 此处予以省略.

Example

样例 4.1 (使用语法糖通过NAND计算多数函数). 过程机制让我们能够更清晰简洁地表达NAND-CIRC程序. 例如, 由于我们可以通过NAND实现AND、OR和NOT运算, 因此可以通过以下方式计算多数函数:

def NOT(a):
    return NAND(a,a)
def AND(a,b):
    temp = NAND(a,b)
    return NOT(temp)
def OR(a,b):
    temp1 = NOT(a)
    temp2 = NOT(b)
    return NAND(temp1,temp2)

def MAJ(a,b,c):
    and1 = AND(a,b)
    and2 = AND(a,c)
    and3 = AND(b,c)
    or1 = OR(and1,and2)
    return OR(or1,and3)

print(MAJ(0,1,1))
# 1

图 4.2 展示了通过“展开“此程序(将其中的过程调用替换为具体定义)后得到的“无糖“版NAND-CIRC程序及其对应电路.

重要启示

重要提示 4.1. 一旦我们证明某个计算模型 $X$ 与具有特性 $Y$ 的模型等价, 那么在论证函数 $f$ 可由 $X$ 计算时, 即可直接假定我们拥有特性 $Y .$

progcircmajfig

图 4.2. 通过展开多数函数程序(样例 4.1)中的过程定义后得到的标准(即“无糖“)NAND-CIRC程序, 右侧为其对应电路. 需注意, 这并非实现多数函数最高效的NAND电路/程序: 通过简化某些步骤(例如当门电路 $u$ 计算 $N A N D (v, v)$ 后, 门电路 $w$ 又计算 $N A N D (u, u)$ 的情况, 图中绿色虚线箭头标示处), 我们可以减少逻辑门的使用数量.

Info

备注 4.2 (计算行数).

尽管我们可以通过使用语法糖来以一种更易读的方式表示 NAND-CIRC程序, 我们并没有改变语言本身的定义. 因此, 不管什么时候, 当我们说某个函数 $f$ 有一个 $s$ 行的NAND-CIRC程序时, 我们指的总是一个标准“无糖“NAND-CIRC程序, 其中所有的语法糖都已经被展开了. 例如, 样例 4.1的程序是计算 $M A J$ 的一个 $12$ 行程序, 尽管使用NAND-CIRC-PROC时其可以用更少的代码行数写出.

4.1.2 由Python证明 (选读)

我们可以编写一个Python程序来实现定理 4.1的证明. 该程序将接受包含过程定义的NAND-CIRC-PROC程序 $P,$ 通过简单的“查找替换“操作将其转换为标准的(即“无糖“)NAND-CIRC程序 $P^{'},$ 使得 $P^{'}$ 在不使用任何过程的情况下计算与 $P$ 相同的函数.

核心思路很简单: 如果程序 $P$ 包含一个带有两个参数x和y的过程Proc的定义, 那么每当遇到形如foo = Proc(bar,blah)的语句时, 我们可以用以下内容替换该行:

过程Proc的主体代码(将所有出现的x和y分别替换为bar和blah)
一行foo = exp, 其中exp是过程Proc定义中return语句后面的表达式

为使转换更加健壮, 我们可以为Proc使用的内部变量添加前缀, 以确保它们不会与 $P$ 中的变量冲突; 为简化起见, 我们在下面的代码中暂不考虑这个问题, 但实际实现时可以轻松添加此功能.

以下Python函数desugar的代码实现了这样的转换:

Example

样例 4.2 (将NAND-CIRC-PROC程序转化为标准无糖NAND-CIRC程序的Python代码).

def desugar(code, func_name, func_args,func_body):
    """
    将所有具有形式
       foo = func_name(func_args) 
    用以下代码替换
       func_body[x->a,y->b]
       foo = [result returned in func_body]    
    """
    # 使用Python的正则表达式来简化代码
    # 参见 https://docs.python.org/3/library/re.html 和本书第九章

    # 捕获由逗号分割的参数列表的正则表达式
    arglist = ",".join([r"([a-zA-Z0-9\_\[\]]+)" for i in range(len(func_args))])
    # 捕获具有下列形式的正在表达式
    # "variable = func_name(arguments)"
    regexp = fr'([a-zA-Z0-9\_\[\]]+)\s*=\s*{func_name}\({arglist}\)\s*$'#$
    while True:
        m = re.search(regexp, code, re.MULTILINE)
        if not m: break
        newcode = func_body 
        # 将函数的参数用函数调用时传入的变量替换
        for i in range(len(func_args)): 
            newcode = newcode.replace(func_args[i], m.group(i+2))
        # 将新代码插入
        newcode = newcode.replace('return', m.group(1) + " = ")
        code = code[:m.start()] + newcode + code[m.end()+1:]
    return code

图 4.2 展示了, 对样例 4.1中使用语法糖计算的多数函数程序, 将desugar函数应用于其上得到的结果. 具体来说, 我们首先应用desugar移除OR函数的使用, 然后再次应用以移除AND函数的使用, 最后第三次应用以移除NOT函数的使用.

Info

备注 4.3 (解析函数定义 (选读)).

样例 4.2中的desugar函数假定过程定义已被拆分为名称、参数和主体部分. 虽然精确描述如何扫描定义, 并将其拆分为这些组件, 对我们的目的并不关键. 但如果感兴趣, 可以通过以下Python代码实现这一拆分过程:

def parse_func(code):
    """将一个函数定义解析为名称, 参数列表与函数体"""
    lines = [l.strip() for l in code.split('\n')]
    regexp = r'def\s+([a-zA-Z\_0-9]+)\(([\sa-zA-Z0-9\_,]+)\)\s*:\s*'
    m = re.match(regexp,lines[0])
    return m.group(1), m.group(2).split(','), '\n'.join(lines[1:])

4.1.3 条件语句

NAND-CIRC语言中另一个严重缺失的特性是条件语句(例如许多编程语言中常见的if/then结构). 不过, 通过运用过程机制, 我们可以实现一种替代的条件判断结构. 首先我们需要计算函数 $I F : {0, 1}^{3} \to {0, 1},$ 该函数满足: 当 $a = 1$ 时输出 $b,$ 当 $a = 0$ 时输出 $c .$

思考时刻

在继续阅读前, 请尝试思考如何用 $N A N D$ 门实现 $I F$ 函数. 完成这一步后, 再思考如何利用它来模拟if/then类型的结构.

如习题 4.2所示, $I F$ 函数可以通过NAND门按如下方式实现:

def IF(cond,a,b):
    notcond = NAND(cond,cond)
    temp = NAND(b,notcond)
    temp1 = NAND(a,cond)
    return NAND(temp,temp1)

$I F$ 又被称为多路函数, 因为 $co n d$ 可以被视作一个控制输出与 $a$ 还是 $b$ 相连的开关. 只要我们由计算 $I F$ 函数的过程, 就可以在NAND中实现条件语句. 其思路为将具有以下形式的代码

if (condition):  assign blah to variable foo

替换为具有以下形式的代码

foo   = IF(condition, blah, foo)

其在condition等于 $0$ 时将foo赋值为旧值, 否则将foo赋值为blah的值. 更一般地, 我们将如下形式的代码

if (cond):
    a = ...
    b = ...
    c = ...

替换为如下形式的代码

temp_a = ...
temp_b = ...
temp_c = ...
a = IF(cond,temp_a,a)
b = IF(cond,temp_b,b)
c = IF(cond,temp_c,c)

通过运用此类转换方法, 我们可以证明以下定理. 尽管其完整形式化证明(启发性有限)在此从略, 但读者可参阅第4.1.2节获取相关证明思路的提示.

定理 4.2 (语法糖: 条件语句). 设NAND-CIRC-IF为在NAND-CIRC编程语言基础上扩展了if/then/else语句的语言版本, 允许代码根据变量取值是否为 $0$ 或 $1$ 来条件执行.
则对于任意NAND-CIRC-IF程序 $P,$ 都存在一个标准的(即“无糖“)NAND-CIRC程序 $P^{'}$ 能计算与 $P$ 完全相同的函数.

4.2 拓展样例: 加法与乘法(选读)

使用“语法糖“, 我们能够写出以下的整数加法函数:

# 将两个n为整数相加
# 为了简便, 使用最低有效位优先表示法
def ADD(A,B):
    Result = [0]*(n+1)
    Carry  = [0]*(n+1)
    Carry[0] = zero(A[0])
    for i in range(n):
        Result[i] = XOR(Carry[i],XOR(A[i],B[i]))
        Carry[i+1] = MAJ(Carry[i],A[i],B[i])
    Result[n] = Carry[n]
    return Result

ADD([1,1,1,0,0],[1,0,0,0,0]);;
# [0, 0, 0, 1, 0, 0]

其中zero是常数零函数, MAJ和XOR分别对应多数函数与异或函数. 虽然我们为方便起见使用了Python语法, 但此例中 $n$ 是某个 固定整数 , 因此对每个这样的 $n$ 而言, ADD都是一个接收 $2 n$ 位输入并输出 $n + 1$ 位的有限函数. 特别地, 对于每个 $n,$ 我们只需将代码重复 $n$ 次(将i的值依次替换为 $0, 1, 2, \dots, n - 1)$ 即可消除for i in range(n)循环结构. 通过展开所有特性, 对每个 $n$ 的取值, 我们都能将上述程序转换为标准的(无糖)NAND-CIRC程序. 图 4.3展示了 $n = 2$ 时的转换结果.

add2bitnumbersfig

图 4.3. 通过“展开“所有语法糖功能得到的用于两个二进制数相加的NAND-CIRC程序及对应NAND电路. 该程序/电路包含43行代码/逻辑门, 但这远非最优实现. 实际上只需使用 $9 n$ 个NAND门即可完成 $n$ 位二进制数的加法运算, 具体实现方法参见习题 4.5.

通过仔细分析上述程序并统计逻辑门数量, 我们可以证明以下定理(另见图 4.4):

定理 4.3 (使用NAND-CIRC程序实现加法运算). 对于任意 $n \in N,$ 令 $A D D_{n} : {0, 1}^{2 n} \to {0, 1}^{n + 1}$ 为如下函数: 给定 $x, x^{'} \in {0, 1}^{n},$ 计算 $x$ 和 $x^{'}$ 所表示数值之和的二进制表示. 则存在常数 $c \leq 30,$ 使得对每个 $n,$ 都存在一个最多包含 $c n$ 行代码的NAND-CIRC程序可计算 $A D D_{n} .$ ¹

addnumoflinesfig

图 4.4. 我们实现的两位 $n$ 比特二进制数相加的NAND-CIRC程序行数随 $n$ 的变化关系( $n$ 取值1到100). 虽然这不是该任务的最优实现, 但关键之处在于其复杂度呈现 $O (n)$ 的线性特征.

只要有了加法, 我们就可以使用小学乘法算法来获得乘法, 从而得到以下定义:

定理 4.4 (使用NAND-CIRC程序实现乘法运算). 对于任意 $n,$ 设 $M UL T_{n} : {0, 1}^{2 n} \to {0, 1}^{2 n}$ 为这样的函数: 给定 $x, x^{'} \in {0, 1}^{n},$ 计算 $x$ 和 $x^{'}$ 所表示数值之积的二进制表示. 则存在常数 $c,$ 使得对每个 $n,$ 都存在一个最多包含 $c n^{2}$ 行代码的NAND-CIRC程序可计算函数 $M UL T_{n} .$

我们在此省略证明过程, 不过在习题 4.7中, 我们将要求您以(用您熟悉的编程语言编写的)程序形式提供一份“构造性证明“: 该程序以数字 $n$ 作为输入, 输出一个最多包含 $1000 n^{2}$ 行代码的NAND-CIRC程序, 用于计算 $M UL T_{n}$ 函数. 实际上, 利用Karatsuba算法可以证明: 存在一个包含 $O (n^{l o g_{2} 3})$ 行代码的NAND-CIRC程序能够计算 $M UL T_{n}$ 函数(若采用更优算法, 还能实现更进一步的渐进性优化).

4.3 LOOKUP函数

$L OO K U P$ 函数将在本章及后续章节中扮演重要角色. 其定义如下:

定义 4.1 (查找函数). 对于每个 $k,$ $k$ 阶查找函数 $L OO K U P_{k} : {0, 1}^{2^{k} + k} \to {0, 1}$ 定义如下: 对于每个 $x \in {0, 1}^{2^{k}}$ 和 $i \in {0, 1}^{k},$ $L OO K U P_{k} (x, i) = x_{i}$ 其中 $x_{i}$ 表示 $x$ 的第 $i^{t h}$ 个条目, 使用二进制表示将 $i$ 识别为 ${0, \dots, 2^{k} - 1}$ 中的一个数字.

lookupfig

图 4.5. $L OO K U P_{k}$ 函数接受一个输入在 ${0, 1}^{2^{k} + k}$ 中, 我们将其表示为 $x, i$ (其中 $x \in {0, 1}^{2^{k}}$ 和 $i \in {0, 1}^{k}) .$ 输出是 $x_{i} :$ $x$ 的第 $i$ 个坐标, 其中我们使用二进制表示将 $i$ 识别为 $[k]$ 中的一个数字. 在上面的例子中 $x \in {0, 1}^{16}$ 和 $i \in {0, 1}^{4} .$ 由于 $i = 0110$ 是数字 $6$ 的二进制表示, 在这种情况下 $L OO K U P_{4} (x, i)$ 的输出是 $x_{6} = 1.$

对于 LOOKUP 函数的图示参见图 4.5. 事实证明, 对于每个 $k,$ 我们可以使用 NAND-CIRC 程序计算 $L OO K U P_{k} :$

定理 4.5 (查找函数). 对于每个 $k > 0,$ 存在一个 NAND-CIRC 程序计算函数 $L OO K U P_{k} : {0, 1}^{2^{k} + k} \to {0, 1} .$ 此外, 该程序的行数最多为 $4 \cdot 2^{k} .$

定理 4.5 的一个直接推论是, 对于每个 $k > 0,$ $L OO K U P_{k}$ 可以由一个布尔电路(使用 AND,OR 和 NOT 门)计算, 其门数最多为 $8 \cdot 2^{k} .$

4.3.1 为 $L OO K U P$ 构造一个NAND-CIRC程序

我们通过归纳法证明定理 4.5.

对于情况 $k = 1,$ $L OO K U P_{1}$ 将 $(x_{0}, x_{1}, i) \in {0, 1}^{3}$ 映射到 $x_{i} .$ 换句话说, 如果 $i = 0$ 则它输出 $x_{0},$ 否则它输出 $x_{1},$ (在变量重新排序后)这与第4.1.3节中提出的 $I F$ 函数相同, 该函数可以用一个4行 NAND-CIRC 程序计算.

作为一般情况的热身, 让我们考虑 $k = 2$ 的情况. 给定 $L OO K U P_{2}$ 的输入 $x = (x_{0}, x_{1}, x_{2}, x_{3})$ 和索引 $i = (i_{0}, i_{1}),$ 如果索引的最高有效位 $i_{0}$ 是 $0,$ 那么 $L OO K U P_{2} (x, i)$ 将等于 $x_{0}$ 如果 $i_{1} = 0,$ 并等于 $x_{1}$ 如果 $i_{1} = 1.$ 类似地, 如果最高有效位 $i_{0}$ 是 $1,$ 那么 $L OO K U P_{2} (x, i)$ 将等于 $x_{2}$ 如果 $i_{1} = 0,$ 并将等于 $x_{3}$ 如果 $i_{1} = 1.$ 另一种说法是, 我们可以将 $L OO K U P_{2}$ 写成如下形式:

def LOOKUP2(X[0],X[1],X[2],X[3],i[0],i[1]):
    if i[0]==1:
        return LOOKUP1(X[2],X[3],i[1])
    else:
        return LOOKUP1(X[0],X[1],i[1])

换言之

def LOOKUP2(X[0],X[1],X[2],X[3],i[0],i[1]):
    a = LOOKUP1(X[2],X[3],i[1])
    b = LOOKUP1(X[0],X[1],i[1])
    return IF( i[0],a,b)

更一般地, 如以下引理所示, 我们可以使用两次 $L OO K U P_{k - 1}$ 调用和一次 $I F$ 调用来计算 $L OO K U P_{k} :$

引理 4.1 (查找递归). 对于每个 $k \geq 2,$ $L OO K U P_{k} (x_{0}, \dots, x_{2^{k} - 1}, i_{0}, \dots, i_{k - 1})$ 等于

$I F (i_{0}, L OO K U P_{k - 1} (x_{2^{k - 1}}, \dots, x_{2^{k} - 1}, i_{1}, \dots, i_{k - 1}), L OO K U P_{k - 1} (x_{0}, \dots, x_{2^{k - 1} - 1}, i_{1}, \dots, i_{k - 1}))$

对引理 4.1的证明

如果 $i$ 的最高有效位 $i_{0}$ 为零, 那么索引 $i$ 在 ${0, \dots, 2^{k - 1} - 1}$ 中, 因此我们可以在 $x$ 的“前半部分“执行查找, 并且 $L OO K U P_{k} (x, i)$ 的结果将与 $a = L OO K U P_{k - 1} (x_{0}, \dots, x_{2^{k - 1} - 1}, i_{1}, \dots, i_{k - 1})$ 相同. 另一方面, 如果这个最高有效位 $i_{0}$ 等于 $1,$ 那么索引在 ${2^{k - 1}, \dots, 2^{k} - 1}$ 中, 在这种情况下, $L OO K U P_{k} (x, i)$ 的结果与 $b = L OO K U P_{k - 1} (x_{2^{k - 1}}, \dots, x_{2^{k} - 1}, i_{1}, \dots, i_{k - 1})$ 相同. 因此, 我们可以通过首先计算 $a$ 和 $b,$ 然后输出 $I F (i_{0}, b, a)$ 来计算 $L OO K U P_{k} (x, i) .$

基于引理 4.1 的定理 4.5 证明. 既然我们已经证明引理 4.1, 我们就可以完成定理 4.5 的证明. 我们将通过对 $k$ 归纳证明, 存在一个最多 $4 \cdot (2^{k} - 1)$ 行的 NAND-CIRC 程序用于计算 $L OO K U P_{k} .$ 对于 $k = 1,$ 这由我们之前见过的用于 $I F$ 的四行程序得出. 对于 $k > 1,$ 我们使用以下伪代码来计算:

a = LOOKUP_(k-1)(X[0],...,X[2^(k-1)-1],i[1],...,i[k-1])
b = LOOKUP_(k-1)(X[2^(k-1)],...,X[2^(k-1)],i[1],...,i[k-1])
return IF(i[0],b,a)

如果我们令 $L (k)$ 表示 $L OO K U P_{k}$ 所需的行数, 那么上述伪代码表明 $L (k) \leq 2 L (k - 1) + 4 . (4.1)$

由归纳假设, $L (k - 1) \leq 4 (2^{k - 1} - 1),$ 我们有 $L (k) \leq 2 \cdot 4 (2^{k - 1} - 1) + 4 = 4 (2^{k} - 1),$ 这正是我们想要证明的.

对于我们实现的 $L OO K U P_{k}$ 的实际行数图, 参见图 4.6.

lookuplinesfig

图 4.6. 我们实现的 LOOKUP_k 函数的行数关于 $k$ (即索引的长度) 的函数. 我们实现中的行数大约为 $3 \cdot 2^{k} .$

4.4 通用函数计算

此时, 关于 NAND-CIRC 程序(以及等价的布尔电路和其他等效模型), 我们知道以下事实:

它们至少可以计算一些非平凡函数.
为各种函数想出 NAND-CIRC 程序是一项非常繁琐的任务.

因此, 如果读者并不特别期待一长串可以由 NAND-CIRC 程序计算的函数示例, 这也是无可指摘的. 然而, 事实证明我们并不需要这样做, 因为我们可以一举证明 NAND-CIRC 程序可以计算 每一个 有限函数:

定理 4.6 (NAND 的通用性). 存在某个常数 $c > 0,$ 使得对于每个 $n, m > 0$ 和函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 都有一个最多 $c \cdot m 2^{n}$ 行的 NAND-CIRC 程序计算函数 $f .$

根据定理 3.5, NAND 电路, NAND-CIRC 程序, AON-CIRC 程序和布尔电路的模型都是彼此等价的, 因此定理 4.6 对所有这些模型都成立. 特别地, 以下定理等价于定理 4.6:

定理 4.7 (布尔电路的通用性). 存在某个常数 $c > 0,$ 使得对于每个 $n, m > 0$ 和函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 都有一个最多 $c \cdot m 2^{n}$ 个门的布尔电路计算函数 $f .$

重要启示

重要提示 4.2. 每个有限函数都能被一个足够大的布尔电路计算.

改进上界 尽管对我们不是特别重要, 但仍有可能改进定理 4.6的证明, 将其削弱 $n$ 倍, 同时优化常数 $c,$ 从而证明对每个 $ϵ > 0,$ $m \in N$ 和足够大的 $n,$ 若 $f : {0, 1}^{n} \to {0, 1}^{m},$ 则 $f$ 能被一个最多有 $(1 + ϵ) \frac{m \cdot 2 ^{n}}{n}$ 个门电路的NAND电路计算. 该结果的证明超出了本书的范畴, 但我们确实会讨论如何得到具有形式 $O (\frac{m \cdot 2 ^{n}}{n})$ 的上界. 参见第4.4.2节和杂记

4.4.1 NAND通用性的证明

为了证明定理 4.6, 我们需要为 每一个 可能的函数给出一个 NAND 电路, 或等价的 NAND-CIRC 程序.
我们将注意力限制在布尔函数的情况 (即 $m = 1) .$
习题 4.9 要求你扩展证明, 使其对 $m$ 的所有值成立.
一个函数 $F : {0, 1}^{n} \to {0, 1}$ 可以通过一个表来指定, 该表列出了它对每个 $2^{n}$ 输入的值.
例如, 下表描述了一个特定的函数 $G : {0, 1}^{4} \to {0, 1} :$ ²

输入 ( $x)$	输出 ( $G (x))$
$0000$	1
$0001$	1
$0010$	0
$0011$	0
$0100$	1
$0101$	0
$0110$	0
$0111$	1
$1000$	0
$1001$	0
$1010$	0
$1011$	0
$1100$	1
$1101$	1
$1110$	1
$1111$	1

表格: 函数 $G : {0, 1}^{4} \to {0, 1}$ 的一个示例.

对每个 $x \in {0, 1}^{4},$ $G (x) = L OO K U P_{4} (1100100100001111, x),$ 而下列则是使用LOOKUP_4过程语法糖来计算 $G$ 的NAND-CIRC “伪代码”.

G0000 = 1
G1000 = 1
G0100 = 0
...
G0111 = 1
G1111 = 1
Y[0] = LOOKUP_4(G0000,G1000,...,G1111,
                X[0],X[1],X[2],X[3])

我们可以通过添加三行代码来定义初始化为 $0$ 和 $1$ 的变量 zero 和 one, 从而将这些伪代码转换为实际的 NAND-CIRC 程序, 然后将诸如 Gxxx = 0 的语句替换为 Gxxx = NAND(one,one), 并将诸如 Gxxx = 1 的语句替换为 Gxxx = NAND(zero,zero). 对 LOOKUP_4 的调用将被替换为计算 $L OO K U P_{4}$ 的 NAND-CIRC 程序, 并插入相应的输入. 上述推理中没有任何部分是特定于上述函数 $G$ 的. 对于 每一个 函数 $F : {0, 1}^{n} \to {0, 1},$ 我们都可以编写一个 NAND-CIRC 程序来执行以下操作:

初始化 $2^{n}$ 个变量, 从 F00...0 到 F11...1, 使得对于每个 $z \in {0, 1}^{n},$ 与 $z$ 对应的变量被赋值为 $F (z) .$
在上一步初始化的 $2^{n}$ 个变量上计算 $L OO K U P_{n},$ 索引变量是输入变量 X[ $0$ ],…,X[ $n - 1$ ]. 也就是说, 就像上面 G 的伪代码一样, 我们使用 Y[0] = LOOKUP(F00..00,...,F11..1,X[0],..,X[ $n - 1$ ])

所得程序的总行数用于初始化变量的 $3 + 2^{n}$ 行代码, 加上我们为计算 $L OO K U P_{n}$ 所使用的 $4 \cdot 2^{n}$ 行. 这就完成了定理 4.6 的证明.

Info

备注 4.4 (对结果的观察). 虽然定理 4.6 起初看起来令人惊讶, 但回想起来, 每个有限函数都可以用 NAND-CIRC 程序计算可能并不那么令人吃惊. 毕竟, 一个有限函数 $F : {0, 1}^{n} \to {0, 1}^{m}$ 可以通过简单地列出其每个 $2^{n}$ 输入值的输出值来表示. 因此, 我们可以编写一个类似大小的 NAND-CIRC 程序来计算它, 这是合理的. 更有趣的是, 一些函数, 比如加法和乘法, 具有更高效的表示: 只需要 $O (n^{2})$ 或更少的行.

4.4.2 改进因子 $n$ (选读)

通过更加仔细的处理, 我们可以改进定理 4.6 的上界, 并证明每个函数 $F : {0, 1}^{n} \to {0, 1}^{m}$ 都可以由一个最多 $O (m 2^{n} / n)$ 行的 NAND-CIRC 程序计算. 换句话说, 我们可以证明以下改进版本:

定理 4.8 (NAND 电路的普遍性, 改进上界). 存在一个常数 $c > 0,$ 使得对于每个 $n, m > 0$ 和函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 都有一个最多 $c \cdot m 2^{n} / n$ 行的 NAND-CIRC 程序计算函数 $f .$ ³

对定理 4.8的证明

和之前一样, 证明 $m = 1$ 的情况就足够了. 因此, 我们令 $f : {0, 1}^{n} \to {0, 1},$ 我们的目标是证明存在一个 $O (2^{n} / n)$ 行的 NAND-CIRC 程序(或等价地, 一个 $O (2^{n} / n)$ 门的布尔电路)来计算 $f .$

我们令 $k = lo g (n - 2 lo g n)$ (这个选择背后的原因稍后会变得清晰). 我们定义函数 $g : {0, 1}^{k} \to {0, 1}^{2^{n - k}}$ 如下: $g (a) = f (a 0^{n - k}) f (a 0^{n - k - 1} 1) \dots f (a 1^{n - k}) .$

换句话说, 如果我们使用通常的二进制表示将数字 ${0, \dots, 2^{n - k} - 1}$ 等同于字符串 ${0, 1}^{n - k},$ 那么对于每个 $a \in {0, 1}^{k}$ 和 $b \in {0, 1}^{n - k},$ 有 $g (a)_{b} = f (ab) . (4.2)$

(4.2) 意味着对于每个 $x \in {0, 1}^{n},$ 如果我们写成 $x = ab,$ 其中 $a \in {0, 1}^{k}$ 和 $b \in {0, 1}^{n - k},$ 那么我们可以通过首先计算长度为 $2^{n - k}$ 的字符串 $T = g (a),$ 然后计算 $L OO K U P_{n - k} (T, b)$ 来检索 $T$ 中对应于 $b$ 位置的元素(参见图 4.8). 计算 $L OO K U P_{n - k}$ 的成本是 $O (2^{n - k})$ 行/门, 而计算 $f$ 的 NAND-CIRC 行(或布尔门)成本最多为 $cos t (g) + O (2^{n - k}), (4.3)$ 其中 $cos t (g)$ 是计算 $g$ 所需的操作数(即 NAND-CIRC 程序的行数或电路中的逻辑门数).

为了完成证明, 我们需要给出 $cos t (g)$ 的一个界. 由于 $g$ 是一个将 ${0, 1}^{k}$ 映射到 ${0, 1}^{2^{n - k}}$ 的函数, 我们也可以将其视为 $2^{n - k}$ 个函数 $g_{0}, \dots, g_{2^{n - k} - 1} : {0, 1}^{k} \to {0, 1}$ 的集合, 其中对于每个 $a \in {0, 1}^{k}$ 和 $i \in [2^{n - k}],$ 有 $g_{i} (x) = g (a)_{i} .$ (即 $g_{i} (a)$ 是 $g (a)$ 的第 $i$ 位.) 一个不成熟的想法是, 我们可以使用定理 4.6 以 $O (2^{k})$ 行计算每个 $g_{i},$ 但总行数为 $O (2^{n - k} \cdot 2^{k}) = O (2^{n}),$ 这并没有什么优化. 然而, 关键是观察到只有 $2^{2^{k}}$ 个不同的函数将 ${0, 1}^{k}$ 映射到 ${0, 1} .$ 例如, 如果 $g_{17}$ 与 $g_{67}$ 是相同的函数, 那意味着如果我们已经计算了 $g_{17} (a),$ 那么我们可以仅用常数次操作计算 $g_{67} (a) :$ 只需复制相同的值! 一般来说, 如果你有一个包含 $N$ 个函数 $g_{0}, \dots, g_{N - 1}$ 的集合, 每个函数将 ${0, 1}^{k}$ 映射到 ${0, 1},$ 其中最多有 $S$ 个不同的函数, 那么对于每个值 $a \in {0, 1}^{k},$ 我们可以使用最多 $O (S \cdot 2^{k} + N)$ 次操作计算所有 $N$ 个值 $g_{0} (a), \dots, g_{N - 1} (a)$ (参见图 4.7).

在我们的情况下, 由于最多有 $2^{2^{k}}$ 个不同的函数将 ${0, 1}^{k}$ 映射到 ${0, 1},$ 我们可以使用最多
$O (2^{2^{k}} \cdot 2^{k} + 2^{n - k}) (4.4)$ 次操作计算函数 $g$ (因此通过 (4.2) 计算出 $f) .$

现在剩下的就是将我们选择的 $k = lo g (n - 2 lo g n)$ 代入 (4.4). 根据定义, $2^{k} = n - 2 lo g n,$ 这意味着 (4.4) 可以被限制在某个上界内 $O (2^{n - 2 l o g n} \cdot (n - 2 lo g n) + 2^{n - l o g (n - 2 l o g n)}) \leq$

$O (\frac{2 ^{n}}{n ^{2}} \cdot n + \frac{2 ^{n}}{n - 2 l o g n}) \leq O (\frac{2 ^{n}}{n} + \frac{2 ^{n}}{0.5 n}) = O (\frac{2 ^{n}}{n})$ 这正是我们想要证明的. (我们在上面使用了对于足够大的 $n,$ 有 $n - 2 lo g n \geq 0.5 lo g n$ 的事实.)

computemanyfunctionsfig

图 4.7. 若 $g_{0}, \dots, g_{N - 1}$ 是一族从 ${0, 1}^{k}$ 到 ${0, 1}$ 的映射, 使得其中最多有 $S$ 个是互不相同的, 则对每个 $a \in {0, 1}^{k},$ 我们可以使用至多 $O (S \cdot 2^{k} + N)$ 操作来计算所有 $g_{0} (a), \dots, g_{N - 1} (a)$ 的值. 方法首先计算那些不同的函数, 再将结果值复制.

efficient_circuit_allfuncfig

图 4.8. 我们可以计算函数 $f : {0, 1}^{n} \to {0, 1}$ 在输入 $x = ab$ 上的值, 其中 $a \in {0, 1}^{k}$ 且 $b \in {0, 1}^{n - k},$ 方法是先计算长度为 $2^{n - k}$ 的字符串 $g (a),$ 该字符串对应于所有以 $a$ 开头的输入上 $f$ 的值, 再输出该字符串的第 $b$ 个坐标.

利用 NAND-CIRC 程序与布尔电路之间的联系, 定理 4.8 的一个直接推论是以下对定理 4.7 的改进:

定理 4.9 (布尔电路的普遍性, 改进界限). 存在某个常数 $c > 0,$ 使得对于每个 $n, m > 0$ 和函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 都存在一个最多具有 $c \cdot m 2^{n} / n$ 个门的布尔电路计算函数 $f .$

4.5 通用函数计算: 一个替代的证明

定理 4.7 是计算理论(和实践!)中的一个基本结果. 在本节中,我们将提出布尔电路可以计算每个有限函数这一基本事实的另一种证明. 这种替代证明在门数量上给出了稍差一些的定量界限, 但它的优点是更简单, 直接使用电路并避免了所有语法糖机制的使用. (然而,该机制本身是有用的,并将在以后找到其他应用.)

定理 4.10 (布尔电路的普遍性(替代表述)). 存在某个常数 $c > 0,$ 使得对于每个 $n, m > 0$ 和函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 都存在一个最多具有 $c \cdot m \cdot n 2^{n}$ 个门的布尔电路计算函数 $f .$

computeallfuncaltfig

图 4.9. 给定一个函数 $f : {0, 1}^{n} \to {0, 1},$ 我们令 ${x_{0}, x_{1}, \dots, x_{N - 1}} \subseteq {0, 1}^{n}$ 是满足 $f (x_{i}) = 1$ 的输入集合, 并要求 $N \leq 2^{n} .$ 我们可以将 $f$ 表示为 $δ_{x_{i}}$ 对于 $i \in [N]$ 的 OR,其中函数 $δ_{α} : {0, 1}^{n} \to {0, 1}$ (对于 $α \in {0, 1}^{n})$ 定义如下: $δ_{α} (x) = 1$ 当且仅当 $x = α .$ 我们可以使用 $N$ 个二输入 OR 门来计算 $N$ 个值的 OR. 因此,如果我们有一个大小为 $O (n)$ 的电路来计算每个 $α \in {0, 1}^{n}$ 的 $δ_{α}$ 值, 那么我们可以使用大小为 $O (n \cdot N) = O (n \cdot 2^{n})$ 的电路来计算 $f .$

对定理 4.10的证明思路

证明思路如图 4.9 所示. 如前所述, 关注 $m = 1$ 的情况(函数 $f$ 有单个输出)就足够了, 因为我们可以通过组合 $m$ 个电路(每个计算函数 $f$ 的不同输出位)来扩展到 $m > 1$ 的情况. 我们首先证明, 对于每个 $α \in {0, 1}^{n},$ 存在一个大小为 $O (n)$ 的电路来计算函数 $δ_{α} : {0, 1}^{n} \to {0, 1},$ 定义如下: $δ_{α} (x) = 1$ 当且仅当 $x = α$ (即 $δ_{α}$ 对除了 $α$ 以外的所有输入, 其输出为 $0) .$ 然后,我们可以将任何函数 $f : {0, 1}^{n} \to {0, 1}$ 写为最多 $2^{n}$ 个函数 $δ_{α}$ 的 OR,其中 $α$ 满足 $f (α) = 1.$

对定理 4.10的证明

我们针对 $m = 1$ 的情况证明这个定理. 结果可以像之前一样扩展到 $m > 1$ 的情况(另见习题 4.9). 令 $f : {0, 1}^{n} \to {0, 1} .$ 我们将通过以下步骤证明存在一个 $O (n \cdot 2^{n})$ 大小的布尔电路来计算 $f :$

我们证明对于每个 $α \in {0, 1}^{n},$ 存在一个 $O (n)$ 大小的电路来计算函数 $δ_{α} : {0, 1}^{n} \to {0, 1},$ 其中 $δ_{α} (x) = 1$ 当且仅当 $x = α .$
然后我们证明这说明了存在一个 $O (n \cdot 2^{n})$ 大小的电路来计算 $f,$ 通过将 $f (x)$ 写为所有使得 $f (α) = 1$ 的 $α \in {0, 1}^{n}$ 的 $δ_{α} (x)$ 的 OR. (如果 $f$ 是恒零函数, 因此没有这样的 $α,$ 那么我们可以使用电路 $f (x) = x_{0} \land \overline{x}_{0} .$ )

我们从步骤 1 开始:

断言: 对于 $α \in {0, 1}^{n},$ 定义 $δ_{α} : {0, 1}^{n}$ 如下:

$δ_{α} (x) = {10 x = α 否则 .$ $δ_{α} (x) = {10 x = α otherwise .$

那么存在一个使用最多 $2 n$ 个门的布尔电路来计算 $δ_{α} .$

断言证明: 证明如图 4.10 所示. 例如, 考虑函数 $δ_{011} : {0, 1}^{3} \to {0, 1} .$ 这个函数在 $x$ 上输出 $1$ 当且仅当 $x_{0} = 0,$ $x_{1} = 1$ 且 $x_{2} = 1,$ 因此我们可以写 $δ_{011} (x) = \overline{x_{0}} \land x_{1} \land x_{2},$ 这转化为一个有一个 NOT 门和两个 AND 门的布尔电路. 更一般地, 对于每个 $α \in {0, 1}^{n},$ 我们可以将 $δ_{α} (x)$ 表示为 $(x_{0} = α_{0}) \land (x_{1} = α_{1}) \land \dots \land (x_{n - 1} = α_{n - 1}),$ 其中如果 $α_{i} = 0$ 我们将 $x_{i} = α_{i}$ 替换为 $\overline{x_{i}},$ 如果 $α_{i} = 1$ 我们将 $x_{i} = α_{i}$ 替换为简单的 $x_{i} .$

这产生一个使用 $n$ 个 AND 门和最多 $n$ 个 NOT 门来计算 $δ_{α}$ 的电路, 因此总共最多需要 $2 n$ 个门. 现在对于每个函数 $f : {0, 1}^{n} \to {0, 1},$ 我们可以写出

$f (x) = δ_{x_{0}} (x) \lor δ_{x_{1}} (x) \lor \dots \lor δ_{x_{N - 1}} (x) (4.5)$

其中 $S = {x_{0}, \dots, x_{N - 1}}$ 是 $f$ 输出 $1$ 的输入集合.

(要观察到这一点, 你可以验证 (4.5) 的右边在 $x \in {0, 1}^{n}$ 上求值为 $1$ 当且仅当 $x$ 在集合 $S$ 中.) 因此, 我们可以使用最多 $2 n$ 个门的布尔电路来计算每个 $N$ 个函数 $δ_{x_{i}},$ 并结合最多 $N$ 个 OR 门, 从而获得一个最多 $2 n \cdot N + N$ 个门的电路. 由于 $S \subseteq {0, 1}^{n},$ 其大小 $N$ 最多为 $2^{n},$ 因此这个电路中门的总数是 $O (n \cdot 2^{n}) .$

deltafuncfig

图 4.10. 对每个字符串 $α \in {0, 1}^{n},$ 均有一个有着 $O (n)$ 个门的布尔电路可以计算函数 $δ_{α} : {0, 1}^{n} \to {0, 1},$ 其满足 $δ_{α} (x) = 1$ 当且仅当 $x = α .$ 这样一个电路非常简单. 给定输入 $x_{0}, \dots, x_{n - 1},$ 我们计算 $z_{0}, \dots, z_{n - 1}$ 的AND, 其中当 $α_{i} = 1$ 时 $z_{i} = x_{i},$ $α_{i} = 0$ 时 $z_{i} = NOT (x_{i}) .$ 虽然形式化的布尔电路只允许有两个输入计算 AND 函数的逻辑门, 我们可以通过组合 $n$ 个具有两个输入的 AND 门来获得具有 $n$ 个输入的 AND 门.

4.6 $S I Z E_{n, m} (s)$ 类

我们已经看到, 每个函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 都可以由一个大小为 $O (m \cdot 2^{n})$ 的电路计算, 并且一些函数(如加法和乘法)可以由更小的电路计算.

我们定义 $S I Z E_{n, m} (s)$ 为映射 $n$ 位到 $m$ 位的函数的集合, 这些函数可以由最多 $s$ 个门的 NAND 电路计算(或者等价地, 由最多 $s$ 行的 NAND-CIRC 程序计算). 形式化地, 其定义如下:

定义 4.2 (函数的规模类). 对于所有自然数 $n, m, s,$ 令 $S I Z E_{n, m} (s)$ 表示所有函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 的集合, 使得存在一个最多 $s$ 个门的 NAND 电路计算 $f .$ 我们用 $S I Z E_{n} (s)$ 表示集合 $S I Z E_{n, 1} (s) .$ 对于每个整数 $s \geq 1,$ 我们令 $S I ZE (s) = \cup_{n, m} S I Z E_{n, m} (s)$ 为所有函数 $f$ 的集合, 对于这些函数存在一个最多 $s$ 个门的 NAND 电路计算 $f .$

图 4.11 描绘了集合 $S I Z E_{n, 1} (s) .$ 注意 $S I Z E_{n, m} (s)$ 是函数的集合, 而不是程序的集合! 就像图 4.12 所示的那样, 询问一个程序或电路是否是 $S I Z E_{n, m} (s)$ 的成员是一种 类别错误!

正如我们在3.7.2节(和第2.6.1节)中讨论的, 程序和函数之间的区别是绝对关键的. 你应该始终记住, 虽然一个程序能计算一个函数, 但它并不等于一个函数. 特别是, 如我们所见, 可以有多个程序计算同一个函数.

funcvscircfig

图 4.11. 有 $2^{2^{n}}$ 个函数映射 ${0, 1}^{n}$ 到 ${0, 1},$ 以及无限多个具有 $n$ 位输入和单比特输出的电路. 每个电路计算一个函数, 但每个函数可以由许多电路计算. 如果计算 $f$ 的最小电路有 $s$ 个或更少的门, 我们说 $f \in S I Z E_{n, 1} (s) .$ 例如 $XO R_{n} \in S I Z E_{n, 1} (4 n) .$ 定理 4.6 表明_每个_函数 $g$ 都可以由某个最多 $c \cdot 2^{n} / n$ 个门的电路计算, 因此 $S I Z E_{n, 1} (c \cdot 2^{n} / n)$ 对应于从 ${0, 1}^{n}$ 到 ${0, 1}$ 的所有函数的集合.

虽然我们针对NAND门定义了 $S I Z E_{n} (s),$ 但如果我们针对AND/OR/NOT门定义它, 我们基本上会得到相同的类:

引理 4.2. 令 $S I Z E_{n, m}^{A ON} (s)$ 表示所有函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 的集合, 这些函数可以由最多 $s$ 个门的AND/OR/NOT布尔电路计算. 那么, $S I Z E_{n, m} (s /2) \subseteq S I Z E_{n, m}^{A ON} (s) \subseteq S I Z E_{n, m} (3 s)$

对引理 4.2的证明

如果 $f$ 可以由最多 $s /2$ 个门的NAND电路计算, 那么通过用NOT和AND两个门替换每个NAND门, 我们可以获得一个最多 $s$ 个门的AND/OR/NOT布尔电路来计算 $f .$ 另一方面, 如果 $f$ 可以由最多 $s$ 个门的布尔AND/OR/NOT电路计算, 那么根据定理 3.3 , 它可以由最多 $3 s$ 个门的NAND电路计算.

cucumberfig

图 4.12. “类别错误“是指诸如“黄瓜是偶数还是奇数?“这样甚至没有意义的问题. 在本书中, 您需要警惕的一种类别错误是混淆函数和程序 (即混淆规范和实现 ). 如果 $C$ 是一个电路或程序, 那么询问 $C \in S I Z E_{n, 1} (s)$ 是一个类别错误, 因为 $S I Z E_{n, 1} (s)$ 是一个函数的集合, 而不是程序或电路的集合.

我们在本章中所见到的结果可以被表述为证明 $A D D_{n} \in S I Z E_{2 n, n + 1} (100 n)$ 与 $M UL T_{n} \in S I Z E_{2 n, 2 n} (10000 n^{l o g_{2} 3}) .$ 定理 4.6 说明对于某个常数 $c,$ $S I Z E_{n, m} (c m 2^{n})$ 等于从 ${0, 1}^{n}$ 到 ${0, 1}^{m}$ 的所有函数的集合.

Info

备注 4.5 (有限与无限函数). 与诸如 Python 、C 或 JavaScript 等编程语言不同, NAND-CIRC 和 AON-CIRC 编程语言中没有数组. 一个 NAND-CIRC 程序 $P$ 有固定数量的输入和输出变量 $n$ 和 $m .$ 因此, 例如, 没有单个 NAND-CIRC 程序可以计算增量函数 $I NC : {0, 1}^{*} \to {0, 1}^{*},$ 该函数将字符串 $x$ (我们通过二进制表示将其视为数字)映射到表示 $x + 1$ 的字符串. 相反, 对于每个 $n > 0,$ 存在一个 NAND-CIRC 程序 $P_{n},$ 它计算函数 $I NC$ 限制到长度为 $n$ 的输入 $I N C_{n} .$ 由于可以证明对于每个 $n > 0,$ 这样的程序 $P_{n}$ 存在且长度最多为 $10 n,$ 因此对于每个 $n > 0,$ $I N C_{n} \in S I Z E_{n, n + 1} (10 n) .$

目前, 我们的重心将放在有限函数上, 但我们将在后面的第13.6节中讨论如何将大小复杂度的定义扩展到具有无界输入长度的函数.

Question

练习 4.1 ( $S I ZE$ 在补集下封闭).

在这个练习中, 我们证明规模类 $S I Z E_{n} (s)$ 的一个“闭包性质“. 也就是说, 我们证明如果 $f$ 在这个类中, 那么(至多有某个小的加法项) $f$ 的补集也在该类中, 其中补集函数是 $g (x) = 1 - f (x) .$

证明存在一个常数 $c,$ 使得对于每个 $f : {0, 1}^{n} \to {0, 1}$ 和 $s \in N,$ 如果 $f \in S I Z E_{n} (s)$ 则 $1 - f \in S I Z E_{n} (s + c) .$

对练习 4.1的解答

如果 $f \in S I Z E_{n} (s),$ 那么存在一个 $s$ 行 NAND-CIRC 程序 $P$ 计算 $f .$ 我们可以将 $P$ 中的变量 Y[0] 重命名为 temp, 并在最后添加一行

Y[0] = NAND(temp,temp)

来获得一个计算 $1 - f$ 的程序 $P^{'} .$

本章回顾

我们可以通过一个简化的“编程语言“来定义计算函数的概念, 其中在 $T$ 步内计算函数 $F$ 对应于拥有一个 $T$ 行的 NAND-CIRC 程序来计算 $F .$
虽然 NAND-CIRC 编程只有一种操作, 但其他操作如函数和条件执行可以使用它来实现.
每个函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 都可以由一个最多 $O (m 2^{n})$ 个门的电路计算(实际上最多 $O (m 2^{n} / n)$ 个门).
我们有时(或者总是?)可以将计算 $f$ 的高效算法翻译成一个电路, 该电路计算 $f$ 的门数量与算法中的步数相当.

4.7 习题

Question

习题 4.1 (配对). 本练习要求你给出一个从 $N^{2}$ 到 $N$ 的一一映射. 这可以在只有一维数组的编程语言中实现二维数组作为“语法糖“.

证明映射 $F (x, y) = 2^{x} 3^{y}$ 是一个从 $N^{2}$ 到 $N$ 的一一映射.
证明存在一个一一映射 $F : N^{2} \to N,$ 使得对于每个 $x, y,$ 有 $F (x, y) \leq 100 \cdot max {x, y}^{2} + 100.$
对于每个 $k,$ 证明存在一个一一映射 $F : N^{k} \to N,$ 使得对于每个 $x_{0}, \dots, x_{k - 1} \in N,$ 有 $F (x_{0}, \dots, x_{k - 1}) \leq 100 \cdot (x_{0} + x_{1} + \dots + x_{k - 1} + 100 k)^{k} .$

Question

习题 4.2 (计算 MUX). 证明下面的 NAND-CIRC 程序计算函数 $M U X$ (或 $L OO K U P_{1}),$ 其中 $M U X (a, b, c)$ 在 $c = 0$ 时等于 $a,$ 在 $c = 1$ 时等于 $b :$

t = NAND(X[2],X[2])
u = NAND(X[0],t)
v = NAND(X[1],X[2])
Y[0] = NAND(u,v)

Question

习题 4.3 (至少两个/多数). 给出一个最多 6 行的 NAND-CIRC 程序来计算函数 $M A J : {0, 1}^{3} \to {0, 1},$ 其中 $M A J (a, b, c) = 1$ 当且仅当 $a + b + c \geq 2.$

Question

习题 4.4 (条件语句). 在这个练习中, 我们将探索定理 4.2 : 将使用诸如 if .. then .. else .. 代码的 NAND-CIRC-IF 程序转换为标准的 NAND-CIRC 程序.

给出定理 4.2 的“代码证明“: 用你选择的编程语言编写一个程序, 将 NAND-CIRC-IF 程序 $P$ 转换为一个“无糖“的 NAND-CIRC 程序 $P^{'},$ 计算相同的函数. 参见脚注提示.⁴
证明以下陈述, 这是定理 4.2 的核心: 假设存在一个 $s$ 行 NAND-CIRC 程序计算 $f : {0, 1}^{n} \to {0, 1}$ 和一个 $s^{'}$ 行 NAND-CIRC 程序计算 $g : {0, 1}^{n} \to {0, 1} .$ 证明存在一个最多 $s + s^{'} + 10$ 行的 NAND-CIRC 程序计算函数 $h : {0, 1}^{n + 1} \to {0, 1},$ 其中 $h (x_{0}, \dots, x_{n - 1}, x_{n})$ 在 $x_{n} = 0$ 时等于 $f (x_{0}, \dots, x_{n - 1}),$ 否则等于 $g (x_{0}, \dots, x_{n - 1}) .$ (本项中的所有程序都是标准的“无糖“ NAND-CIRC 程序.)

Question

习题 4.5 (半加器和全加器).

一个 半加器 是对应于两个二进制位相加的函数 $H A : {0, 1}^{2} :\to {0, 1}^{2},$ 也就是说, 对于每个 $a, b \in {0, 1},$ $H A (a, b) = (e, f)$ 其中 $2 e + f = a + b .$ 证明存在一个最多五个 NAND 门的 NAND 电路计算 $H A .$
一个 全加器 是函数 $F A : {0, 1}^{3} \to {0, 1}^{2},$ 它接受两个位和一个“进位“位, 并输出它们的和. 也就是说, 对于每个 $a, b, c \in {0, 1},$ $F A (a, b, c) = (e, f)$ 使得 $2 e + f = a + b + c .$ 证明存在一个最多九个 NAND 门的 NAND 电路计算 $F A .$
证明如果有一个 $c$ 门 NAND 电路计算 $F A,$ 那么有一个 $c n$ 门电路计算 $A D D_{n},$ 其中(如定理 4.3) $A D D_{n} : {0, 1}^{2 n} \to {0, 1}^{n + 1}$ 是输出两个输入 $n$ 位数字加法的函数. 参见脚注提示.⁵
证明对于每个 $n,$ 有一个最多 $9 n$ 行的 NAND-CIRC 程序计算 $A D D_{n} .$

习题 4.6 (加法). 使用你最喜欢的编程语言编写一个程序,该程序在输入整数 $n$ 时,输出一个计算 $A D D_{n}$ 的 NAND-CIRC 程序.你能确保它为 $A D D_{n}$ 输出的程序少于 $10 n$ 行吗?

习题 4.7 (乘法). 使用你最喜欢的编程语言编写一个程序,该程序在输入整数 $n$ 时,输出一个计算 $M UL T_{n}$ 的 NAND-CIRC 程序.你能确保它为 $M UL T_{n}$ 输出的程序少于 $1000 \cdot n^{2}$ 行吗?

习题 4.8 (高效乘法 (挑战)). 使用你最喜欢的编程语言编写一个程序,该程序在输入整数 $n$ 时,输出一个计算 $M UL T_{n}$ 的 NAND-CIRC 程序,并且最多有 $10000 n^{1.9}$ 行.⁶ 你能用多少行来相乘两个 2048 位数字?

习题 4.9 (多比特函数). 在文本定理 4.6 中,只证明了 $m = 1$ 的情况. 在这个练习中,你将扩展证明到每个 $m .$

证明:

如果有一个 $s$ 行 NAND-CIRC 程序计算 $f : {0, 1}^{n} \to {0, 1}$ 和一个 $s^{'}$ 行 NAND-CIRC 程序计算 $f^{'} : {0, 1}^{n} \to {0, 1},$ 那么有一个 $s + s^{'}$ 行程序计算函数 $g : {0, 1}^{n} \to {0, 1}^{2},$ 使得 $g (x) = (f (x), f^{'} (x)) .$
对于每个函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 有一个最多 $10 m \cdot 2^{n}$ 行的 NAND-CIRC 程序计算 $f .$ (你可以使用定理 4.6 在 $m = 1$ 的情况与第1.题)

习题 4.10 (使用语法糖简化). 设 $P$ 为以下 NAND-CIRC 程序:

Temp[0] = NAND(X[0],X[0])
Temp[1] = NAND(X[1],X[1])
Temp[2] = NAND(Temp[0],Temp[1])
Temp[3] = NAND(X[2],X[2])
Temp[4] = NAND(X[3],X[3])
Temp[5] = NAND(Temp[3],Temp[4])
Temp[6] = NAND(Temp[2],Temp[2])
Temp[7] = NAND(Temp[5],Temp[5])
Y[0] = NAND(Temp[6],Temp[7])

编写一个程序 $P^{'},$ 最多三行代码,使用 NAND 以及语法糖 OR,计算与 $P$ 相同的函数.
绘制一个电路,计算与 $P$ 相同的函数,并仅使用 $A N D$ 和 $NOT$ 门.

在以下练习中,要求你比较每对编程语言的 表达能力. 当我们说 “比较” 两个编程语言 $X$ 和 $Y$ 的 “表达能力” 时, 我们指的是确定分别使用 $X$ 和 $Y$ 中的程序可计算的函数集之间的关系. 也就是说, 要回答该问题, 你需要同时完成以下两项:

要么证明对于 $X$ 中的每个程序 $P,$ 都有 $Y$ 中的一个程序 $P^{'}$ 计算与 $P$ 相同的函数, 要么给出一个函数示例,该函数可由 $X$ -程序计算但不可由 $Y$ -程序计算.

和

要么证明对于 $Y$ 中的每个程序 $P,$ 都有 $X$ 中的一个程序 $P^{'}$ 计算与 $P$ 相同的函数, 要么给出一个函数示例,该函数可由 $Y$ -程序计算但不可由 $X$ -程序计算.

当你给出上述示例,即一个函数在一种编程语言中可计算但在另一种中不可计算时,你需要证明你展示的函数 (1) 在第一种编程语言中可计算,并且 (2) 在第二种编程语言中 不可计算.

习题 4.11 (比较 IF 和 NAND). 设 IF-CIRC 为编程语言,其中有以下操作 foo = 0, foo = 1, foo = IF(cond,yes,no) (即,我们可以使用常量 $0$ 和 $1,$ 以及函数 $I F : {0, 1}^{3} \to {0, 1},$ 使得如果 $a = 1$ 则 $I F (a, b, c)$ 等于 $b,$ 如果 $a = 0$ 则等于 $c) .$ 比较 NAND-CIRC 编程语言和 IF-CIRC 编程语言的表达能力.

习题 4.12 (比较 XOR 和 NAND). 设 XOR-CIRC 为编程语言,其中有以下操作 foo = XOR(bar,blah), foo = 1 和 bar = 0 (即,我们可以使用常量 $0,$ $1$ 和函数 $XOR,$ 它将 $a, b \in {0, 1}^{2}$ 映射到 $a + b mod 2) .$ 比较 NAND-CIRC 编程语言和 XOR-CIRC 编程语言的表达能力.参见脚注中的提示.⁷

习题 4.13 (多数函数的电路). 证明存在某个常数 $c,$ 使得对于每个 $n > 1,$ $M A J_{n} \in S I Z E_{n} (c n),$ 其中 $M A J_{n} : {0, 1}^{n} \to {0, 1}$ 是 $n$ 个输入比特上的多数函数.即 $M A J_{n} (x) = 1$ 当且仅当 $\sum_{i = 0}^{n - 1} x_{i} > n /2.$ 参见脚注中的提示.⁸

习题 4.14 (阈值函数的电路). 证明存在某个常数 $c,$ 使得对于每个 $n > 1,$ 和整数 $a_{0}, \dots, a_{n - 1}, b \in {- 2^{n}, - 2^{n} + 1, \dots, - 1, 0, + 1, \dots, 2^{n}},$ 有一个最多 $n^{c}$ 个门的 NAND 电路计算阈值函数 $f_{a_{0}, \dots, a_{n - 1}, b} : {0, 1}^{n} \to {0, 1},$ 该函数在输入 $x \in {0, 1}^{n}$ 时输出 $1$ 当且仅当 $\sum_{i = 0}^{n - 1} a_{i} x_{i} > b .$

4.8 杂记

关于电路的更广泛讨论, 请参阅 Jukna 和 Wegener 的著作 Jukna, 2012, Wegener, 1987. Shannon 证明了每个布尔函数都可以由指数级大小的电路计算 Shannon, 1938. 改进的 $c \cdot 2^{n} / n$ 界(对于许多基, $c$ 是最优值)归功于 Lupanov Lupanov, 1958. 关于 NAND 情况(其中 $c = 1)$ 的阐述可以在他的著作 Lupanov, 1984 的第 4 章中找到. (感谢 Sasha Golovnev 追踪到这个参考文献!)

“语法糖“的概念也称为“宏“或“元编程”, 有时通过编程语言或文本编辑器中的预处理器或宏语言实现. 一个现代例子是 Babel JavaScript 语法转换器, 它将使用最新特性编写的 JavaScript 程序转换为旧版浏览器可以接受的格式. 它甚至有一个插件架构, 允许用户将自己的语法糖添加到语言中.

1: $c$ 的值可优化至 $9,$ 具体参见习题 4.5.

2: 如果你好奇的话, 该函数的作用是, 在输入 $i \in {0, 1}^{4}$ (我们将其解释为 $[16]$ 中的一个数字) 时, 输出 $π$ 在二进制下的第 $i$ 位.

3: 这个定理中的常数 $c$ 最多为 $10$ 并且实际上可以任意接近 $1,$ 参见杂记.

4: 你可以先从将 $P$ 转换为使用过程语句的 NAND-CIRC-PROC 程序开始, 然后使用样例 4.2 的代码将后者转换为“无糖“的 NAND-CIRC 程序.

5: 使用一个逐位相加的“级联“, 从最低有效位开始, 就像小学算法一样.

6: 提示: 使用 Karatsuba 算法.

7: 你可以使用以下事实: $(a + b) + c mod 2 = a + b + c mod 2.$ 特别地,这意味着如果你有行 d = XOR(a,b) 和 e = XOR(d,c),那么 e 得到变量 a, b 和 c 在模 $2$ 意义下的和.

8: 解决这个问题的一种方法是使用递归和所谓的主定理.

数据即代码, 代码即数据

数据即代码, 代码即数据

学习目标

理解计算中的最重要概念之一: 代码与数据的二元性.
逐步熟悉程序的不同表示形式之间的转换.
学习构建一个“通用电路求值器”, 能够根据给定表示执行其他电路.
认识与上一章结论相辅相成的重要成果: 某些函数需要 指数级 数量的门电路才能实现.
探讨 在物理意义上的Church-Turing论题 –该论题指出布尔电路可以建模物理世界中所有可行的计算, 并分析其背后的物理学原理与哲学意涵.

“密码脚本”这一术语显然过于狭隘. 染色体结构同时是实现它们所预示的发展的工具——它们既是法律条文又是执行权力, 或者用另一个比喻来说, 它们同时是建筑师的设计图和施工者的技艺.

——埃尔温·薛定谔(Erwin Schrödinger), 1944年

“数学家几乎不会将64种四个单元的三联体组合与二十种其他单元之间的对应关系称为‘普适’, 而这种对应很可能是地球生命最根本的普遍特征. “

——米沙·格罗莫夫(Misha Gromov), 2013年

程序就是由一系列符号组成的序列, 每个符号都可以通过(例如)ASCII标准编码为由 $0$ 和 $1$ 组成的字符串. 因此, 我们可以将每个NAND-CIRC程序(进而每个布尔电路)表示为二进制字符串. 这个论断看似浅显, 实则意义深远–它意味着我们既可以将电路或NAND-CIRC程序视为执行计算的指令, 也可以将其视为可能被其他计算用作输入的数据 .

重要启示

重要提示 5.1.

程序是文本的一种形式, 因此可以作为其他程序的输入.

这种代码与数据的对应关系是计算科学最根本的特性之一. 它构成了通用计算机概念的基础(使计算机不需要预先布线即可执行不同任务), 也为实现通用人工智能的愿景提供了理论支撑. 这一理念从脚本语言到机器学习等计算领域都有广泛应用, 但客观而言, 人类尚未完全掌握其精髓. 许多安全漏洞(如图 5.1所示的“缓冲溢出”案例)正是由于攻击者成功在系统仅预期接收“被动”数据的位置注入了可执行的代码. 代码与数据的关联性甚至超越了电子计算机的范畴: 例如DNA即可被视为程序也可被视为数据(正如薛定谔在DNA发现前出版的著作所言–这部著作后来启发了沃森与克里克–DNA同时承载着“建筑师的设计图”与“施工者的工艺”).

XKCDmomexploitsfig

图 5.1. 正如这部xkcd漫画所阐释的, 包括缓冲溢出、SQL注入在内的诸多漏洞利用技术, 正是利用了“动态程序“与“静态字符串“之间模糊的界限

简要概述

阅读本章, 我们希望读者能够有以下收获:

本章将初步探讨代码与数据对应关系的多种应用.
我们将首先通过将程序/电路表示为字符串的方式, 统计特定规模内的程序/电路数量, 并借此获得与第4章结论相对应的成果——第四章我们证明了所有函数都可以通过电路计算, 但该电路可能具有指数级规模(具体界限见定理 4.7). 本章将证明某些函数确实无法突破这个限制: 计算这些函数的最小电路必然具有指数级规模.
我们还将利用程序/电路字符串化表示的概念, 证明“通用电路“的存在性——即能够对其他电路求值的电路. 在编程语言领域, 这被称为“自循环解释器“: 用某编程语言编写的能评估同语言其他程序的程序. 这些结论存在重要限制: 通用电路的规模必须大于其评估的电路. 我们将在第7章引入循环和 图灵机 时展示如何突破这一限制.
本章成果概览参见图 5.2.

codedataoverviewfig

图 5.2. 本章结论概要. 通过将程序/电路表示为字符串, 我们推导出两个主要结论: 首先证明通用程序/电路的存在性, 且经过深化论证可知其规模最多为被执行的程序/电路规模的多项式倍; 继而利用字符串表示统计特定规模程序/电路的数量, 据此证实某些函数需要 指数级别 的代码行数/逻辑门数才能实现计算

5.1 将程序表示为字符串

tapemarkI

图 5.3. 在哈佛Mark I计算机中, 程序是由一系列数字三元组来表示的, 这些数字三元组又由打孔纸板来表示

我们可以用无数种方式将程序或电路表示为字符串. 例如, 由于布尔电路是带标签的有向无环图, 我们可以使用邻接矩阵或邻接表来表示它们. 然而, 由于程序代码本质上只是字母和符号的序列, 可以说程序在概念上最简单的表示就是这样的序列. 例如, 以下NAND-CIRC程序 $P :$

temp_0 = NAND(X[0],X[1])
temp_1 = NAND(X[0],temp_0)
temp_2 = NAND(X[1],temp_0)
Y[0] = NAND(temp_1,temp_2)

本质上是一个包含107个符号的字符串, 这些符号包括大小写字母、数字、下划线_、等号=、标点符号(如“(”、“)”、“,”)、空格以及“换行”标记(通常表示为“\n”或“↵”). 每个这样的符号都可以通过ASCII编码用7位二进制字符串表示, 因此程序 $P$ 可以被编码为一个长度为 $7 \cdot 107 = 749$ 位的字符串.

上述讨论中没有任何内容是特定于程序 $P$ 的, 因此我们可以用相同的推理证明每个 NAND-CIRC程序都可以表示为 $0, 1^{*}$ 中的字符串. 实际上, 我们可以做得更好. 由于NAND-CIRC程序的工作变量名称不会影响其功能, 我们总是可以将程序转换为 $P^{'}$ 的形式, 其中除输入和输出之外的所有变量都具有temp_0、temp_1、temp_2等形式. 此外, 如果程序有 $s$ 行, 我们永远不需要使用大于 $3 s$ 的索引(因为每行最多涉及三个变量), 同样地, 输入和输出变量的索引也都不会超过 $3 s .$ 由于0到 $3 s$ 之间的数字最多可以用 $⌈ lo g_{10} (3 s + 1)⌉ = O (lo g s)$ 位数字表示, 程序中的每一行(形式为foo = NAND(bar,blah))可以用 $O (1) + O (lo g s) = O (lo g s)$ 个符号表示, 每个符号又可以用7位表示. 因此, 一个 $s$ 行程序可以表示为 $O (s lo g s)$ 位组成的字符串, 由此得到以下定理:

定理 5.1 (将程序表示为字符串).

在一个常数 $c,$ 使得对于 $f \in S I ZE (s),$ 存在一个计算 $f$ 的程序 $P,$ 其字符串表示的长度最多为 $cs lo g s .$

暂停一下

我们省略了定理 5.1的正式证明, 但请确保你理解为什么它可以从上述推理中得出.

5.2 程序数量统计与NAND-CIRC程序规模下界

将程序表示为字符串的必然结果是: 特点长度的程序数量受限于可表示它们的字符串数量. 这一结论对我们4.6节定义的集合 $S I Z E_{n, m} (s)$ 具有重要意义.

定理 5.2 (程序计数定理).:

对于任意 $s, n, m \in N,$ $S I Z E_{n, m} (s) \leq 2^{O (s l o g s)} .$

这意味着最多存在 $2^{O (s l o g s)}$ 个函数可由不超过 $s$ 行的NAND-CIRC程序计算. ¹

对定理 5.2的证明

对于任意 $n, m \in N,$ 我们将构造一个从 $S I Z E_{n, m} (s)$ 到长度为 $cs lo g s$ 的字符串集合的单射映射 $E$ (其中 $c$ 为常数). 这将完成证明, 因为该证明表明 $∣ S I Z E_{n, m} (s) ∣$ 小于长度至多为 $ℓ = cs lo g s$ 的所有字符串集合的规模. 根据等比数列求和公式, 后一个集合的规模为 $1 + 2 + 4 + \dots + 2^{ℓ} = 2^{ℓ + 1} - 1.$

映射 $E$ 将简单地把函数 $f$ 映射到计算 $f$ 的最小程序表示. 由于 $f \in S I Z E_{n, m} (s),$ 根据定理 5.1, 存在一个最多 $s$ 行的程序 $P,$ 其字符串表示长度不超过 $cs lo g s .$ 此外, 映射 $f \mapsto E (f)$ 是单射, 因为对于任意不同的函数 $f, f^{'} : {0, 1}^{n} \to {0, 1}^{m},$ 必然存在某个输入为 $x \in {0, 1}^{n}$ 使得 $f (x) \neq = f^{'} (x) .$ 这意味着分别计算 $f$ 和 $f^{'}$ 的程序不可能完全相同.

定理 5.2有一个重要推论: 可用小型电路/程序计算的函数数量远少于函数总数, 因此必然存在需要非常大规模(实际上是 指数级规模 )电路才能计算的函数. 理解这一点需要注意: 映射 ${0, 1}^{2}$ 到 ${0, 1}$ 可由其在输入 $00, 01, 10, 11$ 上的四个值唯一确定;映射 ${0, 1}^{3}$ 到 ${0, 1}$ 的函数可尤其在输入 $000, 001, 010, 011, 100, 101, 110, 111$ 上的八个值唯一确定. 更一般地, 每个函数 $F : {0, 1}^{n} \to {0, 1}$ 都可等同于其在 ${0, 1}^{n}$ 上 $2^{n}$ 个取值组成的列表. 因此, 映射 ${0, 1}^{n}$ 到 ${0, 1}$ 的函数数量等于可能存在的 $2^{n}$ 长度取值列表的数量, 即 $2^{2^{n}} .$ 注意这是关于 $n$ 的双重指数函数, 因此即使对于较小的 $n$ 值(比如 $n = 10),$ 从 ${0, 1}^{n}$ 到 ${0, 1}$ 的函数数量也是真正的天文数字. ²如前所述, 这引出了如下推论:

定理 5.3 (计数论证下界).

存在常数 $δ > 0,$ 使得对于所有足够大的 $n,$ 必然存在函数 $f : {0, 1}^{n} \to {0, 1}$ 满足 $f \in / S I Z E_{n} (\frac{δ 2 ^{n}}{n}) .$ 也就是说, 计算 $f$ 的最短NAND-CIRC程序需要超过 $δ \cdot 2^{n} / n$ 行. ³

对定理 5.3的证明

证明相当简单. 令 $c$ 为满足 $∣ S I Z E_{n} (s) ∣ \leq 2^{cs l o g s}$ 的常数, 且设 $δ = 1/ c,$ 则当 $s = δ 2^{n} / n$ 时, 有: $∣ S I Z E_{n} (\frac{δ 2 ^{n}}{n}) ∣ \leq 2^{c \frac{δ 2 ^{n}}{n} l o g s} < 2^{cδ 2^{n}} = 2^{2^{n}}$ 这里利用了 $s < 2^{n}$ 时 $lo g s < n$ 以及 $δ = 1/ c$ 的事实. 由于 $∣ S I Z E_{n} (s) ∣$ 小于从 $n$ 比特映射到1比特的函数总数, 必然存在至少一个函数不属于 $S I Z E_{n} (s),$ 这正是我们需要证明的结论.

我们此前已经知道: 每个从 ${0, 1}^{n}$ 映射到 ${0, 1}$ 的函数都可由 $O (2^{n} / n)$ 行程序计算. 定理 5.3表明了该界限是紧的, 因为某些函数确实需要如此天文数字的行数才能计算.

重要启示

重要提示 5.2. 某些函数 $f : {0, 1}^{n} \to {0, 1}$ 无法通过门电路数量少于 $n$ 的指数级的布尔电路来计算.

事实上, 正如习题中所探讨的, 大多数函数都属于这种情况. 因此, 能用少量代码行数计算的功能(如加法、乘法、图上的最短路径算法, 甚至 $E V A L$ 函数)只是例外而非普遍规律.

Info

备注 5.1 (更高效的表示方法, 高级可选内容). id=“r54” ASCII表示并非NAND-CIRC程序的最短表示形式. NAND-CIRC程序等价于带NAND门的电路, 这意味着具有 $s$ 行、 $n$ 个输入和 $m$ 个输出的NAND-CIRC程序可用包含 $s + n$ 个顶点的标记有向图表示, 其中 $n$ 个顶点的入度为零, 其余 $s$ 个顶点的入度至多为二. 使用此类图的邻接矩阵表示, 我们可以将定理 5.2中的隐常数降低到任意接近5的值, 详见习题 5.6.

5.2.1 规模层次定理(可选)

由定理 4.8有 $S I Z E_{n} (10 \cdot 2^{n} / n)$ 包含了所有由 ${0, 1}^{n}$ 到 ${0, 1}$ 的函数, 而由定理 5.3, 存在一些没有包含在 $S I Z E_{n} (0.1 \cdot 2^{n} / n)$ 中的函数 $f : {0, 1}^{n} \to {0, 1} .$ 换而言之, 对于充分大的 $n,$ 有

$S I Z E_{n} (0.1 \frac{2 ^{n}}{n}) ⊊ S I Z E_{n} (10 \frac{2 ^{n}}{n})$

可以发现我们可以使用定理 5.3来展示一个更加一般的结论: 当我们增加我们门电路的“预算”的时候, 我们就能计算新的函数.

定理 5.4 (规模层次定理).

对于所有充分大的 $n$ 和 $10 n < s < 0.1 \cdot 2^{n} / n,$ 有 $S I Z E_{n} (s) ⊊ S I Z E_{n} (s + 10 n)$

对定理 5.4的证明思路

为了证明这个定理, 我们需要找到一个函数 $f : {0, 1}^{n} \to {0, 1},$ 使得该函数可以由 $s + 10 n$ 个门的电路计算, 但不能被 $s$ 个门的电路计算. 为此, 我们将构筑一个函数序列 $f_{0}, f_{1}, f_{2}, \dots, f_{N},$ 其满足以下性质: (1) $f_{0}$ 最多可以用 $10 n$ 个门的电路计算; (2) $f_{N}$ 无法用 $0.1 \cdot 2^{n} / n$ 个门的电路计算;(3) 对每个 $i \in {0, \dots, N},$ 若 $f_{i}$ 可用规模为 $s$ 的电路计算, 则 $f_{i + 1}$ 最多可用规模为 $s + 10 n$ 的电路计算. 这些性质共同表明: 若令 $i$ 是满足 $f_{i} \in / S I Z E_{n} (s)$ 的最小下标, 则由于 $f_{i - 1} \in S I Z E_{n} (s),$ 必然有 $f_{i} \in S I Z E_{n} (s + 10 n),$ 这正是我们需要证明的结论. 示意图见图 5.4.

hierarchyprooffig

图 5.4. 我们通过构造函数列表 $f_{0}, \dots, f_{2^{n}}$ 来证明定理 5.4, 其中 $f_{0}$ 是全零函数, $f_{2^{n}}$ 是(由定理 5.3得到的)不在 $S I Z E_{n} (0.1 \cdot 2^{n} / n)$ 中的函数, 且满足 $f_{i - 1}$ 与 $f_{i}$ 最多在一个输入上存在差异. 可以证明: 对每个 $i,$ 计算 $f_{i}$ 所需的门数最多比计算 $f_{i - 1}$ 多 $10 n$ 个. 因此若令 $i$ 是满足 $f_{i} \neq \in S I Z E_{n} (s)$ 的最小下标, 则 $f_{i} \in S I Z E_{n} (s + 10 n)$

对定理 5.4的证明

设 $f^{*} : {0, 1}^{n} \to {0, 1}$ 是由定理 5.3保证存在的函数, 且满足 $f^{*} \in / S I Z E_{n} (0.1 \cdot 2^{n} / n) .$ 我们定义函数序列 $f_{0}, f_{1}, \dots, f_{2^{n}} : {0, 1}^{n} \to {0, 1}$ 如下: 对任意 $x \in {0, 1}^{n},$ 若 $l e x (x) \in {0, 1, \dots, 2^{n} - 1}$ 是 $x$ 在字典序中的编号, 则 $f_{i} (x) = {f^{*} (x) 0 l e x (x) < i otherwise$ 函数 $f_{0}$ 是常值零函数, 而 $f_{2^{n}}$ 等于 $f^{*} .$ 此外, 对每个 $i \in [2^{n}],$ 函数 $f_{i}$ 与 $f_{i + 1}$ 最多在一个输入上存在差异(即满足 $l e x (x) = i$ 的输入 $x \in {0, 1}^{n}) .$

设 $10 n < s < 0.1 \cdot 2^{n} / n,$ 并令 $i$ 是满足 $f_{i} \in / S I Z E_{n} (s)$ 的最小下标. 由于 $f_{2^{n}} = f^{*} \in / S I Z E_{n} (0.1 \cdot 2^{n} / n),$ 这样的下标 $i$ 必然存在, 且因常值零函数属于 $S I Z E_{n} (10 n),$ 故 $i > 0.$

根据 $i$ 的选取, $f_{i - 1}$ 属于 $S I Z E_{n} (s) .$ 为完成证明, 需要证明 $f_{i} \in S I Z E_{n} (s + 10 n) .$ 令 $x^{*}$ 是满足 $l e x (x^{*}) = i$ 的字符串, $b \in {0, 1}$ 为 $f^{*} (x^{*})$ 的值. 则 $f_{i}$ 也可定义为 $f_{i} (x) = {b f_{i - 1} (x) x = x^{*} x \neq = x^{*}$ 即 $f_{i} (x) = I F (EQ U A L (x^{*}, x), b, f_{i - 1} (x))$ 其中 $EQ U A L : {0, 1}^{2 n} \to {0, 1}$ 是将 $x, x^{'} \in {0, 1}^{n}$ 映射到 $1$ (若两者相等)或 $0$ (否则)的函数. 由 $i$ 的选取可知, $f_{i - 1}$ 最多可用 $s$ 个门计算, 且易证 $EQ U A L \in S I Z E_{n} (9 n),$ 因此 $f_{i}$ 最多可用 $s + 9 n + O (1) \leq s + 10 n$ 个门计算, 命题得证.

sizeclassesfig

图 5.5. 关于规模复杂度类已知结论的示意图(未按比例绘制). 该图描绘了形如 $S I Z E_{n, n} (s)$ 的类, 但其他规模复杂度类(如 $S I Z E_{n, 1} (s))$ 的情况类似. 由定理4.12(结合4.4.2节的改进)可知: 所有 $n$ 比特到 $n$ 比特的函数都可由规模为 $c \cdot 2^{n}$ ( $c \leq 10)$ 的电路计算; 另一方面, 计数下界(定理 5.3, 另见习题 5.4)表明某些函数需要 $0.1 \cdot 2^{n}$ 个门; 规模分层定理(定理 5.4)则证明当 $s = o (S)$ 时必然存在属于 $S I Z E_{n} (S) ∖ S I Z E_{n} (s)$ 的函数, 另见习题 5.5.

我们还考虑了一些具体示例: 两个 $n /2$ 比特数的加法可在 $O (n)$ 线路中完成, 而两个 $n$ 比特数的乘法目前尚无此类程序, 但已知可在 $O (n^{2})$ 甚至更优规模内完成. 上图中的 $F A CTO R_{n}$ 对应乘法的逆问题——求给定整数的质因数分解. 目前尚未发现任何具有多项式(甚至次指数)级别线路数量的电路能计算 $F A CTO R_{n} .$

Info

备注 5.2 (显式函数). 虽然规模分层定理保证了存在某些函数(例如) 可以用 $n^{2}$ 个门计算但不能用 $100 n$ 个门计算, 但我们尚未找到这类函数的显式案例. 尽管我们怀疑整数乘法属于此类, 但目前尚无证明.

5.3 元组表示

ASCII码能很好地呈现程序, 但对某些应用场景而言, 采用更具体的NAND-CIRC程序表示方法更为实用. 本节将介绍一种便于后续使用的特定表示方案.

NAND-CIRC程序本质上是由若干行如下形式的语句构成的序列:

blah = NAND(baz,boo)

变量命名本身并不具有特殊性. 尽管可读性会降低, 但我们完全可以仅使用temp_0、temp_1等工作变量来编写所有程序. 因此, 我们的NAND-CIRC程序表示法将忽略变量实际名称, 转而采用为每个变量分配编号的方案. 我们将程序中的每一行编码为数字三元组. 若某行形式为foo = NAND(bar,blah), 则将其编码为三元组 $(i, j, k),$ 其中 $i$ 对应变量foo的编号, $j$ 和 $k$ 分别对应bar和blah的编号.

具体而言, 我们将为每个变量分配集合 $[t] = 0, 1, \dots, t - 1$ 中的唯一编号. 前 $n$ 个数字 $0, \dots, n - 1$ 对应输入变量, 最后 $m$ 个数字 $t - m, \dots, t - 1$ 对应输出变量, 中间数字 $n, \dots, t - m - 1$ 则对应剩余的“工作区“变量. 形式化定义如下:

定义 5.1 (元组列表表示法).

设 $P$ 是一个具有 $n$ 个输入、 $m$ 个输出、 $s$ 行代码的NAND-CIRC程序, $t$ 是该程序使用的不同变量总数. 则 $P$ 的元组列表表示是一个三元组 $(n, m, L),$ 其中 $L$ 是由 $[t]$ 集合中数字构成的三元组 $(i, j, k)$ 组成的列表.

变量编号分配规则如下:

对任意 $i \in [n],$ 变量X[ $i$ ]被赋予编号 $i$
对任意 $j \in [m],$ 变量Y[ $j$ ]被赋予编号 $t - m + j$
其余变量按照在程序 $P$ 中出现的顺序, 依次被赋予 $n, n + 1, \dots, t - m - 1$ 中的编号

元组列表表示法是我们在表示NAND-CIRC程序时默认采用的方案. 鉴于“元组列表表示法“这个名称略显冗长, 我们通常直接称其为程序的“表示法“. 当输入数量 $n$ 和输出数量 $m$ 可通过上下文明确时, 我们有时会直接用列表 $L$ 而非三元组 $(n, m, L)$ 来表示程序.

样例 5.1 (异或程序的表示). 我们熟悉的计算异或函数的NAND-CIRC程序:

u = NAND(X[0],X[1])
v = NAND(X[0],u)
w = NAND(X[1],u)
Y[0] = NAND(v,w)

可表示为元组 $(2, 1, L),$ 其中 $L = ((2, 0, 1), (3, 0, 2), (4, 1, 2), (5, 3, 4)) .$ 具体而言: 变量X[0]和X[1]分别被赋予编号 $0$ 和 $1,$ 变量u, v, w分别被赋予编号 $2, 3, 4,$ 变量Y[0]被赋予编号 $5.$

将NAND-CIRC程序从代码表示转换为元组列表表示是一项直观的编程任务, 仅需几行Python代码即可实现⁴. 虽然元组列表表示法会丢失变量命名等信息, 但这并不影响程序功能, 因此完全可接受.

5.3.1 从元组到字符串

如果程序 $P$ 的规模为 $s,$ 则其变量数量 $t$ 最多为 $3 s$ (因为每行代码最多涉及三个变量). 因此我们可以通过补前导零的方式, 将每个在 $[t]$ 范围内的变量索引编码为长度为 $ℓ = ⌈ lo g (3 s) ⌉$ 的字符串. 由于这是定长编码, 自然满足无前缀性, 因此我们可以将 $s$ 个三元组组成的列表 $L$ (对应程序的 $s$ 行编码)简单地表示为所有编码连接而成的长度为 $3 ℓ s$ 的字符串.

我们定义 $S (s)$ 为表示规模 $s$ 程序对应列表 $L$ 的字符串长度. 由上述推导可得:

$S (s) = 3 s ⌈ lo g (3 s) ⌉ (5.1)$

我们可以通过将 $n$ 和 $m$ 的无前缀表示作为前缀附加到列表 $L$ 之前, 从而将 $P = (n, m, L)$ 表示为字符串. 由于 $n, m \leq 3 s$ (程序必须至少涉及其所有输入和输出变量各一次), 这些无前缀表示可以用长度为 $O (lo g s)$ 的字符串进行编码. 特别地, 每个最多包含 $s$ 行代码的程序 $P$ 都可以用长度为 $O (s lo g s)$ 的字符串表示. 类似地, 每个最多包含 $s$ 个逻辑门的电路 $C$ 也可用长度为 $O (s lo g s)$ 的字符串表示(例如通过将 $C$ 转换为等效程序 $P$ 实现).

5.4 使用NAND-CIRC实现的NAND-CIRC程序解释器

既然程序可以表示为字符串, 我们亦可将程序本身作为一个函数的输入. 更具体地, 对于每个自然数 $s, n, m > 0$ 我们定义函数 $E V A L_{s, n, m} : {0, 1}^{S (s) + n} \to {0, 1}^{m}$ 如下: $E V A L_{s, n, m} (p x) = ⎩ ⎨ ⎧ P (x) 0^{m} p \in {0, 1}^{∣ S (s) ∣} 表示一个大小为 s 的, 有 n 个输入和 m 个输出的程序 P 其他情况 (5.2)$ 其中 $S (s)$ 已在(5.1)中定义, 同时, 我们使用在5.1节中介绍的具体表示方案.

换而言之, $E V A L_{s, n, m}$ 接受两个字符串的拼接作为输入: 字符串 $p \in {0, 1}^{∣ S (s) ∣}$ 和字符串 $x \in {0, 1}^{n} .$ 若 $p$ 是表示三元组列表 $L$ 的字符串, 且 $(n, m, L)$ 是某个规模为 $s$ 的NAND-CIRC程序 $P$ 的元组列表表示, 则 $E V A L_{s, n, m} (p x)$ 等于程序 $P$ 在输入 $x$ 的求值结果 $P (x) .$ 否则, $E V A L_{s, n, m} (p x)$ 等于 $0^{m}$ (这种情况并不重要, $0^{m}$ 只是表示错误的“垃圾值”).

核心要点: $E V A L_{s, n, m}$ 定义的具体细节并不重要, 但以下要点需要记忆:

$E V A L_{s, n, m}$ 是一个有限函数, 接受固定长度的字符串作为输入, 并输出固定长度的字符串.
$E V A L_{s, n, m}$ 是单一函数, 计算该函数可对任意固定长度的NAND-CIRC的程序在对应长度下的任意输入进行求值.
$E V A L_{s, n, m}$ 是一个函数, 而非程序(回忆3.7.2节中的讨论). 即 $E V A L_{s, n, m}$ 是描述输入与输出对应关系的规范. 是否存在计算 $E V A L_{s, n, m}$ 的程序(即该函数的实现)是一个独立问题, 需要另行证明(我们将在定理 5.5中实现, 并在定理 5.6中给出更高效的程序).

本书中我们将首次遇到的自我循环的示例是以下定理, 可将其理解为“用NAND-CIRC实现的NAND-CIRC解释器”:

定理 5.5 (NAND-CIRC程序的有界通用性).

对于所有满足 $s \geq m$ 的 $s, n, m \in N,$ 存在一个计算函数 $E V A L_{s, n, m}$ 的NAND-CIRC程序 $U_{s, n, m} .$

也就是说, NAND-CIRC程序 $U_{s, n, m}$ 能够接受任何其他NAND-CIRC程序(需满足特定长度和输入/输出要求)的描述以及任意输入 $x,$ 并计算程序 $P$ 在输入 $x$ 下的结果. 根据NAND-CIRC程序与布尔电路的等价性, 我们也可以将 $U_{s, n, m}$ 视为一个接受其他电路描述及其输入, 并返回其求值结果的电路(参见图 5.6). 我们将这个计算、 $E V A L_{s, n, m}$ 的NAND-CIRC程序 $U_{s, n, m}$ 称为有界通用程序(或通用电路, 参见图 5.6). “通用”意味着这是一个可以执行任意代码的单一程序, 而“有界”表示 $U_{s, n, m}$ 仅能评估有限规模的程序. 当然这种限制是NAND-CIRC编程语言固有的, 因为一个 $s$ 行的程序(或等效的 $s$ 个门的电路)最多只能接受 $2 s$ 个输入. 后续在第7章中, 我们将引入循环的概念(以及图灵机模型), 从而突破这一限制.

对定理 5.5的证明

定理 5.5是一个重要结果, 但其证明实际上并不困难. 具体而言, 由于 $E V A L_{s, n, m}$ 是一个有限函数, 定理 5.5是定理 4.6的直接推论, 后者表明每个有限函数都可以由某个 NAND-CIRC程序计算.

暂停一下

定理 5.5简洁但重要. 请确保您理解该定理的含义, 以及它为何是定理 4.6的推论.

universalcircfig

图 5.6. 通用电路 $U$ 是一种电路, 它接收任意(较小)电路 $P$ 的二进制字符串描述作为输入, 同时接收输入 $x,$ 并输出字符串 $P (x)$ ——即电路 $P$ 在输入 $x$ 上的求值结果. 我们也可以将 $U$ 视为一个直线程序: 它接收另一个直线程序 $P$ 的代码及输入 $x,$ 最终输出 $P (x)$ 的计算结果

5.4.1 高效通用程序

定理 5.5虽然确立了存在计算函数 $E V A L_{s, n, m}$ 的NAND-CIRC程序, 但并未明确限定该程序规模的边界. 我们用于证明定理4.9的定理 5.5仅能保证存在一个规模可能达到输入长度指数级的NAND-CIRC程序. 这意味着即使对于中等规模的 $s, n, m$ 参数(例如 $n = 100, s = 300, m = 1),$ 计算 $E V A L_{s, n, m}$ 所需的NAND程序行数甚至可能超过可观测宇宙中的原子数量! 幸运的是, 我们能够实现比这好得多的方案. 事实上, 对于任意 $s, n, m,$ 都存在一个输入长度为多项式级规模的NAND-CIRC程序可计算 $E V A L_{s, n, m},$ 如下述定理所示:

定理 5.6 (NAND-CIRC程序的高效有界通用性).

对于每个 $s, n, m \in N,$ 存在一个最多包含 $O (s^{2} lo g s)$ 行代码的NAND-CIRC程序, 可计算上述定义的函数 $E V A L_{s, n, m} : {0, 1}^{S + n} \to {0, 1}^{m}$ (其中 $S$ 表示用二进制表示 $s$ 行的程序时所需要的位数).

暂停一下

若你尚未接触相关内容, 建议此时回顾1.4.8节中关于大 $O$ 表示法的说明. 需要特别指出的是, 定理 5.6的等价表述为: 存在常数 $c > 0,$ 使得对于任意 $s, n, m \in N,$ 都存在一个最多包含 $c s^{2} lo g s$ 行代码的NAND-CIRC程序 $P$ 可计算函数 $E V A L_{s, n, m} .$

与定理 5.5不同, 定理 5.6并非“任意有限函数均可用电路计算”这一事实的平凡推论. 证明定理 5.6需要构造一个具体的NAND-CIRC程序来计算 $E V A L_{s, n, m}$ 函数, 我们将通过以下阶段实现:

首先用“伪代码”描述计算 $E V A L_{s, n, m}$ 的算法流程;
随后展示如何用Python编写实现该函数的程序(无需深入掌握Python知识, 任何具备编程语言基础的读者都能理解);
最终演示如何将此Python程序转化为NAND-CIRC程序.

这种方法不仅证明了定理 5.6, 更揭示了重要规律: 我们总是可以将Python等高级语言的(无循环)代码转化为NAND-CIRC程序(进而转化为布尔电路).

5.4.2 “伪代码”形式的NAND-CIRC解释器

要证明定理 5.6, 只需给出一个具有 $O (s^{2} lo g s)$ 行代码的NAND-CIRC程序, 该程序能够计算包含 $s$ 行代码的NAND-CIRC程序. 首先思考: 若不受限于仅执行NAND操作, 我们应如何计算此类程序? 换而言之, 我们将非正式地描述一个算法: 当输入 $n, m, s$ 、三元组列表 $L$ 以及字符串 $x \in 0, 1^{n}$ 时, 该算法能计算由 $(n, m, L)$ 表示的程序在输入 $x$ 上的输出.

暂停一下

强烈建议你在此暂停并尝试独立解决该问题. 例如, 可思考如何用你熟悉的编程语言编写函数NANDEVAL(n,m,s,L,x)来实现该函数.

接下来我们将描述这样的算法. 假设我们拥有一个位数组数据结构, 可为每个 $i \in [t]$ 存储位 $T_{i} \in 0, 1 .$ 具体而言, 若变量Table存储此数据结构, 则我们假定能执行以下操作:

GET(Table,i): 获取Table中索引i对应的位. 其中i为 $[t]$ 范围内的整数.
Table = UPDATE(Table,i,b): 更新Table使其索引i对应的位变为b. 其中i为 $[t]$ 范围内的整数, b为 $0, 1$ 中的位.

算法 5.1 (执行NAND-CIRC程序).

$输入 : 数字 (n, m, s) 与 (t \leq 3 s), 与输出 : 程序的执行结果, 由 Let Vartable be table of size t for {i in [n]} Vartable = UPDATE(Vartable, i,, x_{i}) endfor for {i, j, k in L} a \leftarrow GET(Vartable, j) b \leftarrow GET(Vartable, k) Vartable = UPDATE(Vartable, i NAND(a, b)) endfor for {j in [m]} y_{j} \leftarrow GET(Vartable, (t - m + j)) endfor return (y_{0}, \dots, y_{m - 1})$

算法 5.1通过逐行计算输入程序, 并更新Vartable以记录每个变量的值. 在执行结束时, 它输出索引位置 $t - m, t - m + 1, \dots, t - 1$ 对应的变量(这些变量对应程序的输出变量).

5.4.3 Python实现的NAND解释器

为了使内容更加具体, 我们来看如何在Python语言中实现算法 5.1. (选择Python并无特殊意义, 我们同样可以轻松地使用JavaScript、C、OCaml或其他任何编程语言实现相应函数. )我们将构建一个函数NANDEVAL, 该函数在输入 $n, m, L, x$ 时, 会输出由 $(n, m, L)$ 所表示的程序在 $x$ 上的求值结果. 为简化说明, 我们暂不考虑 $L$ 不能表示具有 $n$ 个输入和 $m$ 个输出的有效程序的情况. 具体代码展示于图 5.7中.

图 5.7.

def NANDEVAL(n,m,L,X):
    # 执行一个由元组列表表示的NAND-CIRC程序
    s = len(L) # 行数
    t = max(max(a,b,c) for (a,b,c) in L)+1 # L + 1中的最大编号
    Vartable = [0] * t # 初始化变量表

    # 辅助函数
    def GET(V,i): return V[i]
    def UPDATE(V,i,b):
        V[i]=b
        return V

    # 加载输入值到变量表
    for i in range(n):
        Vartable = UPDATE(Vartable,i,X[i])

    # 执行程序
    for (i,j,k) in L:
        a = GET(Vartable,j)
        b = GET(Vartable,k)
        c = NAND(a,b)
        Vartable = UPDATE(Vartable,i,c)

    # 返回输出 Vartable[t-m], Vartable[t-m+1],....,Vartable[t-1]
    return [GET(Vartable,t-m+j) for j in range(m)]

# 在XOR上测试(2个输入, 1个输出)
L = ((2, 0, 1), (3, 0, 2), (4, 1, 2), (5, 3, 4))
print(NANDEVAL(2,1,L,(0,1))) # XOR(0,1)
# [1]
print(NANDEVAL(2,1,L,(1,1))) # XOR(1,1)
# [0]

访问数组Vartable中特定索引处的元素仅需常数次基本操作. 因此(由于 $n, m \leq s$ 且 $t \leq 3 s),$ 上述程序将执行 $O (s)$ 量级的基本操作. ⁵

5.4.4 用NAND-CIRC构建NAND-CRIC解释器

现在我们来阐述定理 5.6的证明. 要证明该定理, 仅提供一个Python程序是不够的. 我们需要展示如何通过NAND-CIRC程序计算函数 $E V A L_{s, n, m} .$ 换言之, 我们的任务是为每一组 $s, n, m,$ 将5.4.3节中的Python代码转换为能计算函数 $E V A L_{s, n, m}$ 的NAND-CIRC程序 $U_{s, n, m} .$

暂停一下

在继续阅读之前, 请思考你将如何给出{{ref:thm:eff-bounded-univ}的“构造性证明”. 也就是说, 思考如何用你选择的编程语言编写函数universal(s,n,m), 使其在输入 $s, n, m$ 时输出能计算 $E V A L_{s, n, m}$ 的NAND-CIRC程序 $U_{s, n, m}$ 的代码. 这个函数与前述Python程序NANDEVAL存在微妙但关键的差异: 函数universal并非实际执行给定程序 $P$ 对输入 $w$ 的求值, 而是输出一个能计算映射关系 $(P, x) \mapsto P (x)$ 的NAND-CIRC程序代码.

我们的构造将紧密遵循前文中EVAL的Python实现. 我们将使用变量Vartable[ $0$ ], $\dots,$ Vartable[ $2^{ℓ} - 1$ ](其中 $ℓ = ⌈ lo g 3 s ⌉)$ 来存储变量. 但NAND不具备整数值变量, 因此我们不能编写类似Vartable[i]的代码(其中i为变量). 然而, 我们可以实现函数GET(Vartable,i)来输出数组变量表的第i位——这实质上正是我们在定理 4.5中见过的 $L OO K U P_{ℓ}$ 函数!

暂停一下

请确保你理解为何GET函数与 $L OO K U P_{ℓ}$ 是等价的.

我们已知, 对于选择的 $ℓ,$ 可以在 $O (2^{ℓ}) = O (s)$ 时间内计算 $L OO K U P_{ℓ} .$

对于每个 $ℓ,$ 令 $U P D A T E_{ℓ} : 0, 1^{2^{ℓ} + ℓ + 1} \to 0, 1^{2^{ℓ}}$ 对应长度为 $2^{ℓ}$ 数组的UPDATE函数. 即对于输入 $V \in 0, 1^{2^{ℓ}},$ $i \in 0, 1^{ℓ},$ $b \in 0, 1,$ $U P D A T E_{ℓ} (V, i, b)$ 等于满足以下条件的 $V^{'} \in 0, 1^{2^{ℓ}} :$

$V_{j}^{'} = {V_{j} b j \neq = i j = i$

其中我们将字符串 $i \in 0, 1^{ℓ}$ 通过二进制表示视为 $0, \dots, 2^{ℓ} - 1$ 中的数字. 我们可以通过 $O (2^{ℓ} ℓ) = (s lo g s)$ 行NAND-CIRC程序计算 $U P D A T E_{ℓ},$ 具体如下:

对于每个 $j \in [2^{ℓ}],$ 存在一个 $O (ℓ)$ 行NAND-CIRC程序来计算函数 $EQUALS_{j} : 0, 1^{ℓ} \to 0, 1,$ 该函数在输入 $i$ 时当且仅当 $i$ 等于 $j$ 的二进制表示时输出 $1$ (验证工作留作习题 5.2和习题 5.3).
我们已知可以计算函数 $IF : {0, 1}^{3} \to {0, 1},$ 使得 $IF (a, b, c)$ 在 $a = 1$ 时输出 $b,$ 在 $a = 0$ 时输出 $c .$

综合以上两点, 我们可以通过以下方式计算UPDATE函数(使用有限循环的语法糖):

def UPDATE_ell(V,i,b):
    # 输入: V[0]...V[2^ell-1], i ∈ {0,1}^ell, b ∈ {0,1}
    # 输出: NewV[0],...,NewV[2^ell-1]
    # 更新后的数组满足NewV[i]=b, 其余位置与V相同
    for j in range(2**ell): # j = 0,1,2,...,2^ell -1
        a = EQUALS_j(i)
        NewV[j] = IF(a,b,V[j])
    return NewV

由于UPDATE函数中的循环j会运行 $2^{ℓ}$ 次, 且计算 $EQUALS_{j}$ 需要 $O (ℓ)$ 行代码, 因此计算UPDATE的总行数为 $O (2^{ℓ} \cdot ℓ) = O (s lo g s) .$ 一旦我们能计算GET和UPDATE函数, 剩余的实现主要是需要仔细处理的“簿记工作”, 但这并不需要深度的理解, 因此我们省略完整细节. 由于我们运行GET和UPDATE函数 $s$ 次, 计算 $E V A L_{s, n, m}$ 的总行数为 $O (s^{2}) + O (s^{2} lo g s) = O (s^{2} lo g s) .$ 至此(除省略的细节外), 我们完成了定理 5.6的证明.

Info

备注 5.3 (改进至准线性开销(高级可选笔记)).

上述NAND-CIRC程序比其Python版本效率低, 因为NAND不支持能够进行高效随机访问的数组. 例如, 对 $s$ 位数组的查找操作在NAND中需要 $Ω (s)$ 行代码, 而在Python中仅需 $O (1)$ 步(或可能为 $O (lo g s)$ 步, 取决于计数方式).

事实上, 可以改进定理 5.6的界限, 使用 $O (s lo g s)$ 行NAND-CIRC程序来求值 $s$ 行NAND-CIRC程序. 关键在于将NAND-CIRC程序的描述视为电路, 特别是视为有界入度的有向无环图(DAG). 用于 $s$ 行程序的通用NAND-CIRC程序 $U_{s}$ 将对应于此类 $s$ 顶点DAG的通用图 $H_{s} .$ 我们可以将此类图 $U_{s}$ 视为通信网络的固定“布线”, 它应能适应 $s$ 个顶点之间任意可能的通信模式(该模式对应一个 $s$ 行NAND-CIRC程序). 事实证明, 存在高效的路由网络, 允许将任何 $s$ 顶点电路嵌入到大小为 $O (s lo g s)$ 的通用图中, 更多内容请参阅第5.9节.

5.5 用NAND-CIRC实现Python解释器(讨论)

为了证明定理 5.6, 我们实际上将Python程序EVAL的每一行代码都转换为了等价的NAND-CIRC代码片段. 不过, 我们的推理过程并不特定于 $E V A L$ 这个具体函数. 实际上, 我们可以将每一个Python程序都转换为具有可比效率的等价NAND-CIRC程序. (更具体地说, 如果Python程序在长度不超过 $n$ 的输入上执行 $T (n)$ 次操作, 那么存在一个 $O (T (n) lo g T (n))$ 行数的NAND-CIRC程序, 能在长度为 $n$ 的输入上与Python程序产生相同输出. )虽然具体实现需要处理大量细节并超出本书范围, 但请允许我说明为何你应该相信这在原理上是可行的.

首先, 我们可以使用CPython(Python的参考实现), 通过C程序来执行任意Python程序. 再结合C编译器, 就能将Python程序转换为多种“机器语言“. 因此, 要将Python程序转化为等价的NAND-CIRC程序, 只需证明如何将机器语言程序转换为等价的NAND-CIRC程序. ARM架构就是一类极简(因此相当便利)的机器语言, 它驱动着包括几乎所有安卓设备在内的移动设备. ⁶还存在更简单的机器语言, 例如为LLVM编译器用于实现后端的LEG架构(因此可以编译该编译器支持的大量且不断增长的语言列表中的任何语言). 其他例子包括受交互式证明系统(我们将在第22章介绍它们)启发的TinyRAM架构, 以及面向教学的超级简易计算机架构. 逐一处理这些计算机的指令集并将其转换为NAND片段虽枯燥但可行. 实际上, 这最终与将高级代码转换为实际硅门电路的过程非常相似, 而硅门操作与NAND-CIRC程序的操作并无太大差异. 事实上, 像MyHDL这样实现“从Python到硅芯片转换”的工具, 就可以用于将Python程序转换为NAND-CIRC程序.

NAND-CIRC编程语言仅是一种教学工具, 我绝对没有表示编写NAND-CIRC程序或编译器是一种实用、有用或令人愉悦的活动. 但我希望你理解为何这能够实现, 并确保在紧要关头(至少为了你的成绩), 你有信心完成这项任务. 理解Python等高级语言程序如何最终转换为NAND这样的具体底层表示, 是计算机科学的基础.

敏锐的读者可能注意到, 上述段落仅说明了为何可能为每个特定Python可计算函数 $f$ 找到具有可比效率的特定NAND-CIRC程序 $P$ 来计算 $f .$ 但这似乎与我们编写“用NAND实现的Python解释器”的目标仍有距离——这意味着对于每个参数 $n,$ 我们需要给出一个单一的NAND-CIRC程序 $U N I V_{s},$ 使得在给定Python程序 $P$ 的描述、特定输入 $x$ 以及操作步数上限 $T$ (其中 $P$ 和 $x$ 的长度以及 $T$ 的值均不超过 $s$ 时), 该程序能返回 $P$ 在 $x$ 上最多执行 $T$ 步的结果. 毕竟, 上述转换将每个Python程序转化为不同的NAND-CIRC程序, 并未产生能够评估所有Python程序的“万能NAND-CIRC程序”. 然而, 我们实际上可以获得一个能执行任意Python程序的单一NAND-CIRC程序. 原因在于存在用Python编写的Python解释器: 即一个能读取比特串、将其解释为Python代码并执行的Python程序 $U .$ 因此, 我们只需要展示一个能计算与特定Python程序 $U$ 相同功能的NAND-CIRC程序 $U^{*},$ 就能获得执行所有Python程序的方法.

我们反复看到的是计算的通用性或自引用概念, 即所有足够丰富的计算模型都足以“模拟自身”. 这种现象对计算理论和实践(以及远超出该领域的范畴, 包括数学基础和科学基本问题)的重要性, 无论如何强调都不为过.

5.6 物理扩展Church-Turing论题(讨论)

我们已经看到, NAND门(和其他布尔运算)在物理世界中可以通过截然不同的系统实现. 那么其反方向呢? 即NAND-CIRC程序能否模拟任何物理计算机?

我们可以踏出大胆的一步并规定: 布尔电路(或其等价的NAND-CIRC程序)确实囊括了我们能想到的所有计算. 这个关于无限函数的陈述(我们将在第7章中遇到)通常归功于Alonzo Church和Alan Turing, 故我们将其称为Church-Turing论题. 正如我们将在后续课程中讨论的, Church-Turing论题并非数学定理或猜想, 而是像物理学理论一样, 是对现实世界的数学建模. 在有限函数的语境下, 我们可以提出如下非正式的猜想或预测:

物理扩展Church-Turing命题(Physical Extended Church-Turing Thesis, PECTT)

如果一个函数 $F : {0, 1}^{n} \to {0, 1}^{m}$ 在物理世界中可以用 $s$ 单位的“物理资源”计算, 那么它也能通过大致 $s$ 个门的布尔电路程序计算.

先验地看, 假设我们简陋的NAND-CIRC程序或布尔电路模型能捕获所有可能的物理计算可能显得极端. 但一个多世纪以来, 在计算技术的发展中, 尚未有人构建出任何可扩展的计算设备来挑战这一假设.

现在我们更详细地讨论PECTT的“细则”, 以及迄今为止针对它提出的(未成功的)挑战. 对于“大致 $s$ 物理资源”这一表述并无普遍认同的形式化定义, 但我们可以通过考虑物理计算设备的尺寸和计算输出所需的时间来近似这一概念, 并要求任何此类设备都能被布尔电路模拟, 其门数量是系统尺寸和运行时间的多项式(指数不太大).

换句话说, 我们可以将PECTT表述为: 任何可由占用空间体积 $V$ 、耗时 $t$ 完成计算的设备计算的函数, 必须也能由门数为 $p (V, t)$ 的布尔函数电路计算, 其中 $p (V, t)$ 是关于 $V$ 和 $t$ 的多项式.

函数 $p (V, t)$ 的具体形式并未达成普遍共识, 但广泛接受的是, 如果 $f : {0, 1}^{n} \to {0, 1}$ 是一个指数级困难的函数(即其NAND-CIRC程序行数不少于 $2^{n /2}),$ 那么展示一个能在现实世界中计算中等输入长度(如 $n = 500)$ 的 $f$ 的物理设备, 将违反PECTT.

Info

备注 5.4 (具体化 PECTT(高级, 可选)).

我们可以尝试更精确地将PECTT表述如下: 假设有一个物理系统 $Z,$ 接受 $n$ 个二进制刺激并产生二进制输出, 且可被容纳于体积为 $V$ 的球体内. 我们说系统 $Z$ 在 $t$ 秒内计算函数 $f : {0, 1}^{n} \to {0, 1},$ 是指当我们将刺激设置为某个值 $x \in {0, 1}^{n}$ 时, 如果在 $t$ 秒后测量输出, 会得到 $f (x) .$

那么, PECTT 可以表述为: 如果存在这样的系统 $Z$ 在 $t$ 秒内计算 $F,$ 则存在一个计算 $F$ 的NAND-CIRC程序, 其行数最多为 $α (V t)^{2},$ 其中 $α$ 是某个归一化常数. (我们也可以考虑使用表面积而非体积, 或将 $(V t)$ 的幂次改为 2 以外的值, 但这些选择不会对以下讨论产生定性影响. )特别地, 假设 $f : {0, 1}^{n} \to {0, 1}$ 是一个函数, 任何NAND-CIRC程序都需要至少 $2^{n} / (100 n) > 2^{0.8 n}$ 行(通过定理 5.3可知这样的函数存在). 那么PECTT意味着, 计算 $F$ 的系统要么体积至少为 $2^{0.2 n} / α,$ 要么时间至少为 $2^{0.2 n} / α .$ 由于这个量随 $n$ 呈指数级增长, 不难设置参数使得即使对于中等大小的 $n,$ 这样的系统也无法存在于我们的宇宙中.

为了使PECTT完全具体化, 我们需要确定测量时间和体积的单位以及归一化常数 $α .$ 一种保守的选择是假设我们可以将计算压缩到绝对物理极限(这远远超出当前技术的多个数量级), 这对应于设 $α = 1$ 并使用普朗克单位表示体积和时间. 普朗克长度 $ℓ_{P}$ (粗略地说, 是理论上可测量的最短距离)约为 $2^{- 120}$ 米. 普朗克时间 $t_{P}$ (光传播一个普朗克长度所需的时间)约为 $2^{- 150}$ 秒. 在上述设置中, 如果一个函数 $F$ 接受1KB的输入(例如, 约 $1 0^{4}$ 位, 可编码一张 $100 \times 100$ 的位图), 且需要至少 $2^{0.8 n} = 2^{0.8 \cdot 1 0^{4}}$ 行NAND程序计算, 那么任何计算它的物理系统要么需要 $2^{0.2 \cdot 1 0^{4}}$ 普朗克长度立方的体积(超过 $2^{1500}$ 立方米), 要么需要至少 $2^{0.2 \cdot 1 0^{4}}$ 普朗克时间单位(超过 $2^{1500}$ 秒). 为了感知这个数字有多大, 请注意宇宙年龄仅约 $2^{60}$ 秒, 其可观测半径仅约 $2^{90}$ 米. 以上讨论表明, 通过展示一个小于宇宙尺寸的系统来计算此类函数, 可以在经验上证伪PECTT.

当然, 以这种方式反驳PECTT存在几个障碍, 其中之一是我们无法在所有可能的输入上测试系统. 然而, 事实证明我们可以利用交互式证明和程序检查等概念(可能在本书后续遇到)绕过这个问题. 另一个更显著的问题是, 虽然我们知道许多困难函数存在, 但目前没有单个显式的函数 $F : {0, 1}^{n} \to {0, 1},$ 我们能证明其NAND-CIRC程序所需行数的下界为 $ω (n)$ (更不用说 $Ω (2^{n} / n)) .$

5.6.1 反驳PECTT的尝试

人类令人钦佩的特质之一, 就是拒绝接受局限. 这种特质最美好的体现, 是人们完成了历史上长期被认为“不可能”的挑战——例如实现重于空气的(物体的)飞行、将人类送上月球、完成环球航行, 甚至是证明费马大定理. 而最糟糕的体现, 则是人们不断重蹈失败覆辙, 执意尝试那些已被证明不可能的任务, 例如制造永动机、用尺规三等分角或驳斥贝尔不等式. PECTT(及其多种形式)同时吸引了这两类人. 以下是一些曾被推测能够完成常规NAND-CIRC程序无法实现的计算任务的物理设备:

意大利面排序: 计算机科学学生最早接触的下界定理之一, 是对 $n$ 个数进行排序需要 $Ω (n lo g n)$ 次比较. 而“意大利面排序”则描述了一种试图突破这一限制的“机械计算机”: 若要排序 $n$ 个数字 $x_{1}, \dots, x_{n},$ 可将 $n$ 根意大利面切割为对应长度, 然后握成一束竖直置于平面——面条下端自然会形成有序排列. 但这种设计存在诸多缺陷, 无法真正挑战PECTT, 笔者在此保留悬念, 让读者自行发现其中奥妙.
肥皂泡: 欧几里得Steiner树问题被认为需要大量NAND门电路才能解决. 该问题要求判断给定平面上的 $m$ 个点(坐标范围为 $1$ 到 $m$ 的整数, 可用 $n = O (m lo g m)$ 长度的字符串表示)能否通过总长度不超过 $K$ 的线段连接. 这个被推测为NP完全问题(后续课程将涉及该概念)的函数, 其计算复杂度很可能随 $m$ 增长呈指数级增长——根据PECTT, 当 $m$ 达到一定规模(如数百量级)时, 任何物理设备都无法计算该函数. 然而有人声称, 只需木钉和肥皂就能构造出解决该问题的简易物理设备: 将 $m$ 个木钉固定在两点玻璃板之间的对应坐标点, 形成的肥皂膜会以最小化总能量的方式连接所有木钉(总能量与线段总长度相关). 但该设备的缺陷在于: 自然与人一样容易陷入“局部最优解“——最终配置往往无法达到全局能量最小值, 而是停留在局部最优状态. Aaronson通过实际实验(见图 5.8)发现, 虽然该设备对三四个木钉有效, 但随着数量增加, 计算结果就会逐渐偏离最优解.

aaronsonsoapfig

图 5.8. Scott Aaronson正在测试使用肥皂泡来计算Steiner树的一种候选设备

DNA计算: 有人提出利用DNA的特性来解决复杂的计算问题. DNA的主要优势在于能在极小的物理空间内编码大量信息, 并以高度并行的方式处理这些信息. 截至本文撰写时, 已有实验证明, 在半径约1毫米的区域内可用DNA存储约 $1 0^{16}$ 比特信息, 而最先进的硬盘技术仅能存储约 $1 0^{10}$ 比特. 虽然这对PECTT尚未构成实质性质疑, 但提示我们应谨慎设定常数项的选择, 且不应假定当前硬盘+硅基技术已是物理极限. ⁷
连续/实数计算机: 物理世界常使用时空间等连续量进行描述, 因而有观点认为模拟设备可能直接处理实数计算, 其本质能力应超越NAND机等离散模型. 关于物理世界本质是连续还是离散的争论仍是未解之谜——事实上, 我们甚至无法精确表述该问题, 更遑论解答. 但无论如何, 测量连续量所需付出的代价显然会随精度要求而增长, 因此这类机器无法提供“免费午餐”或规避PECTT的途径(另见这篇论文). 与此相关的还有“超计算”或“芝诺计算机”提案: 通过第一秒完成第一步操作、半秒完成第二步、四分之一秒完成第三步等方式试图利用时间连续性. 这些尝试失败的原因与保证阿基里斯最终追上乌龟的芝诺悖论解决方案类似.
相对论计算机与时间旅行: 前文论述基于经典时间观, 但根据相对论, 时间具有观测者依赖性. 解决难题的一种思路是让计算机从自身参照系经历长时间运行, 而确保从我们视角看仅经过片刻. 实现方式可以是用户启动计算机后, 以近光速短途慢跑再返回查看结果. 根据速度差异, 用户的几秒钟可能相当于计算机时代的数个世纪(甚至足够完成Windows系统更新! ). 当然关键在于: 用户所需能量与接近光速的程度成正比. 更有趣的提案是利用闭合类时曲线(CTCs)进行时间旅行——通过保存当前状态后回到过去继续运算, 可实现任意长计算时间. 若CTCs确实存在, 我们或许需要修正PECTT(不过到时候我大可以回到过去修改这些笔记, 声称自己从未提出该猜想…)
人类: 另一个被提议作为PECTT反例的计算系统是半径约0.1米、重约3磅的人脑. 人类能行走、交谈、感知以及执行NAND-CIRC程序通常无法完成的任务, 但他们是否能计算NAND-CIRC程序不可计算的部分函数? 当前确实存在人类表现优于计算机的计算任务(例如某些电子游戏), 但基于现有认知, 人类(或其他生物)并不具备超越计算机的固有计算优势. 人脑约含 $1 0^{11}$ 个神经元, 每个每秒处理约1000次运算, 因此粗略估算模拟人脑一秒活动需要约 $1 0^{14}$ 个门电路的布尔电路. ⁸需注意, 此类电路(可能)存在并不意味易于发现——进化构建人脑耗费了数十亿年. 当前人工智能研究多专注于发掘能复现部分脑功能的程序, 这些程序虽需要巨大计算资源来发现, 但其规模常远小于上述悲观估计. 例如截至本文撰写时, 谷歌机器翻译神经网络仅含约 $1 0^{4}$ 个节点(可由同等规模NAND-CIRC程序模拟). 自远古起, 哲学家、神职人员等便主张人类存在机械装置无法捕捉的特质; 但即便确有此可能, 目前仍然没有有力证据表明人类能完成复杂度相当的计算机本质上无法实现的计算任务. ⁹
量子计算. 对PECTT最有力的挑战来自量子计算. 该理念源于观察到强量子效应系统难以用计算机模拟, 研究者反过来提议利用此类系统完成传统计算无法实现的任务. 截至本文撰写时, 可扩展量子计算机尚未建成, 但这一迷人设想似乎与任何已知自然法则都不冲突. 我们将在第23章详细讨论: 量子计算需将布尔电路模型扩展为包含特殊门的量子电路, 但其核心启示在于——量子计算虽要求我们修正PECTT, 却无需彻底颠覆世界观. 事实上, 无论底层计算模型是布尔电路还是量子电路, 本书绝大部分内容依然成立.

Info

备注 5.5 (PECTT与密码学).

尽管PECTT的精确表述及其正确性仍是活跃研究方向, 其多种变体已经在实践中被隐式地假设成立. 当前政府、企业及个人依赖密码学保护其最重要的资产, 包括国家机密、武器系统控制权、关键基础设施安全、商业保障与隐私保护. 应用密码学中常见“密码系统 $X$ 提供128位安全性“的表述, 其真实含义是: (a) 猜想不存在远小于 $2^{128}$ 规模的布尔电路(或等效NAND-CIRC程序)能破解 $X;$ (b) 假定其他物理机制亦无法超越该效率, 故破解X需消耗约 $2^{128}$ 量级资源. 使用“猜想”而非“证明”是因为: 虽然可将“破解系统无法由 $s$ 门电路实现”表述为精确数学猜想, 但目前无法对任何非平凡的密码系统证明该论断. 此问题与后续章节将讨论的 $P$ 与 $NP$ 问题相关, 我们将在第21章深入探讨.

本章回顾

我们可以将程序视为某个过程的描述, 也可以将其视为符号列表, 这种列表可被看作数据, 并作为其他程序的输入.
我们可以编写一个能计算任意NAND-CIRC程序的NAND-CIRC程序(或等效地, 一个能计算其他电路的电路). 此外, 这样做的效率损失并不大.
我们甚至可以编写一个能计算其他编程语言(如Python、C、Lisp、Java、Go等)程序的NAND-CIRC程序.
作为理论上的重大一跃, 我们可以假设计算函数 $f$ 的最小电路中的门数量大致反映了计算 $f$ 所需的物理资源量. 这一观点被称为物理扩展Church-Turing论题(PECTT).
布尔电路(或等效的AON-CIRC或NAND-CIRC程序)涵盖了广泛的计算模型. 目前对PECTT最有力的挑战来自利用量子力学效应加速计算的潜力, 这种模型被称为量子计算机.

finiterecapfig

图 5.9. 有限计算任务由函数 $f : 0, 1^{n} \to 0, 1^{m}$ 定义. 我们可以使用布尔电路(基于不同门集合)或直线程序对计算过程建模. 每个函数都可以通过多个程序计算. 如果存在一个最多包含 $s$ 个门的NAND电路(或等效地, 最多包含 $s$ 行的NAND-CIRC程序)可以计算 $f,$ 则称 $f \in S I Z E_{n, m} (s) .$ 每个函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 都可以通过一个包含 $O (m \cdot 2^{n} / n)$ 个门的电路计算. 许多函数(如乘法、加法、解线性方程、计算图中的最短路径等)可以通过门数少得多的电路计算. 特别地, 存在一个大小为 $O (s^{2} lo g s)$ 的电路, 可以计算映射 $C, x \mapsto C (x),$ 其中 $C$ 是描述 $s$ 个门电路的字符串. 然而, 计数论证表明, 确实存在某些函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 需要 $Ω (m \cdot 2^{n} / n)$ 个门才能计算.

5.7 第一部分的回顾: 有限计算

本章标志着本书的第一部分, 即有限计算部分的结束(即计算将固定个布尔输入映射到固定个布尔输出的函数). 第3章、第4章和第5章的主要要点如下:

我们可以形式化地定义函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 使用 $s$ 个基本运算进行计算的概念. 无论这些运算是AND、OR、NOT、NAND还是其他通用基函数, 都不会产生本质差异. 这类计算既可以通过电路描述, 也可以通过直线程序描述.
我们定义 $S I Z E_{n, m} (s)$ 为最多由 $s$ 个门电路实现的NAND电路可计算的函数集合. 该集合等同于最多由 $s$ 行代码实现的NAND-CIRC程序可计算的函数集(其中 $s$ 的常数倍差异可忽略);这也等同于最多又 $s$ 个AND/OR/NOT门组成的布尔电路可计算的函数集. 需要注意的是, $S I Z E_{n, m} (s)$ 是一个函数集合, 而不是程序或电路的集合.
任意函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 都可通过最多 $O (m \cdot 2^{n} / n)$ 个门电路实现, 而某些函数至少需要 $Ω (m \cdot 2^{n} / n)$ 个门电路. 我们将 $S I Z E_{n, m} (s)$ 定义为所有最多使用 $s$ 个门电路可计算的、从 ${0, 1}^{n}$ 到 ${0, 1}^{m}$ 的函数集合.
我们可以将电路或程序 $P$ 表示为字符串. 对于任意 $s,$ 都存在一个通用电路或程序 $U_{s},$ 它能够根据字符串描述的程序来执行长度为 $s$ 的程序. 这些表示方法还可以用于统计最多包含 $s$ 个门电路的数量, 从而证明某些函数无法通过小于指数规模的电路来计算.
如果存在一个由 $s$ 个门电路计算函数 $f$ 的电路, 那么我们可以使用 $s$ 个基本组件(如晶体管)构建物理设备来计算 $f .$ PECTT假设其逆命题同样成立: 如果每个计算函数 $f$ 的电路至少需要 $s$ 个门电路, 那么任何计算 $f$ 的物理设备都需要消耗 $s$ 单位的“物理资源”. PECTT面临的主要挑战是量子计算, 我们将在第23章讨论该主题.

下章预告: 下一部分我们将探讨如何对无界输入的计算任务建模. 这些任务通过函数 $F : {0, 1}^{*} \to {0, 1}^{*}$ (或 $F : {0, 1}^{*} \to {0, 1})$ 进行规范, 此类函数可接受任意数量的布尔输入.

5.8 习题

习题 5.1.

以下哪一项陈述是错误的:

a. 存在一个 $O (s^{3})$ 行的NAND-CIRC程序, 当输入为采用元组列表表示法的 $s$ 行的程序 $P$ 且所有输入均为 $1$ 时, 能够计算 $P$ 的输出.

b. 存在一个 $O (s^{3})$ 行的NAND-CIRC程序, 当输入为使用ASCII编码(以 $7 s$ 位字符串表示)的 $s$ 字符程序 $P$ 且所有输入均为 $1$ 时, 能够计算 $P$ 的输出.

c. 存在一个 $O (s)$ 行的NAND-CIRC程序, 当输入为采用元组列表表示法的 $s$ 行程序 $P$ 且所有输入均为 $1$ 时, 能够计算 $P$ 的输出.

习题 5.2 (等值函数).

对于每个 $k \in N,$ 证明存在一个 $O (k)$ 行的NAND-CIRC程序, 用于计算函数 $EQ U A L_{k} : {0, 1}^{2 k} \to {0, 1},$ 其中当且仅当 $x = x^{'}$ 时, $EQ U A L S (x, x^{'}) = 1.$

习题 5.3 (等于常数的函数).

对于每个 $k \in N$ 和 $x^{'} \in {0, 1}^{k},$ 证明存在一个 $O (k)$ 行NAND-CIRC程序, 用于计算函数 $EQ U A L S_{x^{'}} : {0, 1}^{k} \to {0, 1},$ 该函数在输入 $x \in {0, 1}^{k}$ 时, 当且仅当 $x = x^{'}$ 时输出 $1.$

习题 5.4 (多输出函数的计数下界).

证明存在一个数 $δ > 0,$ 使得对于每个足够大的 $n$ 和每个 $m,$ 存在一个函数 $f : {0, 1}^{n} \to {0, 1}^{m},$ 需要至少 $δ m \cdot 2^{n} / n$ 个NAND门来计算. 提示见脚注. ¹⁰

习题 5.5 (多输出函数的规模层次定理).

证明存在一个数 $C,$ 使得对于每个 $n, m$ 和 $n + m < s < m \cdot 2^{n} / (C n),$ 存在一个函数 $f \in S I Z E_{n, m} (C \cdot s) ∖ S I Z E_{n, m} (s) .$ 提示见脚注. ¹¹

习题 5.6 (电路的高效表示和更紧的计数上界). 使用备注 5.1的思想证明, 对于每个 $ϵ > 0$ 和足够大的 $s, n, m,$ $∣ S I Z E_{n, m} (s) ∣ < 2^{(2 + ϵ) s l o g s + n l o g n + m l o g s}$ 并得出结论: 在定理 5.2中的隐常数可以任意接近 $5.$ 提示见脚注. ¹²

习题 5.7 (更紧的计数下界).

证明对于每个 $δ < 1/2,$ 如果 $n$ 足够大, 则存在一个函数 $f : {0, 1}^{n} \to {0, 1},$ 使得 $f \neq \in S I Z E_{n, 1} (\frac{δ 2 ^{n}}{n}) .$ 提示见脚注. ¹³

习题 5.8 (随机函数的难计算性).

假设 $n > 1000,$ 并且我们随机选择一个函数 $F : {0, 1}^{n} \to {0, 1},$ 对于每个 $x \in {0, 1}^{n},$ $F (x)$ 的值通过投掷独立的无偏硬币来确定. 证明存在一个 $2^{n} / (1000 n)$ 行程序来计算 $F$ 的概率至多为 $2^{- 100} .$ ¹⁴

习题 5.9.

以下是一个表示NAND程序的元组: $(3, 1, ((3, 2, 2), (4, 1, 1), (5, 3, 4), (6, 2, 1), (7, 6, 6), (8, 0, 0), (9, 7, 8), (10, 5, 0), (11, 9, 10))) .$

按照顺序写出八个值 $P (000)$ 、 $P (001)$ 、 $P (010)$ 、 $P (011)$ 、 $P (100)$ 、 $P (101)$ 、 $P (110)$ 、 $P (111)$ 的表格.
用文字描述该程序的功能.

习题 5.10 (使用XOR的EVAL).

对于每个足够大的 $n,$ 设 $E_{n} : {0, 1}^{n^{2}} \to {0, 1}$ 是一个函数, 它接受一个长度为 $n^{2}$ 的字符串, 该字符串编码一对 $(P, x),$ 其中 $x \in {0, 1}^{n},$ $P$ 是一个具有 $n$ 个输入、单个输出且最多 $n^{1.1}$ 行的NAND程序, 并返回 $P$ 在 $x$ 上的输出. ¹⁵即, $E_{n} (P, x) = P (x) .$

证明对于每个足够大的 $n,$ 不存在一个XOR电路 $C$ 来计算函数 $E_{n},$ 其中XOR电路包含 $XOR$ 门以及常量 $0$ 和 $1$ (参见第18章). 即, 证明存在某个常数 $n_{0},$ 使得对于每个 $n > n_{0}$ 和具有 $n^{2}$ 个输入与单个输出的XOR电路 $C,$ 存在一对 $(P, x),$ 使得 $C (P, x) \neq = E_{n} (P, x) .$

习题 5.11 (学习电路(挑战性, 可选, 需要更多背景知识)).

(本练习假设你可能此时不具备概率论和/或机器学习的背景知识. 可以在后续阶段, 特别是在学习第18章之后再来回顾. ) 在本练习中, 我们将使用对大小为 $s$ 的电路数量的界限来表明(如果我们忽略计算成本)每个这样的电路都可以从不太多的训练样本中学习. 具体来说, 如果我们找到一个大小为 $s$ 的电路, 该电路在来自某个分布 $D$ 的 $O (s lo g s)$ 个训练样本上正确分类, 那么可以保证它在整个分布 $D$ 上表现良好. 由于布尔电路建模了许多物理过程(如果(有争议的)PECTT成立, 可能包括所有过程), 这表明所有这样的过程也可以被学习(再次忽略在训练数据上找到表现良好的分类器的计算成本).

设 $D$ 是 ${0, 1}^{n}$ 上的任意概率分布, $C$ 是一个具有 $n$ 个输入、一个输出且规模为 $s \geq n$ 的NAND电路. 证明存在某个常数 $c,$ 使得以下情况以至少 $0.999$ 的概率成立: 如果 $m = cs lo g s$ 且 $x_{0}, \dots, x_{m - 1}$ 是从 $D$ 中独立选取的, 那么对于每个电路 $C^{'},$ 如果在每个 $i \in [m]$ 上 $C^{'} (x_{i}) = C (x_{i}),$ 则 $Pr_{x \sim D} [C^{'} (x) \leq C (x)] \leq 0.99.$

换句话说, 如果 $C^{'}$ 是一个所谓的“经验风险最小化器”, 在所有训练样本 $x_{0}, \dots, x_{n - 1}$ 上与 $C$ 一致, 那么它也有高概率与从分布 $D$ 中抽取的样本上的 $C$ 一致(即, 使用机器学习术语来说, 它“泛化”了). 提示见脚注. ¹⁶

5.9 参考书目

$E V A L$ 函数通常被称为通用电路. 我们在本章中所描述的实现并非目前已知最高效的. Valiant(Valiant)最早提出了规模为 $O (n lo g n)$ 的通用电路(其中 $n$ 表示输入规模). 近年来, 由于在密码学中的应用(参见Lipmaa, Mohassel, Sadeghian, 2016, Günther, Kiss, Schneider, 2017), 通用电路获得了新的研究动力.

尽管我们已经知道“大多数”将 $n$ 比特映射到1比特的函数需要规模为指数级 $Ω (2^{n} / n)$ 的电路, 但事实上我们尚未找到任何一个显式函数能够被证明需要至少 $n^{100}$ 甚至 $100 n$ 规模的电路. 目前已知的最强下界表明: 存在非常简洁且显式的 $n$ 变量函数, 其计算至少需要 $(5 - o (1)) n$ 线路(参见Iwama等人的论文以及Kulikov等人更近期的研究). 针对受限电路模型证明下界是一个极具吸引力的研究领域, Jukna的著作(Jukna, 2012)(另见Wegener(Wegener, 1987))为此提供了优秀的入门指南和综述. 本人从Sasha Golovnev处获悉规模分层定理(定理 5.4)的证明.

Scott Aaronson关于信息具有物理性的博客文章, 对PECTT相关议题进行了精彩探讨. 其关于NP完全问题与物理现实的综述(Aaronson, 2005)也讨论了这些议题, 不过建议在学完第15章中关于 $NP$ 与 $NP$ 完全性的内容后再阅读会更易理解.

1: 其中 $O (\cdot)$ 表示法中的隐常数小于10. 也就是说, 对于所有足够大的 $s,$ $∣ S I Z_{n, m} (s) < 2^{10 s l o g s} ∣,$ 详见备注 5.1. 如1.7节所述, 我们采用10这个界限值仅仅是因为它是个整数.

2: “天文数字”在此是一种保守表述: 可观测宇宙中的恒星数量甚至粒子数量都远少于 $2^{2^{10}} .$

3: 常数 $δ$ 至少为0.1, 实际上, 可以通过习题 5.7将其进一步缩小为任意接近 $1/2$ 的值.

4: 若想了解具体实现代码, 请参阅我们的GitHub代码库

5: Python虽不区分列表与数组, 但允许对这两种结构中的索引元素进行常数时间随机访问. 若考虑程序长度真正无界(例如超过 $2^{64})$ 的情况, 则访问成本将变为与数组或列表长度的对数相关, 但 $O (s)$ 与 $O (s lo g s)$ 的差异不影响本文后续讨论.

6: ARM代表“Advanced RISC Machine”, 而RISC又代表“Reduced instruction set computer”(精简指令集计算机).

7: 我们在PECTT的参数设定上极为保守, 甚至假设在毫米级区域内可能存储高达 $ℓ_{P}^{- 2} 1 0^{- 6} \sim 1 0^{61}$ 比特的信息.

8: 该估算可能存在数量级偏差: 一方面模拟神经胶质等其它脑组织可能导致更高开销; 另一方面, 为达成相同计算任务未必需要完全复刻大脑.

9: 亦有知名科学家主张人类具有优于计算机的固有计算能力, 参见此文.

10: 存在多少个从 ${0, 1}^{n}$ 到 ${0, 1}^{m}$ 的函数? 注意, 我们对电路的定义要求每个输出对应一个唯一的门, 尽管这一限制最多会对门数产生 $O (m)$ 的附加差异.

11: 遵循定理 5.4证明, 将计数论证的使用替换为习题 5.4.

12: 使用邻接表表示法, 具有 $n$ 个入度为零的顶点和 $s$ 个入度为二的顶点的图可以用大约 $2 s lo g (s + n) \leq 2 s (lo g s + O (1))$ 位表示. $n$ 个输入顶点和 $m$ 个输出顶点的标记可以通过 $[n]$ 中的 $n$ 个标记列表和 $[m]$ 中的 $m$ 个标记列表来指定.

13: 提示: 使用习题 5.6的结果, 并注意在此范围内 $m = 1$ 且 $n ≪ s .$

14: 提示: 等价的说法是, 你需要证明使用最多 $2^{n} / (1000 n)$ 行可以计算的函数集合的元素个数少于 $2^{- 100} 2^{2^{n}} .$ 你能看出为什么吗?

15: 注意, 如果 $n$ 足够大, 那么很容易用 $n^{2}$ 位表示这样的一对, 因为我们可以用 $O (n^{1.1} lo g n)$ 位表示程序, 并且我们总是可以将表示填充到恰好 $n^{2}$ 长度.

16: 提示: 使用我们对大小为 $s$ 的程序/电路数量的界限定理 5.2, 以及Chernoff界(未完成引用 1)和联合界.

6. 无限域函数，自动机与正则表达式

6. 无限域函数，自动机与正则表达式

学习目标

在 长度无界 的输入上定义函数，这种函数无法用一个大小有限的、由输入和输出构成的表格描述
(前者)与语言的成员资格判定任务的等价性
确定性有穷自动机(可选): 一个无界计算模型的简单案例
(前者)与正则表达式的等价性

Quote

“算法以有限回答无穷”

—Stephen Kleene

布尔电路的模型(或者说，NAND-CIRC编程语言)有一个非常明显的短板: 一个布尔电路只能计算一个 有限的 函数 $f .$ 事实上，由于每个门配有两个输入，大小为 $s$ 的电路至多能计算长度为 $2 s$ 的输入.

因此该模型无法捕捉到这样一种直观概念: 算法可以视作对潜在的无穷函数进行的 统一处理 .

比方说，标准的小学乘法算法是一种统一算法，它可以对所有长度的数进行乘法运算的. 然而，这种算法无法被表达为单一的电路，而是需要对每种输入配备一个不同的电路(或者说，NAND-CIRC语言). (见图 6.1)

multiplicationschoolfig

图 6.1. 一旦知道如何计算多位数乘法，就可以对所有 $n$ 位数这么做. 但如果你想用布尔电路或者NAND-CIRC程序来描述乘法，对所有长度为 $n$ 的输入，你都需要一个不同的程序/电路

本章拓展了计算任务的定义，使其考虑配备无界定义域 ${0, 1}^{*}$ 的函数. 其重点在于定义计算哪些任务，将如何计算的绝大部分留给之后的章节. 其中将会认识到 图灵机 与其他在无界输入上进行计算的计算模型. 然而，这一章将认识到一个简单且受限的计算模型——确定性有穷自动机(DFAs).

简要概述

阅读本章, 我们希望读者能够有以下收获:

本章将会讨论以任意长度字符串作为输入的函数，其中主要关注布尔函数这种特例，其输出为单个位.
除此之外仍然有无数多个输入长度无界的函数. 因此这一的函数不能被任何一个单一的布尔电路计算. 这个章节的第二部分将会讨论 有穷自动机 ，这种计算模型可以计算一个输入长度无界的函数.
确定性有穷自动机不像Python或其他通用编程语言一样强大. 但它可以作为这些更加通用的计算模型的一个引子.
本章将会展示一个美妙的结果——能被有穷自动机计算的函数与能被 正则表达式 计算的函数精确地一致.
然而，读者仍然可以自由跳过自动机的部分，直接转向第七章中对于 图灵机 的讨论.

6.1 输入长度无界的函数

直到现在，我们考虑的计算任务都将某些长度为 $n$ 的字符串映射为某个长度为 $m$ 的字符串.

然而，一般情况下的计算任务都会涉及到长度无界的输入例如，接下来的Python函数会计算一个函数 $XOR : {0, 1}^{*} \to {0, 1},$ 其中 $XOR (x)$ 为 $1$ 当且仅当 $x$ 中 $1$ 的数量为奇数.

(换言之，对每个 $x \in {0, 1}^{*}$ ， $XOR (x) = \sum_{i = 0}^{∣ x ∣ - 1} x_{i} mod 2)$ $XOR$ 虽然简单，却无法被一个布尔电路计算. 相反，对每个 $n$ ，都需要通过不同的电路计算 $XO R_{n}$ ( $XOR$ 函数在 ${0, 1}^{n}$ 的限制)(e.g. 见图 6.2).

def XOR(X):
    '''接受一个0与1的列表X
       当1的个数为奇数时输出1
       否则输出0'''
    result = 0
    for i in range(len(X)):
        result = (result + X[i]) % 2
    return result

xor5circprogfig

图 6.2. 计算 $5$ 位异或的NAND电路与NAND-CIRC程序. 值得注意的是 $XO R_{5}$ 的电路仅仅只是重复了四次计算 $2$ 位异或的电路. 这本书的前面部分研究了有限函数 $f : {0, 1}^{n} \to {0, 1}^{m}$ 的计算. 这样一种函数 $f$ 总是能通过列举所有的输入 $x \in {0, 1}^{n}$ 所对应的 $2^{n}$ 个函数值来表示. 本章考虑像 $XOR$ 这样输入长度无界的函数.

尽管能用有限多个符号来描述 $XOR$ (事实上在上面已经做过了)，它却能接受无穷多种可能的输入，因此无法把它所有的函数值都写下来. 这对其他蕴含着其他重要计算任务的函数也是同理，包括加法，乘法，排序，在图上寻找路径，由点拟合曲线，等等.

为了和有限情况作区分，有时将函数 $F : {0, 1}^{*} \to {0, 1}$ (或 $F : {0, 1}^{*} \to {0, 1}^{*})$ 称为 无限的 . 然而，这不意味着 $F$ 可以接收一个无限长的输入. 它仅仅表明 $F$ 可以接收任意长的输入，因此无法简单地把在一个表上把不同输入下 $F$ 的全部输出都写下来.

重要启示

重要提示 6.1. 函数 $F : {0, 1}^{*} \to {0, 1}^{*}$ 指明了一个将输入 $x \in {0, 1}^{*}$ 映射到 $F (x)$ 的计算任务.

如前所述，不失一般性的前提下，我们可以把注意力限制在输入和输出为二进制串的函数. 因为其他的对象，像数字、列表、矩阵、照片、视频、以及别的种种，都可以用二进制串编码.

如前所述，有必要区分规范和实现这两个概念 . 例如，考虑以下函数.

$T W I NP (x) = {10 \exists_{p \in N} 使得 p, p + 2 为质数且 p > ∣ x ∣ 否则$

在数学上，这是一个良定义的函数. 对每个 $x,$ $T W I NP$ 都会有一个非 $0$ 即 $1$ 的函数值. 然而，截至目前，尚未已知能计算该函数的Python程序. 孪生素数猜想主张对每个 $n$ 都有一个 $p > n$ 使得 $p, p + 2$ 均为素数. 如果该猜想成立，那么 $T$ (译者注:此处应指 $T W I NP)$ 很容易计算—— def T(x): return 1是一个奏效的程序. 然而，自1849年起，数学家们对该猜想的证明均无功而返. 这说明，不论知不知道 $T W I NP$ 函数的实现，上面的定义提供的都是它的规范 .

6.1.1 改变输入和输出

许多有趣的函数都接受不止一个输入，例如函数:

$M UL T (x, y) = x \cdot y$

接受一个二进制表示的整数对 $x, y \in N$ ，并输出积 $x \cdot y$ 的二进制表示. 然而，因为一对字符串能被表达为一个单一的字符串，所以像 $M UL T$ 这样的函数，可以被视为从 ${0, 1}^{*}$ 到 ${0, 1}^{*}$ 的映射. 一般不考虑底层细节，比如把一对整数精确地表达为串的方式，因为近乎所有的选择对我们的目标而言都是等价的.

我们想计算的另一个函数是

$P A L I N D ROME (x) = {10 \forall_{i \in [∣ x ∣]} x_{i} = x_{∣ x ∣ - i} 否则$

$P A L I N D ROME$ 以一个单个位作为输出. 以一个单个位为输出的函数成为 布尔函数 . 布尔函数是计算理论的中心，因此将在这本书中经常性地被讨论. 需要注意的是，即使布尔函数只有一个单一位用于输出，其输入可以是任意长度的. 因此它们仍然无法通过一个由函数值组成的有限表格描述，因此仍然是一个无限函数.

“布尔化“函数 . 有时从一个非布尔函数中构造一个布尔函数的变体是非常方便的. 例如，下列函数是 $M UL T$ 的一个布尔函数变体:

$BM UL T (x, y, i) = {x \cdot y 的第 i 位 0 i < ∣ x \cdot y ∣ 否则$

如果能够通过例如Python，C，JAVA等任何一门编程语言计算 $BM UL T$ ，也可以计算 $M UL$ ，反之亦然.

练习 6.1 (一般函数的布尔化).

说明对每个函数 $F : {0, 1}^{*} \to {0, 1}^{*}$ ，都有一个布尔函数 $BF : {0, 1}^{*} \to {0, 1}$ 使得一个能够计算 $BF$ 的Python程序可以被转移为一个计算 $F$ 的程序，反之亦然.

对练习 6.1的解答

对每个函数 $F : {0, 1}^{*} \to {0, 1}^{*},$ 可以定义.

$BF (x, i, b) = ⎩ ⎨ ⎧ F (x)_{i} 10 i < ∣ F (x) ∣, b = 0 i < ∣ F (x) ∣, b = 1 i \geq ∣ F (x) ∣$ 其输入满足 $x \in {0, 1}^{*}, i \in N, b \in {0, 1}$ ，而输出为 $F (x)$ 的第i位(如果 $b = 0$ 且 $i < ∣ F (x) ∣) .$

如果 $b = 1$ ，则 $BF (x, i, b)$ 当且仅当 $i < ∣ F (x) ∣$ 时为 $1$ ，通过这一点可以计算 $F (x)$ 的长度. 从 $F$ 出发计算 $BF$ 是十分直接的. 另一方面，给定一个计算 $BF$ 的Python函数 $BF$ ，可以通过如下方法计算 $F .$

def F(x):
    res = []
    i = 0
    while BF(x,i,1):
        res.append(BF(x,i,0))
        i += 1
    return res

6.1.2 形式语言

对每个布尔函数 $F : {0, 1}^{*} \to {0, 1}$ ，可以定义集合 $L_{F} = {x ∣ F (x) = 1} .$ 这样的集合被称为语言 . 这个名字源于 形式语言理论 ，像Noam Chomsky这样的语言学家致力于该理论. . 一个 形式语言 是 $L \subseteq {0, 1}^{*}$ (更一般地说 $L \subseteq Σ^{*}$ ，其中 $Σ$ 是一个有限的字母表¹). 一个语言 $L$ 上的 成员资格问题 或 判定问题 ，是断定对于给定的 $x \in {0, 1}^{*}$ ，是否有 $x \in L .$ 如果能够计算函数 $F$ ，也就能够判定语言 $L_{F}$ 的成员资格，反之亦然. 因此，许多像Sipser，1997这样的教材都将计算一个布尔函数的任务称为“判定一个语言“ 本书主要用函数的记号来描述计算任务，这种方法更容易推广到不止一位输出的计算任务. 然而，因为语言的术语在文献中更加流行，有时也会提到它们.

6.1.3 函数的限制

如果 $F : {0, 1}^{*} \to {0, 1}$ 是一个布尔函数而 $n \in N$ ，则 $F$ 在输入长度为 $n$ 上的限制记作 $F_{n}$ ，是一个有限函数 $f : {0, 1}^{n} \to {0, 1}$ 使得对每个 $x \in {0, 1}^{n}$ 均有 $f (x) = F (x) .$ 这就是说 $F_{n}$ 是定义在 ${0, 1}^{n}$ 上的有限函数，但在这些输入上与 $F$ 保持一致. 因为 $F_{n}$ 是一个有限函数，所以它可以被一个布尔电路计算. 以下定理表明了这一点.

定理 6.1 (无限函数的电路族).

令 $F : {0, 1}^{*} \to {0, 1} .$ . 则有一个电路族 ${C_{n}}_{n \in {1, 2, \dots}}$ 使得对每个 $n > 0$ ， $C_{n}$ 能够计算 $F$ 在输入长度为 $n$ 上的限制 $F_{n}$

对定理 6.1的证明

这是布尔电路通用性的一个立即推论. 事实上，因为 $F$ 把 ${0, 1}^{n}$ 映射到 ${0, 1}$ ，定理定理 4.8表明一定有一个布尔函数 $C_{n}$ 来计算它. 事实上，这个电路的大小为至多 $c \cdot 2^{n} / n$ 个门，其中 $c \leq 10$ 为常数. $□$

特别地，定理 6.1表明甚至对于前面描述过的 $T W I NP$ 函数，这样的电路族也存在，即使尚未已知的程序可以对其进行计算. 这实际上并不令人惊讶: 对每个特定的 $n \in N$ ， $T W I N P_{n}$ 要么是常0函数要么是常1函数，其中任何一者都可以用一个简单的布尔电路计算. 因为计算 $T W I NP$ 的电路族一定存在，用Python或其他任何编程语言计算 $T W I NP$ 的难度源于这样一个事实——我们不知道对每个特定的 $n$ ，电路族中的 $C_{n}$ 应该是什么.

6.2 确定性有穷自动机(可选)

我们目前所有的计算模型——布尔电路和无分支程序——都只对有限函数有效.

在第七章中，将会介绍 图灵机 ，这是输入长度无界函数的中心计算模型. 然而，本节将会介绍一个更加基本的模型—— 确定性有穷自动机 (DFA)

自动机可以视作通往图灵机的一个优秀的垫脚石，尽管它们在这本书的后面部分并不会大量地被用到，所以读者可以自由跳过到第七章.

DFA在能力上与 正则表达式 是等价的: 正则表达式是识别模式的一个强力工具，在实践中广泛应用. 本书对自动机的处理是相对简略的. 有大量的资源可以帮助你更加熟悉DFAs. 详细地说，第一章中Sisper的著作Sipser, 1997包含对这个内容的绝佳的说明. 这里有许多的在线自动机模拟器网站，也有将自动机和正则表达式互化的翻译器. (例如此处和此处).

从高视角上看，一个算法是通过以下步骤的组合从输入计算输出的方法:

从输入读入一位
更新状态 (工作记忆)
停止并产生一个输出

例如，回忆以下计算 $XOR$ 函数的Python程序

def XOR(X):
    '''接受一个0与1的列表X
       当1的个数为奇数时输出1
       否则输出0'''
    result = 0
    for i in range(len(X)):
        result = (result + X[i]) % 2
    return result

每一步中，程序读入一个位X[i]并且根据它更新自己的result状态(在X[i]为1时翻转result，否则保持原样). 当它遍历完输入后，程序输出result. 在计算机科学中，这样一个程序称为 单遍常数内存算法 ，因为它只遍历一次输入，而它的工作记忆是有限的. (事实上，在这个案例中，result非 $0$ 即 $1)$ 这样一个算法称为 确定性有穷自动机 或 DFA (DFAs的另一个名字是 有限自动机 ). 我们可以把这样一种算法视作一个拥有 $C$ 个状态的“机器“，其中 $C$ 为常数. 这样一种机器从某个初始状态开始，然后从输入 $x \in {0.1}^{*}$ 中一次读取一个位只要这个机器读入了一个位 $σ \in {0, 1}$ ，它就会根据 $σ$ 和先前的状态转换到一个新的状态. 机器的输出决定于最终状态. 每个单遍常数内存算法都和这样一个机器一致. 如果这个算法使用了 $c$ 位内存，那么其内存中的内容就能用一个长度为 $c$ 的串表达. 因此对于这样一个算法的任意一个执行点，其都在至多 $2^{c}$ 个状态之中.

我们可以通过一个 $C \cdot 2$ 条规则的列表来指明一个拥有 $C$ 个状态的DFA². 每条规则都有这样的形式: “如果DFA位于状态 $v$ ，读入的输入位为 $s i g ma$ ，则新状态为 $v^{'}$ ”. 在计算的最后，会有一个具有形式“如果最终状态为下列中的一者 … 则输出 $1$ ，否则输出 $0$ “的规则. 举例而言，上述的Python程序可以用一个两个状态的自动机来计算 $XOR :$

初始化为状态 $0.$
对每个状态 $s \in {0, 1}$ 和读取的输入位 $σ$ ，如果 $σ = 1$ 则将状态转移为 $1 - s$ ，否则停留在状态 $s .$
最终当且仅当 $s = 1$ 时输出 $1.$

我们也可以用一个带标号的 $C$ 个顶点的图来描述 $C$ 个状态的DFA. 随每个状态 $s$ 和位 $σ$ ，我们添加一条带有标号 $σ$ 的从 $s$ 到 $s^{'}$ 的有向边，使得若DFA位于状态 $s$ 且读入 $σ$ ，则DFA转移到状态 $s^{'} .$ (如果状态不变，则这个边是一个指向原状态的圈; 相似地，如果 $s$ 在 $σ = 0$ 和 $σ = 1$ 两种情况下都转移为状态 $s^{'}$ ，则图上会有两条平行的边)同时也会标明在最后使自动机输出 $1$ 的状态集 $S .$ 这个集合称为 接受状态 集.

图 6.3给出了XOR自动机的图形表示

xorautomatonfig

图 6.3. 一个计算XOR函数的有穷自动机. 其有两个状态 $0$ 和 $1,$ 当它读入 $σ$ 时，它从 $v$ 转移到 $v \oplus σ .$

形式化地讲，一个DFA由 (1) $C \cdot 2$ 条规则构成的表格，该表格用 转移函数 $T$ 表示. $T$ 将状态 $s \in [C]$ 和位 $σ \in {0, 1}$ 映射到状态 $s^{'} \in [C] .$ DFA将会在输入 $σ$ 下从状态 $s$ 转移到 $s^{'};$ 和 (2) 接受状态集 $S$

定义 6.1 (确定性有穷自动机).

一个在 ${0, 1}$ 上定义的 $C$ 个状态的确定性有穷自动机是一个对 $(T, S) .$ 其中 $T : [C] \times {0, 1} \to [C]$ 而 $S \subseteq [C] .$ 有限函数 $T$ 称为DFA的 转移函数 . 集合 $S$ 称为 接受状态 集.

令 $F : {0, 1}^{*} \to {0, 1}$ 为无限域 ${0, 1}^{*}$ 上的布尔函数. 对于任意 $n \in N$ 和 $x \in {0, 1}^{n}$ ，定义 $s_{0} = 0$ 且对任意 $i \in [n]$ ， $s_{i + 1} = T (s_{i}, x_{i})$ ，若有 $s_{n} \in S \Leftrightarrow F (x) = 1$ 则称 $(T, S)$ 计算函数 $F : {0, 1}^{*} \to {0, 1} .$

暂停一下

确保你没有混淆自动机的 转移函数 (定义 6.1中的 $T)$ 与其所计算的函数(定义 6.1中的 $F) .$ 前者是一个有限函数，指明了自动机所遵循的规则的表格; 后者是一个无限函数.

Info

备注 6.1 (其他教材中的定义).

确定性有穷自动机可以通过几种等价的方法定义.

特别地，Sisper在Sipser，1997将DFA定义为五元组 $(Q, Σ, δ, q_{0}, F)$ ，其中 $Q$ 为状态集， $Σ$ 为字母表， $δ$ 为转移函数， $q_{0}$ 是初始状态， $F$ 为接受状态集.

该书中状态集总是如下形式 $Q = {0, \dots, C - 1}$ 而初状态总是 $q_{0} = 0$ ，但这对这些模型的计算能力没有影响. 因此，我们将注意力局限在字母表 $Σ$ 与 ${0, 1}$ 相等的情况.

Question

练习 6.2 (识别 $(010)^{*} 的 D F A$ ).

证明计算下列函数 $F$ 的DFA存在:

$F (x) = {10 3 整除 ∣ x ∣ 且 \forall_{i \in [∣ x ∣/3]} x_{3 i} x_{3 i + 1} x_{3 i + 2} = 010 否则$

对练习 6.2的解答

当要求构造一个DFA时，可以首先通过更加一般的、形式化的方式，来构造一个单遍常数内存算法，这通常是有效的. (例如使用伪代码或者一个python程序). 一旦得到了这样一个算法，就可以机械式地将其翻译为一个DFA. 以下是计算 $F$ 的一个简单Python程序:

def F(X):
    '''当且仅当X是零个或多个[0,1,0]的拼接时返回1'''
    if len(X) % 3 != 0:
        return False
    ultimate = 0
    penultimate = 1
    antepenultimate = 0
    for idx, b in enumerate(X):
        antepenultimate = penultimate
        penultimate = ultimate
        ultimate = b
        if idx % 3 == 2 and ((antepenultimate, penultimate, ultimate) != (0,1,0)):
            return False
    return True

既然我们维护了三个布尔变量，工作记忆就可以是 $2^{3} = 8$ 种配置中的一个，因此上述程序可以直接翻译为一个 $8$ 状态DFA. 尽管这对解决问题没有必要，通过检查结果DFA，会发现可以通过合并一些状态得到一个 $4$ 状态自动机，该自动机在图 6.4中描述. 图 6.5中描述了在一个特定输入上这个DFA的运行.

DFA010afig

图 6.4. 一个仅在输入 $x \in {0, 1}^{*}$ 为零个或多个 $010$ 的拼接时输出 $1$ 的DFA. 状态 $0$ 既是初始状态又是唯一的接受状态. 表格表示了转移函数 $T .$ 它将当前状态和读到的符号映射到一个新状态.

对自动机的剖析(有限vs无界)

既然我们已在考虑输入长度无界的计算任务，将算法中拥有 固定长度 的组件，和大小随输入增长的组件区分开，是非常关键的任务. 对于DFAs而言，要分类的是下列部分:

固定大小组件: 给定一个DFA $A$ ，下列量是固定的，与输入大小无关:

$A$ 中状态数 $C .$
转移函数 $T$ (有 $2 C$ 种输入，因此可以用一个 $2 C$ 行的表格描述，每一项都是 $[C]$ 中的一个数字).
接收状态集 $S \subseteq [C] .$ 该集合可以用一个 ${0, 1}^{C}$ 中的串描述，以指明哪些状态位于 $S$ 中而哪些没有.

以上这些意味着，可以通过有限多个符号完全地描述一个自动机. 这是我们要求的任何一种“算法“的概念都拥有的一个共同性质: 我们应当能够写下如何从输入生成输出的完整规范.

无界大小组件: 以下关于DFA的量不以任何常数作为上界. 需要强调的是，对于任何给定的输入，它们仍然是有限的.

提供给DFA的输入 $x \in {0, 1}^{*}$ 的大小. 输入长度总是有限的，但是不能预先设定上界.
DFA执行的步数可以随输入长度而增长. 事实上，DFA进行单次便利，因此对于一个输入 $x \in {0, 1}^{*}$ ，它精确地执行 $∣ x ∣$ 步.

DFA010executionfig

图 6.5. 图 6.4中DFA的执行过程. 状态数和转移函数的大小是有界的，但是输入可以是任意长的. 如果DFA位于状态 $s$ 且读取值 $σ$ ，则其转移到状态 $T (s, σ) .$ 在执行的最后，当且仅当最终状态位于 $S$ 时DFA接受该输入.

DFA可计算函数

如果有一个 $D F A$ 可以计算 $F$ ，就称一个函数 $F : {0, 1}^{*} \to {0, 1}$ 是 DFA可计算的 . 在第四章中，我们发现每个有限函数都可以被某些布尔电路计算，因此，在此刻，你可能会希望每个函数都可以被某些 DFA计算. 然而，有很多并不是这种情况. 我们马上就会发现一些简单的，却无法被DFA计算的无限函数. 但对于初学者，我们先证明这样的函数是存在的.

定理 6.2 (DFA可计算的函数是可数的).

让 $D F A COMP$ 为全体使得存在一个DFA计算 $F$ 的布尔函数 $F : {0, 1}^{*} \to {0, 1}$ 的集合. 则 $D F A COMP$ 可数.

对定理 6.2的证明思路

每个DFA都能用一个有限长度的串来描述，从而产生一个从 ${0, 1}^{*}$ 到 $D F A COMP$ 的满射: 更准确地说，这个函数将一个描述自动机 $A$ 的串对应到 $A$ 计算的函数.

对定理 6.2的证明

每个DFA都能用一个表示转移函数 $T$ 和接收状态集的串描述，而每个DFA $A$ 都计算某些函数 $F : {0, 1}^{*} \to {0, 1} .$ 因此可以定义如下函数 $St D C : {0, 1}^{*} \to D F A COMP :$ $St D C (a) = {F ONE a 表示自动机 A 且 F 是 A 计算的函数否则$ 其中 $ONE : {0, 1}^{*} \to {0, 1}$ 是对于所有输入，其均输出 $1$ 的常函数(也是 $D F A COMP$ 中的一个函数). 因此根据定义，每个 $D F A COMP$ 中的函数 $F$ 都可以被某些自动机计算，而 $St D C$ 是从 ${0, 1}^{*}$ 到 $D F A COMP$ 的满射，这就意味着 $D F A COMP$ 可数. (见节 2.4.2) $□$

因为所有布尔函数的集合是不可数的，所以有如下推论:

定理 6.3 (DFA不可计算函数的存在性).

存在一个布尔函数 $F : {0, 1}^{*} \to {0, 1}$ 不能被 任何的 DFA计算.

对定理 6.3的证明

如果每个布尔函数 $F$ 都可以被一些DFA计算，那么 $D F A COMP$ 就与集合 $A LL$ (所有布尔函数的集合)相等. 但根据定理2.12，后者不可数，又与定理 6.2相矛盾. $□$

6.3 正则表达式

搜索一段文本是计算中的一个常见任务. 从本质上说， 搜索问题 非常简单. 我们有一个串集 $X = {x_{0}, \dots, x_{k}}$ (例如硬盘上的文件，或数据库中的学生记录)，而用户想要找到一个所有被某些模式匹配的 $x \in X$ 构成的子集. (例如，所有名称以串.txt结尾的文件) 在最一般的情况下，我们允许用户通过指定一个(可计算的) 函数 $F : {0, 1}^{*} \to {0, 1}$ 来指明模式，其中 $F (x) = 1$ 与 $x$ 的模式匹配相一致. 这就是说，用户提供一个用像 Python 这样的编程语言编写的程序 $P$ ，而系统返回所有使 $P (x) = 1$ 的 $x \in X .$ 举例而言，我们可以搜索所有包含串important document的文本文件，或是(让 $P$ 与一个基于神经网络的分类器相一致)所有包含猫的图片. 然而，我们希望系统不会为了尝试求程序 $P$ 的值，而因此陷入死循环! 因此，典型的搜索文件和数据库的系统不允许用户用功能齐全的编程语言来指定模式. 相反，这样的系统使用 受限计算模型 . 这种模型一方面 足够丰富 ，可以捕捉许多实践中需要的查询(例如，所有以.txt结尾的文件名，或者所有形如(617)xxx-xxxx的电话号码)，但另一方面受到的限制又足够大，使大型文件中的查询变得非常高效，并避免其陷入死循环.

这种计算模型中最流行的一种是正则表达式. 如果你使用过一个高级的文本编辑器，一个命令行终端，或者进行过任何种类的、对文本文件的大批量操作，那么你很有可能对正则表达式有所耳闻.

在字母表 $Σ$ 上定义的 正则表达式 由 $Σ$ 上的元素通过连接操作， $∣$ 操作(与或一致)和 $*$ 操作(与重复零到多次一致)组合而成. 举例而言，接下来的正则表达式在字母表 ${0, 1}$ 上定义，并与所有使每个数位重复至少两次的串 $x \in {0, 1}^{*}$ 所构成的集合一致: $(00 (0^{*}) ∣11 (1^{*}))^{*}$

下列正则表达式定义在字母表 ${a, \dots, z, 0, \dots, 9}$ 上，并与所有这样的串形成的集合一致——该串由两个序列连接: 第一个序列由至少一个 $a$ - $d$ 的字母形成; 第二个序列由至少一个数位形成(无前导零).

$(a ∣ b ∣ c ∣ d) (a ∣ b ∣ c ∣ d)^{*} (1∣2∣3∣4∣5∣6∣7∣8∣9) (0∣1∣2∣3∣4∣5∣6∣7∣8∣9)^{*} (6.1)$

形式化地说，正则表达式由以下递归定义所定义:

定义 6.2 (正则表达式). 字母表 $Σ$ 上定义的 正则表达式 $e$ 是 $Σ \cup {(,), ∣, *, \emptyset, ""}$ 上的一个串，并具有下列形式之一

$e = σ$ ，其中 $σ \in Σ$
$e = (e^{'} ∣ e^{''})$ ，其中 $e^{'}, e^{''}$ 为正则表达式
$e = (e^{'}) (e^{''})$ 其中 $e^{'}, e^{''}$ 为正则表达式(当不会混淆时，通常省略括号并写为 $e^{'} e^{''} .$ )
$e = (e^{'})^{*}$ 其中 $e^{'}$ 为正则表达式最终还有两个“边界条件“: $e = \emptyset$ and $e = "" .$ 这些正则表达式分别与不接受任何串和只接受空串一致.

在能从上下文中推断出来时，我们也会忽略括号. 我们也使用或运算和连接运算左结合的惯例，并且给 $*$ 运算最高的优先级，然后是连接，最后是或. 因此，举例来说，我们写的是 $0 0^{*} ∣11$ 而不是 $((0) (0^{*})) ∣ ((1) (1)) .$

每个正则表达式 $e$ 都与一个函数 $Φ_{e} : Σ^{*} \to {0, 1}$ 一致，其中若 $x$ 匹配正则表达式，则 $Φ_{e} (x) = 1.$ 举例说，若 $e = (00∣11)^{*}$ 则 $Φ_{e} (110011) = 1$ 而 $Φ_{e} (101) = 0$ (你知道为什么吗)

暂停一下

$Φ_{e}$ 的形式化定义是那种写比掌握麻烦的类型. 因此第一时间自己搞清楚其定义，再检查其是否与下列的定义相符，可能会更加简单.

定义 6.3 (匹配正则表达式). 令 $e$ 为字母表 $Σ$ 上的正则表达式函数 $Φ_{e} : Σ^{*} \to {0, 1}$ 定义如下:

若 $e = σ$ ，则当且仅当 $x = σ$ 时 $Φ_{e} (x) = 1.$
若 $e = (e^{'} ∣ e^{''})$ ，则 $Φ_{e} (x) = Φ_{e^{'}} (x) \lor Φ_{e^{''}} (x)$ ，其中 $\lor$ 为或运算符.
若 $e = (e^{'}) (e^{''})$ ，则当且仅当存在 $x^{'}, x^{''} \in Σ^{*}$ 使得 $x$ 为 $x^{'}$ 和 $x^{''}$ 的连接，且 $Φ_{e^{'}} (x^{'}) = Φ_{e^{''}} (x^{''}) = 1$ 时， $Φ_{e} (x) = 1.$
若 $e = (e^{'}) *$ ，则当且仅当存在 $k \in N$ 和 $x_{0}, \dots, x_{k - 1} \in Σ^{*}$ 使得 $x$ 为 $x_{0} \dots x_{k - 1}$ 的连接，且对每个 $i \in [k]$ ，均有 $Φ_{e^{'}} (x_{i}) = 1$ 时 $Φ_{e} (x) = 1.$
最终, 对边界条件 $Φ_{\emptyset}$ 是常 $0$ 函数, 而 $Φ_{""}$ 只在输入空串时输出 $1.$ 对一个串 $x \in Σ^{*}$ ，若 $Σ$ 上的正则表达式 $e$ 使 $Φ_{e} (x) = 1$ ，就说 $e$ 匹配 $x .$

暂停一下

上述的定义本身并不是什么难事，但很麻烦. 所以你应该在此处停下并再看一次上述定义，直到你理解为什么该定义与我们对正则表达式的直观概念是相一致的. 这不仅对理解正则表达式本身(在许多应用中经常使用)很重要，对更好地理解一般的递归定义也一样.

若一个布尔函数在输出 $1$ 时，所有的输入串都能够被某些正则表达式匹配，就说这个布尔函数是“正则的“.

定义 6.4 (定义6.8). 正则函数/语言令 $Σ$ 为一个有限集，而 $F : Σ^{*} \to {0, 1}$ 为一个布尔函数. 若存在某个正则表达式 $e$ ， $F = Φ_{e}$ ，就称 $F$ 是正则的. 类似的，对每个形式语言 $L \subseteq Σ^{*}$ ，称 $L$ 是正则的当且仅当存在某个正则表达式 $e$ 使得 $x \in L$ 当且仅当 $e$ 匹配 $x .$

样例 6.1 (一个正则函数). 令 $Σ = {a, b, c, d, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9}$ 而 $F : Σ^{*} \to {0, 1}$ 使得 $F (x)$ 当且仅当 $x$ 是一个或多个 $a$ - $d$ 组成的序列接上一个或多个数位组成的序列(无前导零) 则 $F$ 就是一个正则函数，因为 $F = Φ_{e}$ ，其中 $e = (a ∣ b ∣ c ∣ d) (a ∣ b ∣ c ∣ d)^{*} (1∣2∣3∣4∣5∣6∣7∣8∣9) (0∣1∣2∣3∣4∣5∣6∣7∣8∣9)^{*}$

即(6.1)

举例而言，如果要验证 $Φ_{e} (ab c 12078) = 1$ ，注意到 $(a ∣ b ∣ c ∣ d)$ 匹配 $a$ ， $(a ∣ b ∣ c ∣ d)^{*}$ 匹配 $b c$ ， $(1∣2∣3∣4∣5∣6∣7∣8∣9)$ 匹配 $1$ ， $(0∣1∣2∣3∣4∣5∣6∣7∣8∣9)^{*}$ 匹配 $2078.$ 其中这些式子又可以被归结为一些更简单的表达式. 例如 $(a ∣ b ∣ c ∣ d)^{*}$ 匹配 $b c$ ，因为 $b$ 和 $c$ 被表达式 $a ∣ b ∣ c ∣ d$ 所匹配.

正则表达式可以在任意有限字母表 $Σ$ 上定义. 但是和之前一样，我们主要关注 二进制情况 ，其中 $Σ = {0, 1} .$ 绝大部分(如果不是所有的话)关于正则表达式的理论和实践的真知灼见都可以从研究二进制情况得到.

6.3.1 匹配正则表达式的算法

除非能计算以下问题，否则正则表达式在搜索方面并不会很有用: 给定一个正则表达式 $e$ ，串 $x$ 是否被 $e$ 匹配. 幸运的是，这样一个算法存在. 准确地说，存在一个算法(你可以想成“Python程序“，尽管稍后就会用 图灵机 来形式化算法的概念)，该算法输入一个正则表达式 $e$ 和串 $x \in {0, 1}^{*}$ ，当且仅当 $e$ 匹配 $x$ 时输出 $1$ (即，输出 $Φ_{e} (x))$

实际上，定义 6.3已经指明了一个计算 $Φ_{e}$ 的递归算法. 准确地说，操作——连接，或，星号³——可以被视作这样一个过程: 对测试某个表达式 $e$ 是否匹配 $x$ 的任务，将其归约到测试 $e$ 的某个子表达式是否匹配 $x$ 的某个子串. 因为这些子表达式总是比原式短，所以这个判定 $e$ 是否匹配 $x$ 的递归算法最终会在最基础的表达式上停止: 与空串或者当个符号一致.

算法 6.1 (正则表达式匹配).

$输入：在 Σ^{*} 上定义的正则表达式 e, x \in Σ^{*} 输出： Φ_{e} (x) procedure Match (e, x) if (e = \emptyset) return 0; if (x = "") return MatchEmpty (e); if (e \in Σ) return 1 iff x = e; if (e = (e^{'} ∣ e^{''})) return {Match (e^{'}, x) 或 Match (e^{''}, x)}; if (e = (e^{'}) (e^{''})) for (i \in [∣ x ∣]) if (Match (e^{'}, x_{0} \dots x_{i - 1}) 且 Match (e^{''}, x_{i} \dots x_{∣ x ∣ - 1})) return 1; endfor endif if (e = (e^{'})^{*}) e^{'} = "" return Match ("", x); # ("") 与 "" 相同 for (i \in [∣ x ∣]) # x_{0} \dots x_{i - 1} 比 x 短 if (Match (e, x_{0} \dots x_{i - 1}) 且 Match (e^{'}, x_{i} \dots x_{∣ x ∣ - 1})) return 1; endfor endif return 0 endproc$

以上代码假定已经编写了一个过程 $MatchEmpty$ ，其当且仅当 $e$ 匹配空串 $""$ 时输出 $1.$

一个关键的观察结果为，在对正则表达式的递归定义中，无论 $e$ 是由一个还是两个表达式 $e^{'}, e^{''}$ 组成的，这两个正则表达式都比 $e$ 小最终(当其长度为 $1)$ 时，它们一定和单个字母的非递归情形一致. 相应地，算法 6.1中的递归调用总是和一个更短的表达式或者(在表达式具有形式 $(e^{'})^{*}$ 的情况下)一个更短的输入串相一致. 因此，当输入具有形式 $(e, x)$ 时，通过在 $min {∣ e ∣, ∣ x ∣}$ 上做递归，可以证明算法 6.1的正确性. 归纳奠基是 $x = ""$ 或 $e$ 为单独的一个字母， $""$ 或 $\emptyset.$ 在表达式具有形式 $e = (e^{'} ∣ e^{''})$ 或 $e = (e^{'}) (e^{''})$ 时，用更短的表达式 $e^{'}, e^{''}$ 做递归调用在表达式具有形式 $e = (e^{'})^{*}$ 时，在一个更短的字符串 $x$ 与同样的表达式，或更短的表达式 $e^{'}$ 与一个字符串 $x^{'}$ 上做递归调用，其中的 $x^{'}$ 长度小于等于 $x .$

⁴

练习 6.3 (匹配空串).

给出一个匹配空串的算法. 该算法输入为正则表达式 $e$ ，且满足当且仅当 $Φ_{e} ("") = 1$ 时输出 $1$

对练习 6.3的解答

可以通过以下观察结果给出这样一个递归算法

具有形式 $""$ 或 $(e^{'})^{*}$ 的表达式总是匹配空串
具有形式 $σ$ ，其中 $σ \in Σ$ 是一个字母，不匹配空串
正则表达式 $\emptyset$ 不匹配空串
具有形式 $e^{'} ∣ e^{''}$ 的表达式当且仅当 $e^{'}$ 或 $e^{''}$ 匹配空串时才匹配
具有形式 $(e^{'}) (e^{''})$ 的表达式当且仅当 $e^{'}$ 和 $e^{''}$ 都匹配空串时才匹配

根据以上的观察结果，可以给出下列算法来判断 $e$ 是否匹配空串

算法 6.2 (匹配空串).⁵

$输入：在 Σ^{*} 上定义的正则表达式 e, x \in Σ^{*} 输出：当且仅当 e 匹配空串时输出 1 procedure MatchEmpty (e) if (e = "") return 1; if (e = \emptyset 或 e \in Σ) return 0; if (e = (e^{'} ∣ e^{''})) return MatchEmpty (e^{'}) 或 MatchEmpty (e^{''}); if (e = (e^{'}) (e^{''})) return MatchEmpty (e^{'}) and MatchEmpty (e^{''}); if (e = (e^{'})^{*}) return 1; endproc$

6.4 高效匹配正则表达式(可选)

算法 6.1并不高效举例而言，给定一个包含连接或“*“操作的表达式和一个长度为 $n$ 的串，它需要 $n$ 次递归调用. 因此，在最劣情况下，算法 6.1花费的时间是输入串 $x$ 长度的指数级别. 幸运的是，有快得多的算法可以在线性时间(即 $O (n))$ 内匹配正则表达式. 鉴于还没提到时间和空间复杂度的话题，我们将像在编程入门课程和白板编程面试中做的那样，不给出计算模型，而使用高级术语描述这个算法，其中使用的 $O (n)$ 运行时间的概念是口语化的. 我们将会在第13章中介绍时间复杂度的形式化定义

定理 6.4 (在线性时间内匹配正则表达式).

给定一个正则表达式 $e$ ，则存在 $O (n)$ 时间的算法计算 $Φ_{e}$

定理 6.4中 $O (n)$ 术语所隐含的常数取决于表达式 $e$ 因此，另一个描述定理 6.4的方法是对于每个表达式 $e$ ，都会有一个常数 $c$ 和一个算法 $A$ 使得在 $n$ 位输入上计算 $Φ_{e}$ 最多需要 $c \cdot n$ 步因为在实践中，通常希望对一个短的正则表达式 $e$ 和大的文档 $x$ 计算 $Φ_{e} (x)$ ，所以这是有意义的. 定理 6.4告诉我们，可以在运行时间随文档大小线性增大的情况下计算 $Φ_{e} (x)$ ，即使运行时间可能更依赖于正则表达式的大小

我们通过给出一个高效的递归算法来证明定理 6.4. 该算法将判定 $e$ 是否匹配串 $x \in {0, 1}$ 的任务归约到判定相关表达式 $e^{'}$ 是否匹配 $x_{0}, \dots, x_{n - 2} .$ 该算法使得表达式的运行时间拥有形式 $T (n) = T (n - 1) + O (1),$ 解得 $T (n) = O (n) .$

正则表达式的限制: 定理 6.4背后的算法，其中心定义是正则表达式的限制的概念其思想为: 对每个正则表达式 $e$ 和字母 $σ$ ，有可能定义一个正则表达式 $e [σ]$ 使得 $e [σ]$ 匹配 $x$ 当且仅当 $e$ 匹配匹配串 $x σ .$ 例如，如果 $e$ 是正则表达式 $(01)^{*} (01)$ (即 $01$ 出现一次或多次)，那么 $e [1]$ 与 $(01)^{*} 0$ 等价而 $e [0]$ 为 $\emptyset.$ (你能发现是为什么吗)

算法 6.3计算给定正则表达式 $e$ 和字母 $σ$ 的限制 $e [σ] .$ 该算法总会结束，因为其递归调用时传递的表达式总比输入的表达式小. 其正确性可以通过对正则表达式 $e$ 的长度进行归纳证明，归纳奠基是 $e$ 为 $""$ ， $\emptyset$ ，或一个单独的字母 $τ$ 时.

算法 6.3 (限制正则表达式). $输入：在 Σ 上定义的正则表达式 e ，符号 σ \in Σ 输出：正则表达式 e^{'} = e [σ] ，使得 Φ_{e^{'}} (x) = Φ_{e} (x σ) 对每个 x \in Σ^{*} 成立 procedure Restrict (e, σ) if (e = "" 或 e = \emptyset) return \emptyset; if (e = τ 其中 τ \in Σ) return "" 若 τ = σ 否则 return \emptyset; if (e = (e^{'} ∣ e^{''})) return (Restrict (e^{'}, σ) ∣ Restrict (e^{''}, σ)); if (e = (e^{'})^{*}) return (e^{'})^{*} (Restrict (e^{'}, σ)); if (e = (e^{'}) (e^{''}) 且 Φ_{e^{''}} ("") = 0) return (e^{'}) (Restrict (e^{''}, σ)); if (e = (e^{'}) (e^{''}) 且 Φ_{e^{''}} ("") = 1) return (e^{'} Restrict (e^{''}, σ)) ∣ Restrict (e^{'}, σ); endproc$

通过限制的概念，可以定义如下匹配正则表达式的递归算法

算法 6.4 (在线性时间内匹配正则表达式).

$输入：在 Σ^{*} 上定义的正则表达式 e ， x \in Σ^{n} 其中 n \in N 输出： Φ_{e} (x) procedure FMatch (e, x) if (x = "") return MatchEmpty (e); 令 e^{'} \leftarrow Restrict (e, x_{n - 1}) return FMatch (e^{'}, x_{0} \dots x_{n - 2}) endproc$

根据限制的定义，对于每个 $σ \in Σ$ 和 $x^{'} \in Σ^{*}$ ，表达式 $e$ 匹配 $x^{'} σ$ 当且仅当 $e [σ]$ 匹配 $x^{'} .$ 因此对每个 $e$ 和 $x \in Σ^{n}$ ， $Φ_{e [x_{n - 1}]} (x_{0} \dots x_{n - 2}) = Φ_{e} (x)$ 和算法 6.4确实给出了正确的结果. 剩下的唯一任务就是分析其 运行时间 . 需要注意的是，算法 6.4在归纳奠基 $x = ""$ 时使用练习 6.3中的 $MatchEmpty$ 过程. 然而，因为这个过程的运行时间只依赖于 $e$ ，与原输入的长度无关，所以没有问题.

简单起见，我们将注意力限制在字母表 $Σ$ 与 ${0, 1}$ 相等的情况. 定义 $C (ℓ)$ 为，给定最大符号数 $ℓ$ ，输入定义在 ${0, 1}$ 上的符号数不超过最大符号数的正则表达式，算法 6.3所能进行的最大操作次数. 可以发现 $C (ℓ)$ 的值是关于 $ℓ$ 的多项式. 然而这对我们的定理并不重要，因为我们只关心计算 $Φ_{e} (x)$ 时运行时间对 $x$ 长度的依赖而不关心其对 $e$ 长度的依赖.

算法 6.4是输入表达式 $e$ 和串 $x \in {0, 1}^{n}$ 的递归算法. 其计算过程为在最多运行 $C (∣ e ∣)$ 后，以某些表达式 $e^{'}$ 和长度为 $n - 1$ 的串 $x^{'}$ 为输入调用自身. 它将在 $n$ 步运行后结束，此时它到达一个长度为 $0$ 的串. 因此，对长度为 $n$ 的输入，用算法 6.3计算 $P h i_{e}$ 的运行时间 $T (e, n)$ 满足以下递归方程:

$T (e, n) = max {T (e [0], n - 1), T (e [1], n - 1)} + C (∣ e ∣) (6.2)$

(在归纳奠基 $n = 0$ 时， $T (e, 0)$ 是某个只与 $e$ 有关的常数. )

为了对(6.2)有直观印象，我们展开一层递归，将 $T (e, n)$ 写作 $T (e, n) = max {T (e [0] [0], n - 2) + C (∣ e [0] ∣), T (e [0] [1], n - 2) + C (∣ e [0] ∣), T (e [1] [0], n - 2) + C (∣ e [1] ∣), T (e [1] [1], n - 2) + C (∣ e [1] ∣)} + C (∣ e ∣)$

如此继续，可以发现 $T (e, n) \leq n \cdot C (L) + O (1)$ ，其中 $L$ 是这么做时会遇到的最长的表达式 $e^{'}$ 的长度. 因此，如下声明足以说明算法 6.4在运行时间是 $O (n) :$

声明

令 $e$ 是定义在 ${0, 1}$ 上的正则表达式，则有 $L (e) \in N$ 使得对符号序列 $α_{0}, \dots, α_{n - 1}$ ，再定义 $e^{'} = e [α_{0}] [α_{1}] \dots [α_{n - 1}]$ (即，将 $e$ 限制在 $α_{0}$ 上，然后是 $α_{1}$ ，以此类推)，则 $∣ e^{'} ∣ \leq L (e) .$

对上述声明的证明

对于一个定义在 ${0, 1}$ 上的正则表达式 $e$ 和 $α \in {0, 1}^{m}$ ，我们用 $e [α]$ 来指代表达式 $e [α_{0}] [α_{1}] \dots [α_{m - 1}]$ ，其通过将 $e$ 限制在 $α_{0}$ 上，再是 $α_{1}$ ，以此类推得到. 令 $S (e) = {e [α] ∣ α \in {0, 1}^{*}} .$ 通过说明对每个 $e$ ，集合 $S (e)$ 是有限的，因此 $L (e)$ 也一样，其为 $e^{'} \in S (e)$ 中 $e^{'}$ 的最大长度，从而证明该声明.

我们通过在 $e$ 的结构上做归纳证明这一点. 如果 $e$ 是符号，空串，或者空集，则可以直截了当地说明 $S (e)$ 能含有的最多的表达式就是只有这个表达式本身， $""$ 和 $\emptyset.$ 对其余情况，我们分为两类: (i) $e = e^{' *}$ 和 (ii) $e = e^{'} e^{''}$ ，其中 $e^{'}, e^{''}$ 是更小的表达式(因此根据归纳假设 $S (e^{'})$ 和 $S (e^{''})$ 有限).

在情况 (i) 中，若 $e = (e^{'})^{*}$ 则 $e [α]$ 要么等于 $(e^{'})^{*} e^{'} [α]$ 要么在 $e^{'} [α] = \emptyset$ 时为空集合. 因为 $e^{'} [α]$ 在集合 $S (e^{'})$ 中，所以 $S (e)$ 中不同表达式的个数最多为 $∣ S (e^{'}) ∣ + 1.$

在情况 (ii) 中，若 $e = e^{'} e^{''}$ ，则 $e$ 在串 $α$ 上的所有限制要么具有形式 $e^{'} e^{''} [α]$ ，要么具有形式 $e^{'} e^{''} [α] ∣ e^{'} [α^{'}]$ ，其中 $α^{'}$ 为使得 $α = α^{'} α^{''}$ 成立的串，其中 $e^{''} [α^{''}]$ 匹配空串.

因为 $e^{''} [α] \in S (e^{''})$ 和 $e^{'} [α^{'}] \in S (e^{'})$ ，所以具有形式 $e [α]$ 的可能不同的表达式的数量最多有 $∣ S (e^{''}) ∣ + ∣ S (e^{''}) ∣ \cdot ∣ S (e^{'}) ∣$ 个. 这就完成了对该声明的证明. $□$

最重要的是，在一个正则表达式 $e$ 上运行算法 6.4时，会遇到的所有表达式都在有限集 $S (e)$ 中，不论输入 $x$ 多大. 因此算法 6.4的运行时间满足等式 $T (n) = T (n - 1) + C^{'}$ ，其中 $C^{'}$ 是依赖于 $e$ 的常数. 最终解得 $O (n)$ ，O记号中隐含的常数可以(且将会)依赖于 $e$ ，并且，重要的是，不依赖于输入 $x$ 的长度.

6.4.1 用DFAs匹配正则表达式

定理 6.4非常令人印象深刻，但是我们可以做得更好. 准确的说，不管 $x$ 有多长，都可以通过维护一个常数大小的内存并进行对 $x$ 的 单次遍历 来计算 $Φ_{e} (x) .$ 也就是说，这个算法将会从输入 $x$ 的开头扫描到结尾，然后判定 $x$ 是否被 $e$ 匹配. 在常见情况下，我们会尝试在巨大的文件或文档中匹配简短的正则表达式，这些文件或文档甚至没法整个装在电脑的内存里，此时这一特点尤为重要. 当然，如前所述，一个单遍常数内存算法仅仅就是一个确定性有穷自动机. 就像在定理 6.6中将要看到的那样，一个函数能被正则表达式计算 当且仅当 它能被一个DFA计算. 我们从证明“仅当“开始:

定理 6.5 (匹配正则表达式的DFA).

令 $e$ 为正则表达式. 则有输入 $x \in {0, 1}^{*}$ 的计算 $Φ_{e} (x)$ 算法，其对 $x$ 进行单次遍历并维护一个常数大小的内存.

对定理 6.5的证明思路

算法 6.5给出了一个匹配正则表达式的单遍常数内存算法来检查正则表达式是否匹配一个串. 其思路在于使用“记忆化搜索“的方法，将算法 6.4这一个递归算法用动态规划的算法替代. 如果你还没有上过算法课，你可能不知道这些技巧，这没有关系; 尽管这个更高效的算法对正则表达式的实践应用十分关键，对这本书却并不是很重要.

算法 6.5 (匹配正则表达式). $输入：定义在 Σ^{*} 上的正则表达式 e ，串 x \in Σ^{n} 其中 n \in N 输出： Φ_{e} (x) procedure DFAMatch (e, x) 令 S \leftarrow S (e) 为线性时间匹配定理的证明中定义的集合 {e [α] ∣ α \in Σ^{*}} for (e^{'} \in S) 当 Φ_{e^{'}} ("") = 1 时，令 v_{e^{'}} \leftarrow 1 否则为 v_{e^{'}} \leftarrow 0 endfor for (i \in [n]) 对每个 e^{'} \in S ，令 l a s t_{e^{'}} \leftarrow v_{e^{'}} 对每个 e^{'} \in S ，令 v_{e^{'}} \leftarrow l a s t_{e^{'} [x_{i}]} endfor return v_{e} endproc$

对定理 6.5的证明

算法 6.5判定给定的串 $x \in Σ^{*}$ 是否被正则表达式 $e$ 所匹配.

对每个正则表达式，这个算法都有恒定数量的布尔变量(更准确地说，对每个 $e^{'} \in S (e)$ 有一个变量 $v_{e^{'}}$ 和 $l a s t_{e^{'}} .$ 该算法利用了一个事实: 对每个 $e^{'} \in S (e)$ ， $e^{'} [x_{i}]$ 都在 $S (e)$ 中. ) 其对输入串进行单次遍历. 因此与一个DFA一致.

我们通过归纳输入长度 $n$ 来证明其正确性. 准确地说，我们将论证，在读入 $x_{i}$ 之前，对每个 $e; \in S (e)$ ，变量 $v_{e^{'}}$ 与 $Φ_{e^{'}} (x_{0} \dots x_{i - 1})$ 相等.

因为初始对每个 $e^{'} \in S (e)$ ，让 $v_{e^{'}} = Φ_{e^{'}} (""),$ 所以 $i = 0$ 的情况成立对 $i > 0$ 的情况，归纳法证明其成立. 归纳假设表明对每个 $e^{'} \in S (e)$ ，都有 $l a s t_{e^{'}} = Φ_{e^{'}} (x_{0} \dots x_{i - 2}) .$ 而根据集合 $S (e^{'})$ 的定义，对每个 $e^{'} \in S (e)$ ， $x_{i - 1} \in Σ$ 和 $e^{''} = e^{'} [x_{i - 1}]$ ， $e^{''} = e^{'} [x_{i - 1}]$ 位于 $S (e)$ 中而 $Φ_{e^{'}} (x_{0} \dots x_{i - 1}) = Φ_{e^{''}} (x_{0} \dots x_{i}) .$ $□$

6.4.2 正则表达式和自动机的等价性

回忆以下，若存在某个正则表达式 $e$ ，布尔函数 $F : {0, 1}^{*} \to {0, 1}$ 与 $P h i_{e}$ 相等，则称其为 正则的 . (等价地，若存在某个正则表达式 $e$ ，语言 $L \subseteq {0, 1}^{*}$ 满足当且仅当 $x \in L$ 时 $e$ 匹配 $x$ ，则称其为 正则的 ). 下述定理是自动机理论的核心:

定理 6.6 (DFA与正则表达式的等价性).

令 $F : {0, 1}^{*} \to {0, 1} .$ 则 $F$ 正则当且仅当存在DFA $(T, S)$ 计算 $F .$

对定理 6.6的证明思路

一个方向由定理 6.5证明，其说明对每个正则表达式 $e$ ，函数 $Φ_{e}$ 可以被一个DFA计算(见样例图 6.6). 在另一个方向上，我们说明给定一个DFA $(T, S)$ ，对每个 $v, w \in [C]$ 都可以找到这样一个正则表达式: 当且仅当DFA从状态 $v$ 出发，在读取 $x$ 后最终会到达 $w$ 时，该正则表达式才匹配串 $x \in {0, 1}^{*} .$

automatonfig

图 6.6. 计算函数 $Φ_{(01)^{*}}$ 的确定性有穷自动机.

dfatoreg1fig

图 6.7. 给定一个 $C$ 状态DFA，对于每个 $v, w \in [C]$ 和数 $t \in {0, \dots, C}$ ，定义函数 $F_{v, w}^{t} : {0, 1}^{*} \to {0, 1}$ ，其输入为 $x \in {0, 1}^{*} .$ 当且仅当DFA从状态 $v$ 出发，在给定输入为 $x$ 的情况下，最后会到达状态 $w$ ，且过程中仅通过了中间状态 ${0, \dots, t - 1}$ ，则函数值为 $1.$

对定理 6.6的证明

既然定理 6.5已经证明了“仅当“方向，现在只需要证明“当“方向. 令 $A = (T, S)$ 为一个 $C$ 状态DFA，其计算函数 $F$ ，需要证明 $F$ 是正则的.

对每个 $v, w \in [C]$ ，令 $F_{v, w} : {0, 1}^{*} \to {0, 1}$ 为这样的函数: 当且仅当DFA $A$ 从状态 $v$ 出发，读入输入 $x \in {0, 1}^{*}$ 后会到达状态 $w$ ，则其将 $x$ 映射到 $1.$ 现在将要证明 $F_{v, w}$ 对每个 $v, w$ 都正则. 这将证明该定理. 因为根据定义 6.1， $F (x)$ 等于对所有 $F_{0, w} (x)$ 取或，其中 $w \in S .$ 因此一旦能够为每个具有形式 $F_{v, w}$ 的函数写出一个正则表达式，(通过使用 $∣$ 操作)也就可以得到 $F$ 的正则表达式.

为了给出函数 $F_{v, w}$ 的正则表达式，现在从定义函数 $F_{v, w}^{t}$ 开始: 对每个 $v, w \in [C]$ 和 $0 \leq t \leq C$ ， $F_{v, w}^{t} (x) = 1$ 当且仅当自动机从 $v$ 出发接受输入 $x$ 后到达 $w$ 且 *所有的中间状态都在集合 $[t] = {0, \dots, t - 1}$ 中 . (见图 6.7)

这就是说，尽管 $v, w$ 可能会在 $[t]$ 之外， $F_{v, w}^{t} (x) = 1$ 当且仅当在输入 $x$ (从 $v$ 出发)时自动机运行过程中永不进入 $[t]$ 之外的状态并在 $w$ 结束. 当 $t = 0$ 时 $[t]$ 就是空集，因此 $F_{v, w}^{0} (x) = 1$ 当且仅当自动机在输入 $x$ 时直接从 $v$ 转移到 $w$ 而不经过任何的中间状态. 当 $t = C$ 时所有的状态都在 $[t]$ 中，因此 $F_{v, w}^{t} = F_{v, w} .$

现在通过归纳 $t$ 来证明这个定理，说明对所有 $v, w$ 和 $t$ ， $F_{v, w}^{t}$ 正则.

对于 归纳奠基 $t = 0$ ，对所有的 $v, w$ ， $F_{v, w}^{0}$ 都正则，因为它可以被表示为表达式 $""$ ， $\emptyset$ ， $0$ ， $1$ 或 $0∣1$ 中的一个.

准确地说，若 $v = w$ ，则 $F_{v, w}^{0} (x) = 1$ 当且仅当 $x$ 为空串. 若 $v \neq = w$ ，则 $F_{v, w}^{0} (x) = 1$ 当且仅当 $x$ 为单个字母 $σ \in {0, 1}$ 且 $T (v, σ) = w .$

因此在这种情况中， $F_{v, w}^{0}$ 与四个正则表达式 $0∣1$ ， $0$ ， $1$ 和 $\emptyset$ 中的一个相一致，并取决于 $A$ 从 $v$ 转移到 $w$ 时读取的是 $0$ 或 $1$ ，还是仅为两个符号中的一者，或者都不是.

归纳步骤 : 刚刚已经说明了归纳奠基，现在通过归纳法来证明一般情况. 归纳假设为对每个 $v^{'}, w^{'} \in [C]$ ，都有正则表达式 $R_{v^{'}, w^{'}}^{t}$ 计算 $F_{v^{'}, w^{'}}^{t} .$ 需要证明的是对每个 $v, w$ ， $F_{v, w}^{t + 1}$ 正则. 如果自动机从 $v$ 到 $w$ 时访问了中间状态 $[t + 1]$ ，则其访问了第 $t$ 个状态零次或多次.

如果一个路径标号为 $x$ ，使得自动机从 $v$ 到 $w$ ，并且过程中不需要访问第 $t$ 个状态，则 $x$ 被正则表达式 $R_{v, w}^{t}$ 匹配; 如果一个路径标号为 $x$ ，使得使得自动机从 $v$ 到 $w$ ，并且过程中需要访问第 $t$ 个状态 $k > 0$ 次，则可以将该路径视为:

首先，从 $v$ 到 $t$ ，期间访问的中间状态均位于 $[t - 1] .$
然后，回到自身 $k - 1$ 次，期间访问的中间状态均位于 $[t - 1] .$
最后，从 $t$ 到 $w$ ，期间访问的中间状态均位于 $[t - 1] .$

因此在该情况下，字符串被正则表达式 $R_{v, t}^{t} (R_{t, t}^{t})^{*} R_{t, w}^{t}$ 匹配. (又见图 6.8) 因此可以使用以下正则表达式计算 $F_{v, w}^{t + 1} :$ $R_{v, w}^{t} ∣ R_{v, t}^{t} (R_{t, t}^{t})^{*} R_{t, w}^{t}$

归纳步骤证明完毕，进而定理得证明. $□$

dfatoreginductivefig

图 6.8. 若对于每个 $v^{'}, w^{'} \in [C]$ ，均有与 $F_{v^{'}, w^{'}}^{t}$ 相一致的正则表达式 $R_{v^{'}, w^{'}}^{t}$ ，则可以得到一个与 $F_{v^{'}, w^{'}}^{t + 1}$ 相一致的正则表达式 $R_{v^{'}, w^{'}}^{t + 1} .$ 关键的观察结果在于，一个可能经过的状态均在 ${0, \dots, t}$ 中的，从 $v$ 到 $w$ 的路径，要么完全不通过 $t$ ——这种情况被 $R_{v, w}^{t}$ 所捕捉; 要么从 $v$ 到 $t$ ，然后回到 $t$ 零或多次，最终从 $t$ 到 $w$ ——这种情况被 $R_{v, t}^{t} (R_{t, t}^{t})^{*} R_{t, w}^{t}$ 所捕捉.

6.4.3 正则表达式的闭包性质

若 $F$ 和 $G$ 分别是被 $e$ 和 $f$ 计算的正则函数，则表达式 $e ∣ f$ 计算函数 $H = F \lor G,$ 其定义为 $H (x) = F (x) \lor G (x) .$ 另一个说法是，正则函数族 在或运算下封闭 . 这就是说，如果 $F$ 和 $G$ 正则，则 $F \lor G$ 也一样. 定理 6.6的重要推论是这个集合也在非运算下封闭

引理 6.1 (正则表达式在补运算下封闭).

若 $F : {0, 1}^{*} \to {0, 1}$ 正则，则函数 $\overline{F}$ 也正则，其中对每个 $x \in {0, 1}^{*}$ ， $\overline{F} (x) = 1 - F (x) .$

对引理 6.1的证明

如果 $F$ 正则，则根据定理 6.4，其可被DFA $A$ 计算. 然后可构造一个DFA $\overline{A}$ ，其进行的计算相同，但是翻转了接受状态集. DFA $\overline{A}$ 将计算 $\overline{F} .$ 根据定理 6.6，这表明 $\overline{F}$ 也是正则的. $□$

因为 $a \land b = \overline{\overline{a} \lor \overline{b}}$ ，引理 6.1表明正则函数族在与操作下也同样封闭. 进一步说，因为或，非，与是通用的基础运算，这个集合在与非，异或，和其它有限函数的运算下也封闭. 这就是说，我们有如下推论

定理 6.7 (正则表达式的闭包性质).

令 $f : {0, 1}^{k} \to {0, 1}$ 为任意有限布尔函数，令 $F_{0}, \dots, F_{k - 1} : {0, 1}^{*} \to {0, 1}$ 为正则函数，则函数 $G (x) = f (F_{0} (x), F_{1} (x), \dots, F_{k - 1} (x))$ 正则.

对定理 6.7的证明

这是正则函数在或运算和非运算(因此也有与运算)下的封闭性，与定理 4.7——其声明每个 $f$ 都可以被一个布尔电路计算(其只不过是与、或、非运算的结合)——结合的直接结果. $□$

6.5 正则表达式的限制与泵引理

正则表达式的高效匹配使其分外实用. 通常来说，操作系统和文本编辑器都限制其搜索接口，不允许任意指明一个函数，并采用正则表达式，其原因就在此处. 然而，这种高效是有代价的. 如我们所见，正则表达式无法计算所有函数. 实际上，有很多简单(而且有用! )的函数无法被正则表达式计算. 以下是一个样例:

引理 6.2 (匹配括号).

令 $Σ = {⟨, ⟩}$ ，而 $M A TC H P A REN : Σ^{*} \to {0, 1}$ 为这样一个函数: 给定一个括号串，其输出 $1$ 当且仅当对于每一个左括号，都有一个右括号与其配对. 则没有定义在 $Σ$ 上的正则表示能够计算 $M A TC H P A REN .$

引理 6.2是如下结果的一个推论，该结果也被称为泵引理 :

定理 6.8 (泵引理). 令 $e$ 为定义在字母表 $Σ$ 上的正则表达式，则有这样一个数字 $n_{0}$ ，使得对于每个 $w \in Σ^{*}$ ，其中 $w$ 使得 $∣ w ∣ > n_{0}$ 且 $Φ_{e} (w) = 1$ ，有串 $x, y, z \in Σ *$ 使得 $w = x yz$ ，并满足以下条件:

$∣ y ∣ \geq 1.$
$∣ x y ∣ \leq n_{0} .$
对每个 $k \in N$ ，有 $Φ_{e} (x y^{k} z) = 1.$

pumpinglemmafig

图 6.9. 为了证明“泵引理“，我们观察一个串 $w$ ，正则表达式 $e$ 能够匹配它,并且 $w$ 比 $e$ 大得多. 在这种情况下， $w$ 的一部分一定会被具有形式 $(e^{'})^{*}$ 的子表达式匹配，而这是唯一允许表达式匹配比其长的串的操作. 如果我们考虑“最左“的、具有该形式的子表达式，并定义 $y^{k}$ 是被其匹配的串，我们就得到了泵引理需要的部分.

对定理 6.8的证明思路

证明思路如下. 令 $n_{0}$ 为表达式 $e$ 中使用的字母数的两倍，串 $w$ 满足 $∣ w ∣ > n_{0}$ 且 $Φ_{e} (w) = 1$ ，则串 $w$ 存在的唯一方法是 $e$ 中含有操作 $*$ (即，闭包操作)，且 $w$ 有一个非空子串 $y$ 被 $(e^{'}) *$ 匹配，其中 $e^{'}$ 为 $e$ 的子串. ⁶我们可以重复 $y$ 任意多次，而所得的串仍然被匹配. 又见图 6.9

暂停一下

泵引理声明起来比较麻烦，但是记忆它的一个方法是，泵引理实际上只说了这句话: “如果一个被正则表达式的串足够长，那么它的一个子串一定是被 $*$ 运算符所匹配的” .

对定理 6.8的证明

通过归纳表达式的长度可以形式化地证明该引理.

像所有的归纳证明一样，该证明会比较长，但在结尾给出符合我们直觉结果——我们一定在某处使用了闭包运算. 阅读该证明，特别地，去理解以下的形式化证明如何与上面的直观思路相一致，是更好地熟悉该种归纳证明的好方法.

归纳假设为对于一个长度为 $n$ 的表达式， $n_{0} = 2 n$ 符合引理要求的条件.

归纳奠基 为当表达式为当个字母 $σ \in Σ$ 或者 $\emptyset$ 或 $"" .$ 在这些情况中引理显然成立，因为 $n_{0} = 2$ ，而不可能有长度大于 $n_{0}$ 的串被该表达式匹配.

我们现在证明 归纳步骤 . 令 $e$ 为有 $n > 1$ 个符号的正则表达式，让 $n_{0} = 2 n$ 且串 $w \in Σ^{*}$ 满足 $∣ w ∣ > n_{0} .$ 既然 $e$ 有多于一个符号，则其具有下列形式之一: (a) : $e^{'} ∣ e^{''};$ (b) : $(e^{'}) (e^{''});$ (c) $(e^{'})^{*} .$ 在所有情况中，子表达式 $e^{'}$ 与 $e^{''}$ 的符号数都少于 $e$ ，因此符合归纳假设.

在情况 (a) 中，每个被 $e$ 匹配的串 $w$ 都被 $e^{'}$ 与 $e^{''}$ 中的一者匹配. 若 $e^{'}$ 匹配 $w$ ，则根据归纳假设以及 $∣ w ∣ > 2∣ e^{'} ∣$ ，有 $x, y, z$ ，其中 $∣ y ∣ \geq 1$ 与 $∣ x y ∣ \leq 2∣ e^{'} ∣ < n_{0}$ 使得对每个 $k$ ， $e^{'}$ (因此 $e = e^{'} ∣ e^{''}$ 也一样)匹配 $x y^{k} z .$ 当 $e^{''}$ 匹配 $w$ 时同理.

在情况 (b) 中，若 $w$ 被 $(e^{'}) (e^{''})$ 匹配，则有 $w = w^{'} w^{''}$ ，其中 $e^{'}$ 匹配 $w^{'}$ 而 $e^{''}$ 匹配 $w^{''} .$ 我们现在分类讨论. 若 $∣ w^{'} ∣ > 2∣ e^{'} ∣$ 则根据归纳假设有 $x, y, z^{'}$ 满足 $∣ y ∣ \geq 1$ ， $∣ x y ∣ \leq 2∣ e^{'} ∣ < n_{0}$ 使得 $w^{'} = x y z^{'}$ ，且对每个 $k \in N$ 有 $e^{'}$ 匹配 $x y^{k} z .$ 如果我们令 $z = z^{'} w^{''}$ ，则 $w = w^{'} w^{''} = x yz$ ，且对于每个 $k \in N$ 有 $e = (e^{'}) (e^{''})$ 匹配 $x y^{k} z .$ 否则，若 $∣ w^{'} ∣ \leq 2∣ e^{'} ∣$ ，又 $∣ w ∣ = ∣ w^{'} ∣ + ∣ w^{''} ∣ > n_{0} = 2 (∣ e^{'} ∣ + ∣ e^{''} ∣)$ ，则必定有 $∣ w^{''} ∣ > 2∣ e^{''} ∣.$ 因此根据归纳假设有 $x^{'}, y, z$ 使得 $∣ y ∣ \geq 1$ ， $∣ x^{'} y ∣ \leq 2∣ e^{''} ∣$ 且对每个 $k \in N$ 有 $e^{''}$ 匹配 $x^{'} y^{k} z .$ 而我们现在令 $x = w^{'} x^{'}$ ，则有 $∣ x y ∣ = ∣ w^{'} ∣ + ∣ x^{'} y ∣ \leq 2∣ e^{'} ∣ + 2∣ e^{''} ∣ = n_{0} .$ 而另一方面对每个 $k \in N$ ，表达式 $e = (e^{'}) (e^{''})$ 匹配 $x y^{k} z = w^{'} x^{'} y^{k} z .$

在情况 (c) 中，若 $w$ 被 $(e^{'})^{*}$ 匹配，则 $w = w_{0} \dots w_{t}$ ，其中对每个 $i \in [t]$ ， $w_{i}$ 是一个被 $e^{'}$ 匹配的非空串. 若 $∣ w_{0} ∣ > 2∣ e^{'} ∣$ ，我们可以用与上述连接运算情况相同的方法. 否则，注意到若 $x$ 是空串， $y = w_{0}$ 且 $z = w_{1} \dots w_{t}$ 则 $∣ x y ∣ \leq n_{0}$ 且对每个 $k \in N$ ， $x y^{k} z$ 被 $(e^{'})^{*}$ 匹配. $□$

Info

备注 6.2 (递归定义与归纳证明).

当一个对象是 递归定义的 (像是正则表达式)，则通过归纳证明这种对象的性质是自然的. 也就是说，我们我们想要证明所有这种类型的对象都具有性质 $P$ ，则我们可以很自然地采取这样的归纳步骤: 若 $o^{'}, o^{''}, o^{'''}$ 等具有性质 $P$ ，则通过结合它们产生的对象 $o$ 也一样.

通过泵引理，我们可以轻易地证明引理 6.2(即“括号匹配“函数的非正则性):

对引理 6.2的证明

为了使用反证法，我们假设有一个表达式 $e$ 使得 $Φ_{e} = M A TC H P A REN .$ 令 $n_{0}$ 为定理 6.8中的数，而 $w = ⟨^{n_{0}} ⟩^{n_{0}}$ (即， $n_{0}$ 个左括号跟着 $n_{0}$ 个右括号). 则若如定理 6.8中那样写出 $w = x yz$ ， $∣ x y ∣ \leq n_{0}$ 表明 $y$ 完全由左括号组成. 因此 $x y^{2} z$ 中的左括号比右括号更多. 因此 $M A TC H P A REN (x y^{2} z) = 0.$ 但根据泵引理 $Φ_{e} (x y^{2} z) = 1$ ，与假设 $Φ_{e} = M A TC H P A REN$ 矛盾. $□$

对于一个确定的函数，在说明该函数不能被正则表达式计算的方面，泵引理是一个有效的工具. 然而，这并不是正则性的“充分必要“条件: 存在一个非正则的函数，其满足泵引理的条件. 为了理解泵引理，遵循定理 6.8中量词的顺序是很关键的. 特别地，定理 6.8所描述的数字 $n_{0}$ 取决于所选的正则表达式(上述证明选择了表达式所用符号数的两倍). 所以，为了使用泵引理来排除计算某个函数 $F$ 的正则表达式 $e$ 的存在性，就需要能够选择一个合适的输入 $w .$ 它要能够任意地增大，并且满足F(w)=1. 如果你仔细思考泵引理后蕴含的直观，就会发现上述内容是很有意义的: 足够大的 $w$ 才能强制性地要求使用闭包运算.

pumpinglemmaprooffig 图 6.10. 一个漫画，其内容是使用泵引理来证明 $F$ 不正则. 泵引理宣称: 如果 $F$ 正则，就一定会有一个数 $n_{0}$ ，使得对所有足够大的满足 $F (w) = 1$ 的 $w$ ，存在 $w$ 的一个划分 $w = x yz$ 满足特定的条件，使得对所有 $k \in N$ ， $F (x y^{k} z) = 1.$ 你可以将一个基于泵引理的证明视作你和对手间的一场竞赛. 每个存在量词都对应着你可以自由选择的对象(其基于先前选择的对象). 每个全称量词都对应着对手可以任意选择的满足条件的对象(并且也基于先前的选择). 一个有效的证明对应着无论对手做什么，你都可以取胜的策略. 该策略通过构造一个矛盾来取胜. 其是对 $k$ 的一个选择，使得 $F (x y^{k} z) = 0$ 成立，同时又使得泵引理的结论有效.

练习 6.4 (回文非正则).

证明对于定义在字母表 ${0, 1,;}$ 上的函数 $P A L (w)$ 非正则: $P A L (w) = 1$ 当且仅当 $w = u; u^{R}$ ，其中 $u \in {0, 1}^{*}$ 且 $u^{R}$ 代表 $u$ “反转”: 串 $u_{∣ u ∣ - 1} \dots u_{0} .$ ( 回文函数定义时一般不需要一个显式的分隔符，但带有分隔符的版本更加简洁，因为我们在此处使用它. 这并没有什么影响，因为分隔符可以很容易地用一个特殊的二进制串编码).

对练习 6.4的解答

此处采用泵引理. 为了使用反证法，假设有一个正则表达式 $e$ 计算 $P A L$ ，令 $n_{0}$ 为泵引理(定理 6.8)中的数. 考虑串 $w = 0^{n_{0}}; 0^{n_{0}} .$ 因为全部由零组成的串的反转仍为全部由零组成的串，所以 $P A L (w) = 1.$ 现在，根据选择引理，如果 $P A L$ 被 $e$ 计算，则可以写下 $w = x yz$ 使得 $∣ x y ∣ \leq n_{0}$ ， $∣ y ∣ \geq 1$ 且对每个 $k \in N$ 有 $P A L (x y^{k} z) = 1.$ 特别地， $P A L (x z) = 1$ 一定成立，但这就导致了矛盾，因为 $x z = 0^{n_{0} - ∣ y ∣}; 0^{n_{0}}$ ，所以其两部分并不一样长，所以并不是另一者的反转. $□$

另一个基于泵引理的证明见图 6.10，这是一个关于函数 $F : {0, 1}^{*} \to {0, 1}$ 非正规性证明的漫画，其中 $F (x) = 1$ 当且仅当存在 $n \in N$ 使得 $x = 0^{n} 1^{n}$ (即， $x$ 为一个连续零串拼接上一个同等长度的连续一串).

6.6 回答正则表达式的语义问题

正则表达式有着除搜索之外的其他应用. 例如，在编程语言的 语法分析器 、 编译器 和 解释器 的设计中，正则表达式通常用于定义词元 (例如一个有效的变量名，或者关键字). 正则表达式还有别的应用: 例如，近年来，互联网从固定的拓扑结构演化为“软件定义的网络“. 这样一个网络由可编程交换机进行路由，这些交换机实现了一些策略，例如“如果包被SSL验证，则把它转发到A，否则转发到B“. 为了表示这样的策略，我们需要一种语言，它一方面足够丰富，可以捕捉我们需要实现的策略; 另一方面又被充分地限制，从而可以在网络高速的要求下快速地执行它们，并能够回答像“C能否查看从A到B的包“这样的问题.

NetKAT网络编程语言通过正则表达式的一个变体来精确地实现这一点. 在这些应用中，我们不仅仅能够回答表达式 $e$ 能够匹配 $x$ ，同时也回答关于正则表达式的 语义问题 ，例如“表达式 $e$ 和 $e^{'}$ 是否计算同一个函数“ 以及 “是否存在串 $x$ 被 $e$ 匹配? “

接下来的定理说明我们可以回答后者:

定理 6.9 (正则语言的空性可计算).

存在一个算法，给定一个正则表达式 $e$ ，其输出 $1$ 当且仅当 $Φ_{e}$ 为常零函数.

对定理 6.9的证明思路

思路为，我们可以直接从表达式的结构中观察到这一点. $e$ 计算常零函数的唯一可能是 $e$ 具有形式 $\emptyset$ 或者通过 $\emptyset$ 与其他表达式连接得到.

对定理 6.9的证明

如果一个正则表达式计算的是常零函数，我们就定义其是“空的“. 给定一个正则表达式，通过以下规则，我们可以判定是否为空:

若 $e$ 具有形式 $σ$ 或 $""$ ，则其非空
若 $e$ 非空，则对所有的 $e^{'}$ ， $e ∣ e^{'}$ 均非空
若 $e$ 非空则 $e^{*}$ 非空
若 $e$ 与 $e^{'}$ 均非空，则 $e e^{'}$ 非空.
$\emptyset$ 为空.

通过这些规则，可以直接得出一个判定空性的递归算法. $□$

通过定理 6.9，我们可以得到判定两个正则表达式是否等价的算法. 这意味着它们计算相同的函数.

定理 6.10 (正则表达式的等价性可计算). 令函数 $REGEQ : {0, 1}^{*} \to {0, 1}$ 输入(串表示的)一对正则表达式 $e, e^{'}$ ， $REGEQ (e, e^{'}) = 1$ 当且仅当 $Φ_{e} = Φ_{e^{'}} .$ 则存在一个算法计算 $REGEQ .$

对定理 6.10的证明思路

证明思路是，对于给定的一对正则表达式 $e$ ， $e^{'}$ ，我们寻找一个表达式 $e^{''}$ 使得 $Φ_{e^{''}} (x) = 1$ 当且仅当 $Φ_{e} (x) \neq = Φ_{e^{'}} (x) .$ 因此 $Φ_{e^{''}}$ 为常零函数当且仅当 $e$ 与 $e^{'}$ 等价，则我们可以由此通过测试 $e^{''}$ 的空性来判定 $e$ 与 $e^{'}$ 的等价性.

对定理 6.10的证明

我们从定理 6.9中证明定理 6.10. (这两个定理实际上是等价的: 我们很容易从定理 6.10中证明定理 6.9，因为测试表达式空性和判定其与 $\emptyset$ 的等价性是一样的. )

对给定的两个表达式 $e$ 与 $e^{'}$ ，目标是计算表达式 $e^{''}$ 使得 $Φ_{e^{''}} (x) = 1$ 当且仅当 $Φ_{e} (x) \neq = Φ_{e^{'}} (x) .$ 可以发现， $e$ 与 $e^{'}$ 等价当且仅当 $e^{''}$ 为空.

我们从这样一个观察结果出发: 对每个位 $a, b \in {0, 1}$ ， $a \neq = b$ 当且仅当

$(a \land \overline{b}) \lor (\overline{a} \land b)$

因此我们需要构造这样一个 $e^{''}$ ，其对所有的 $x$ ，均有

$Φ_{e^{''}} (x) = (Φ_{e} (x) \land \overline{Φ_{e^{'}} (x)}) \lor (\overline{Φ_{e} (x)} \land Φ_{e^{'}} (x)) (6.3)$

为了构造这个表达式 $e^{''}$ ，我们会说明对于任意一对 $e$ 和 $e^{'}$ ，我们可以构造表达式 $e \land e^{'}$ 与 $\overline{e}$ ，其分别计算 $Φ_{e} \land Φ_{e^{'}}$ 和 $\overline{Φ_{e}} .$ (计算表达式 $e \lor e^{'}$ 是很直接的，只需使用 $∣$ 运算)

特别地，根据引理 6.1，正则函数在否运算下封闭. 这意味着对每个正则表达式 $e$ ，均有表达式 $\overline{e}$ 使得对所有 $x \in {0, 1}^{*}$ 均有 $Φ_{\overline{e}} (x) = 1 - Φ_{e} (x) .$

于是，对于所有的两个表达式 $e$ 与 $e^{'}$ ，表达式 $e \land e^{'} = \overline{(\overline{e} ∣ \overline{e^{'}})}$ 计算表达式的与运算.

给出了这两个变换，可以发现对所有的正则表达式 $e$ 与 $e^{'}$ ，都可以找到一个表达式 $e^{''}$ 满足(6.3)，使得 $e^{''}$ 为空当且仅当 $e$ 与 $e^{'}$ 等价. $□$

本章回顾

使用无限函数 $F : {0, 1}^{*} \to {0, 1}^{*}$ 对输入长度任意的计算任务建模.
这样一种函数输入一个任意长(但仍然有限! )的串，而且不能被一个由输入输出构成的有限表格描述.
被称为 布尔函数 的一类特殊函数，其输出为单个位. 计算该函数等价于判定一个语言 $L \subseteq {0, 1}^{*} .$
确定性有穷自动机 (DFAs)是计算(无限)布尔函数的一个简单模型.
有一些函数无法被DFAs计算.
DFAs可计算的函数族与正则表达式能识别的语言族相同.

6.7 习题

习题 6.1 (正则函数的闭性质).

假设 $F, G : {0, 1}^{*} \to {0, 1}$ 均正则. 对于下列每一个函数 $H$ 的定义，要么证明 $H$ 总正则; 要么给出一对正则的 $F, G$ 作为反例，使得 $H$ 非正则.

$H (x) = F (x) \lor G (x) .$
$H (x) = F (x) \land G (x)$
$H (x) = N A N D (F (x), G (x)) .$
$H (x) = F (x^{R})$ 其中 $x^{R}$ 是 $x$ 的反转: $x^{R} = x_{n - 1} x_{n - 2} \dots x_{o}$ for $n = ∣ x ∣.$
$H (x) = {10 x = uv 使得 F (u) = G (v) = 1 否则$
$H (x) = {10 x = uu 使得 F (u) = G (u) = 1 否则$ WWWW
$H (x) = {10 x = u u^{R} 使得 F (u) = G (u) = 1 否则$

习题 6.2.

下列是两个从 ${0, 1}^{*}$ 映射到 ${0, 1}$ 的函数，其中一个能被正则表达式计算，另一者不能. 对能被计算的那一者，写出确实能够计算其的表达式; 对于不能被计算的那一者，使用泵引理证明其不能.

$F (x) = 1$ 若 $4$ 整除 $\sum_{i = 0}^{∣ x ∣ - 1} x_{i}$ ，否则 $F (x) = 0.$
$G (x) = 1$ 当且仅当 $\sum_{i = 0}^{∣ x ∣ - 1} x_{i} \geq ∣ x ∣/4$ 否则 $G (x) = 0.$

习题 6.3 (非正则性).

证明下列函数 $F : {0, 1}^{*} \to {0, 1}$ 非正则. 对每个 $x \in {0, 1}^{*}$ ， $F (x) = 1$ 当且仅当 $x$ 具有形式 $x = 1^{3^{i}}$ ，其中 $i > 0.$
证明下列函数 $F : {0, 1}^{*} \to {0, 1}$ 非正则. 对每个 $x \in {0, 1}^{*}$ ， $F (x) = 1$ 当且仅当 $\sum_{j} x_{j} = 3^{i}$ ，其中 $i > 0.$

6.8 参考文献

正则表达式与有穷自动机的练习是一个优美的话题，本文中我们对其浅尝辄止. (Sipser, 1997)(Hopcroft, Motwani, Ullman, 2014)(Kozen, 1997)中对该话题涉及更多. 这些文章也讨论了像 非确定有穷自动机 (NFA)，以及上下文无关文法与下推自动机的关系.

图 6.4中的自动机由FSM simulator生成，作者为Ivan Zuzak和Vedrana Jankovic.

我们对于定理 6.4的证明与Myhill-Nerode定理联系紧密. Myhill-Nerode定理的一个方向可以被陈述为: 如果 $e$ 是一个正则表达式，则存在最多有限个串 $z_{0}, \dots, z_{k - 1}$ ，使得对每个 $0 \leq i \neq = j < k$ ，有 $Φ_{e [z_{i}]} \neq = Φ_{e [z_{j}]}$

1: 译者注: $Σ$ 中的元素称为字母，原著中提到其元素时使用的术语是字母表符号alphabet symbol，翻译时为了简洁使用字母这一个更加简单的术语

2: 译者注: 更准确地说，是 $C \cdot ∣Σ∣$ 条，但之后考虑的均为 $Σ = {0, 1}$ ，因此 $∣Σ∣ = 2$

3: 译者注: 准确的说法是闭包

4: 译者注: 事实上，以上过程仅仅证明了算法 6.1是会结束的，但是并没有证明正确性. 但上面的过程确实给出了证明其正确性的骨架，因此剩下的工作繁而不难

5: 译者注: 该算法并未要求输入串 $x \in Σ^{*} .$ 此处应为作者笔误

6: 译者注: 此处应为作者笔误，正确语句应当如下: 且 $w$ 有一个非空子串 $y$ 被 $e^{'}$ 匹配，其中 $(e^{'}) *$ 为 $e$ 的子串.

Warning

本章施工中

等价的计算模型

等价的计算模型

学习目标

了解RAM机(RAM Machine)与λ演算(λ Calculus)
掌握这些模型与图灵机及其他模型的等价关系
认识元胞自动机(Cellular Automata)与各种图灵机格局
理解Church-Turing论题

Quote

计算机科学的所有问题都可以通过增加一层间接寻址来解决

——大卫·惠勒(David Wheeler)

Quote

由于后续我们将使用函数表达式进行计算, 必须区分函数与形式, 并需要相应的表示法. 这一区分及其描述记法由Church提出, 我们仅作细微调整.

——约翰·麦卡锡(John McCarthy), 1960年(摘自描述LISP编程语言的论文)

到目前为止, 我们已经定义了使用图灵机计算函数的概念, 但这与实际的计算方法并不完全吻合. 本章将通过证明可计算函数的定义在各种计算模型下保持不变, 来论证这一选择的合理性. 这一概念被称为图灵完备性(Church completeness)或图灵等价性(Church equivalence), 是计算机科学中最基本的事实之一. 实际上, 被广泛认同的Church-Turing论题做了出了如下主张: 任何对可计算函数的“合理“定义, 都等价于通过图灵机可计算的概念. 我们将在8.8节讨论Church-Turing论题以及“合理“的可能定义.

本章讨论的主要计算模型包括:

RAM机: 图灵机与具备随机存取存储器(RAM, Random Access Memory)的标准计算架构并不对应, RAM机的数学模型更接近实际计算机, 但我们将看到它在计算能力上与图灵机等价. 我们还将讨论RAM机的一种编程语言变体, 称之为NAND-RAM. 图灵机与RAM机的等价性使得我们能够证明诸多流行编程语言的图灵等价性, 包括现实中使用的所有通用编程语言, 如C、Python、JavaScript等.
元胞自动机: 许多自然的和人工的系统都可以被建模为简单组件的集合, 每个组件根据其自身状态及其直接邻居的状态, 按照简单的规则进行演化. 一个著名的例子是康威的生命游戏(Conway’s Game of Life). 为了证明元胞自动机与图灵机等价, 我们将引入图灵机格局(configurations of Turing machines). 这些格局还有其他应用, 特别是在第11章用于证明哥德尔不完备定理——数学中的一个核心结果.
λ演算: λ演算是一种表达计算模型, 起源于20世纪30年代, 不过它与当今广泛使用的函数式编程语言密切相关. 证明λ演算与图灵机等价涉及一种名为“Y组合子“(Y Combinator)的消除递归的巧妙方法.

本章的一个非数学化概览

本章中我们将研究不同模型间的等价性. 如果两个计算模型能够计算的函数构成的集合是相同的, 则称它们是等价的(也称之为图灵等价). 例如, 我们已经看到图灵机与NAND-TM程序是等价的, 因为我们可以将每个图灵机转换为计算相同函数的NAND-TM程序, 同样地, 也可以将每个NAND-TM程序转换为计算相同函数的图灵机.

本章我们将证明这种等价性远不止于图灵机. 我们开发的技术使我们能够证明所有通用编程语言(即Python、C、Java等)都是图灵完备的, 即它们能够模拟图灵机, 因此能够计算所有图灵机可计算的函数. 我们还将证明其反向亦成立——图灵机可以用来模拟用任何这些语言编写的程序, 因此能够计算这些语言可计算的任何函数. 这意味着所有这些编程语言都是图灵等价的: 即它们在计算能力上等价于图灵机, 并且彼此等价. 这是一个强大的原理, 是计算机科学广泛影响的基础. 此外, 它使我们能够“鱼和熊掌兼得“——既然所有这些模型都是等价的, 我们可以为手头的任务选择方便的模型. 为了实现这种等价性, 我们定义了一种新的计算模型, 称为RAM机. RAM机比图灵机更接近现代计算机的架构, 但在计算能力上仍然与图灵机等价.

最后, 我们将证明图灵等价性远不止于传统编程语言, 作为极其简单的自然系统的数学模型的元胞自动机也是图灵等价的, 并且我们还将看到λ演算的图灵等价性——λ演算是一种用于表达函数的逻辑系统, 是Lisp、OCaml等函数式编程语言的基础.

本章成果概览见图 8.1.

图 8.1. 一些图灵等价模型. 所有这些模型在计算能力上都与图灵机(或等价的NAND-TM程序)等价, 因为它们能够计算完全相同的函数类. 所有这些模型都是用于计算接受无界长度输入的无限函数的模型. 相比之下, 布尔电路/NAND-CIRC程序只能计算有限函数, 因此不是图灵完备的.

8.1 RAM机与NAND-RAM

图灵机(以及NAND-TM程序)的一个局限性在于, 我们每次只能访问数组或磁带的一个位置. 如果磁头位于磁带的第 $22$ 位, 而我们想要访问第 $957$ 个位置, 那么我们至少需要 $923$ 步才能到达该位置. 相比之下, 几乎每种编程语言都提供了直接访问内存位置的形式化方法. 实际的物理计算机也提供了可以被视为一个大型数组Memory的随机存取存储器(RAM), 给定索引 $p$ (即内存地址或指针), 我们可以读取和写入Memory的第 $p$ 个位置. (“随机存取存储器“这一名称实际上用词有误, 因为它与概率无关, 但既然这是计算理论与实践中的标准术语, 我们也将沿用这一说法).

中这种内存访问进行建模的计算模型是RAM机(有时也称为字RAM模型(Word RAM Model)), 如图 8.2所示. RAM机的内存是一个大小无界的数组, 其中每个单元可以存储一个字(Word), 我们将其视为 ${0, 1}^{w}$ 的字符串, 同时(等价地)也视为 $[2^{w}]$ 中的一个数字. 例如, 许多现代计算架构使用64位的字, 每个内存位置保存一个 ${0, 1}^{64}$ 中的字符串, 这也可以视为一个介于 $0$ 到 $2^{64} - 1 = 18, 446, 744, 073, 709, 551, 615$ 之间的数字. 参数 $w$ 被称为字长(Word Size). 在实践中, $w$ 通常是一个固定数字(比如64), 但在理论研究中, 我们将 $w$ 建模为一个可以依赖于输入长度或步骤数的参数. (你可以将 $2^{w}$ 大致视为我们在计算中使用的最大内存地址)除了内存数组, RAM机还包含恒定数量的寄存器(Register) $r_{0}, \dots, r_{k - 1},$ 每个寄存器也能保存一个字.

ramvsturing

图 8.2. RAM机包含有限数量的局部寄存器(每个寄存器保存一个整数)和一个无界的内存数组. 它可以对寄存器执行算术运算, 还可以将内存中由寄存器 $r^{'}$ 中的数字索引的地址的内容加载到寄存器 $r$ 中.

RAM机可以执行的操作包括:

数据移动: 将内存中某个单元的数据加载到寄存器中, 或将寄存器的内容存储到内存的某个单元. RAM机可以直接访问内存的任何单元, 而无需像图灵机那样将“磁头“移动到该位置. 也就是说, RAM机可以在一步中将由寄存器 $r_{j}$ 索引的内存单元的内容加载到寄存器 $r_{i}$ 中, 或将寄存器 $r_{i}$ 的内容存储到由寄存器 $r_{j}$ 索引的内存单元中.
计算: RAM机可以对寄存器执行计算, 例如算术运算、逻辑运算和比较.
控制流: 与图灵机一样, 接下来执行什么指令的选择可以取决于RAM机的状态, 这由其寄存器的内容捕获.

图 8.3. RAM机和图灵机的不同方面. RAM机可以在其局部寄存器中存储整数, 并且可以读取和写入由其寄存器指定的内存位置. 相比之下, 图灵机只能访问其磁头位置的内存, 且磁头在每一步最多只能向右或向左移动一个位置.

我们不会给出RAM机的正式定义, 但参考文献部分(第8.10节)包含了这些定义的来源. 正如NAND-TM编程语言模拟图灵机一样, 我们也可以定义一种模拟RAM机的NAND-RAM编程语言. NAND-RAM编程语言通过添加以下特性扩展了NAND-TM:

NAND-RAM的变量允许是(非负)整数值的, 而不仅仅是NAND-TM中的布尔值. 也就是说, 标量变量foo保存的是 $N$ 中的非负整数(而不仅仅是 ${0, 1}$ 中的一位), 数组变量Bar保存的是一个整数数组. 与RAM机的情况一样, 我们不允许无界大小的整数. 具体来说, 每个变量保存一个介于 $0$ 和 $T - 1$ 之间的数字, 其中 $T$ 是程序到目前为止已执行的步骤数. (你现在可以忽略此限制: 如果我们想要保存更大的数字, 可以简单地执行虚拟指令；这在后面的章节中会有用)
我们允许对数组进行索引访问. 如果foo是标量而Bar是数组, 则Bar[foo]引用由foo的值索引的Bar的位置. (注意这意味着我们不再需要特殊的索引变量i)
正如编程语言中常见的情况, 我们假设对于布尔运算(如NAND), 零值整数被视为假, 非零值整数被视为真.
除了NAND之外, NAND-RAM还包括所有基本的算术运算: 加、减、乘、(整数)除, 以及比较(等于、大于、小于等).
NAND-RAM将条件语句if/then作为语言的一部分.
NAND-RAM包含循环结构, 例如while和do, 作为语言的一部分.

NAND-RAM编程语言的完整描述见附录. 然而, 关于NAND-RAM你需要了解的最重要的事实是你实际上并不需要太多了解NAND-RAM, 因为它在能力上等同于图灵机:

定理 8.1.(图灵机(即 NAND-TM 程序)与 RAM 机(即 NAND-RAM 程序)的等价性)

对于每个函数 $F : {0, 1}^{*} \to {0, 1}^{*},$ $F$ 可由 NAND-TM 程序计算, 当且仅当 $F$ 可由 NAND-RAM 程序计算.

由于NAND-TM程序等价于图灵机, 而NAND-RAM程序等价于RAM机, 定理 8.1表明所有这四种模型彼此之间是等价的.

图 8.4. 使用NAND-TM模拟NAND-RAM的定理 8.1证明步骤概览. 我们首先使用7.4.1节中的内部循环语法糖, 使得能够将整数从数组加载到NAND-TM的索引变量i. 一旦我们能这样做, 我们就可以在NAND-TM中模拟索引访问. 然后, 我们利用 $N^{2}$ 到 $N$ 的嵌入, 在NAND-TM中模拟二维位数组. 最后, 我们使用二进制表示将整数的一维数组编码为位的二维数组, 从而完成使用NAND-TM对NAND-RAM的模拟.

定理 8.1的证明思路

显然, NAND-RAM只会比NAND-TM更强大, 因此如果一个函数 $F$ 可由NAND-TM程序计算, 那么它也能由NAND-RAM程序计算. 具有挑战性的方向是将NAND-RAM程序 $P$ 转换为等价的NAND-TM程序 $Q .$ 要完整描述这个证明, 我们需要涵盖NAND-RAM语言的完整形式化规范, 并展示如何将其每一个特性实现为NAND-TM之上的语法糖.

这可以做到, 但详细检查所有操作相当繁琐. 因此, 我们将着重描述此转换背后的主要思想. (另见图 8.4)NAND-RAM在两个方面推广了NAND-TM: (a) 增加了对数组的索引访问(即Foo[bar]语法), 以及 (b) 从布尔值变量过渡到整数值变量. 该转换有两个步骤:

位数组的索引访问: 我们首先展示如何处理 (a). 即, 我们展示如何在NAND-TM中实现操作Setindex(Bar), 使得如果Bar是编码了某个整数 $j$ 的数组, 则在执行Setindex(Bar)后, i的值将等于 $j .$ 这将允许我们通过Setindex(Bar)后跟Foo[i]来模拟Foo[Bar]这种形式的语法.
二维位数组: 接着, 我们展示如何使用“语法糖“来为NAND-TM增加二维数组的功能. 即, 拥有两个索引i和j以及二维数组, 使得我们可以使用语法Foo[i][j]来访问Foo的(i,j)位置.
整数数组: 最后, 我们将一个整数的一维数组Arr编码为一个位的二维数组Arrbin. 思路很简单: 如果 $a_{i, 0}, \dots, a_{i, ℓ}$ 是Arr[ $i$ ]的一个二进制(无前缀)表示, 那么Arrbin[ $i$ ][ $j$ ]将等于 $a_{i, j} .$

一旦我们有了整数数组, 我们就可以使用我们常用的函数语法糖、GOTO等来实现NAND-RAM的算术和控制流操作.

上述方法并非获得定理 8.1证明的唯一途径, 例如可参见练习8.1.

备注8.2: RAM机/NAND-RAM与汇编语言(可选)

RAM机与现实中的微处理器(例如Intel x86系列中的那些)非常对应, 这些微处理器也包含一个大的主内存和数量固定的少量寄存器. 这当然并非偶然: 与图灵机相比, RAM机旨在更贴近地模拟实际计算系统的体系结构, 这种体系结构在很大程度上遵循了 (von Neumann, 1945) 报告中描述的所谓冯·诺依曼架构. 因此, NAND-RAM在其大致轮廓上类似于x86或NIPS等汇编语言. 这些汇编语言都具有以下指令: (1) 将数据从寄存器移动到内存, (2) 对寄存器执行算术或逻辑计算, 以及 (3) 条件执行和循环(在汇编语言语境中通常称为“分支“和“跳转“的“if“和“goto“).

RAM机与实际微处理器之间的主要区别(相应地, 也是NAND-RAM与汇编语言之间的主要区别)在于, 实际微处理器具有固定的字长 $w,$ 因此所有寄存器和内存单元保存的都是 $[2^{w}]$ 中的数字(或等价地, ${0, 1}^{w}$ 中的字符串). 这个数字 $w$ 在不同的处理器中可能不同, 但常见的值要么是 $32,$ 要么是 $64.$ 作为理论模型, RAM机没有这个限制, 我们反而让 $w$ 作为我们运行时间的对数(这也大致对应于其在实践中的值). 现实中的微处理器也具有固定数量的寄存器(例如, x86-64中有14个通用寄存器), 但这与RAM机相比差别不大. 可以证明, 只有两个寄存器的RAM机与拥有任意大的常数数量寄存器的完整RAM机具有同等能力.

当然, 现实中的微处理器也具有许多RAM机所不具备的特性, 包括并行性、内存层次结构以及许多其他特性. 然而, RAM机确实在初步近似下捕捉了实际计算机的特征, 因此(正如我们将看到的), 算法在RAM机上的运行时间(例如, $O (n)$ 对比 $O (n^{2}))$ 与其实际运行的效率高度相关.

8.2 具体细节(可选)

我们将不展示定理 8.1的完整形式化证明, 而是聚焦于最重要的部分: 实现索引访问, 以及用一维数组模拟二维数组. 即便如此, 描述这些部分也已经相当繁琐, 这对于任何写过编译器的人都不足为奇. 因此, 你可以随意略读本节. 重点不在于记住所有细节, 而在于明白原则上将一个NAND-RAM程序转换为等价的NAND-TM程序是可能的, 你自己如果想做也能完成.

8.2.1 NAND-TM中的索引访问

在NAND-TM中, 我们只能访问数组在索引变量i位置处的元素, 而NAND-RAM拥有整数值变量, 并能使用它们对数组进行索引访问, 写作Foo[bar]. 为了在NAND-TM中实现索引访问, 我们将使用某种无前缀编码(参见2.5.2节)在数组中编码整数, 然后提供一个过程Setindex(Bar)来将i设置为Bar编码的值. 我们可以通过先执行Setindex(Bar)再执行Foo[i]来模拟Foo[Bar]的效果.

Setindex(Bar)的实现可以通过以下方式完成:

初始化一个数组Atzero, 使得Atzero[ $0$ ] $= 1$ 并且对所有 $j > 0,$ Atzero[ $j$ ] $= 0.$ (这可以在NAND-TM中轻松完成, 因为所有未初始化的变量默认值为零)
通过递减i直到达到Atzero[i] $= 1$ 的点来将i设置为零.
令Temp为一个编码数字 $0$ 的数组.
我们使用GOTO来模拟一个内部循环, 形式如下: 当Temp $\neq =$ Bar时, 递增Temp.
在循环结束时, i等于由Bar编码的值.

在NAND-TM代码中(使用一些语法糖), 我们可以按如下方式实现上述操作:

# 假设Atzero是一个数组, 满足Atzero[0]=1
# 且对所有j>0, Atzero[j]=0

# 将i设置为0. 
LABEL("zero_idx")
dir0 = zero
dir1 = one
# 对应i <- i-1
GOTO("zero_idx",NOT(Atzero[i]))
...
# 将temp清零
#(下面的代码假设使用一种特定的无前缀编码, 其中10是"结束标记")
Temp[0] = 1
Temp[1] = 0
# 将i设置为Bar, 假设我们知道如何递增和比较
LABEL("increment_temp")
cond = EQUAL(Temp,Bar)
dir0 = one
dir1 = one
# 对应i <- i+1
INC(Temp)
GOTO("increment_temp",cond)
# 如果执行到这里, i就是Bar所编码的数字
...
# 程序的最终指令
MODANDJUMP(dir0,dir1)

8.2.2 NAND-TM中的二维数组

为了实现二维数组, 我们希望将它们嵌入到一个一维数组中. 思路是通过一个一一对应的函数 $embed : N \times N \to N,$ 从而将二维数组Two中的位置 $(i, j)$ 嵌入到一维数组One的位置 $embed (i, j)$ 中.

由于集合 $N \times N$ 看上去“远大于“集合 $N,$ 先验地来看, 这样的一个双射可能并不明显存在. 然而, 一旦你深入思考, 你就会发现构建它并不算太难. 例如, 你可以让一个孩子用剪刀和胶水将一张10英寸乘10英寸的纸转换成一条1英寸乘100英寸的纸带. 这本质上就是一个从 $[10] \times [10]$ 到 $[100]$ 的双射. 我们可以推广这一点, 得到一个从 $[n] \times [n]$ 到 $[n^{2}]$ 的双射, 更一般地, 得到一个从 $N \times N$ 到 $N$ 的双射.

具体来说, 下面的 $embed$ 函数可以做到这一点(见图 8.5): $embed (x, y) = \frac{1}{2} (x + y) (x + y + 1) + x$

Quote

图 8.5. 映射 $embed (x, y) = \frac{1}{2} (x + y) (x + y + 1) + x$ 对于 $x, y \in [10]$ 的示意图, 可以看出对于每一对不同的 $(x, y)$ 和 $(x^{'}, y^{'}),$ 都有 $embed (x, y) \neq = embed (x^{'}, y^{'})$

习题8.3要求你证明 $embed$ 确实是一个双射, 并且可以由一个NAND-TM程序计算. (后者可以通过简单地遵循小学所学的乘法、加法和除法算法来完成)这意味着我们可以将形式为Two[Foo][Bar] = something(即, 访问二维数组中由一维数组Foo和Bar编码的整数对应的位置)替换为如下形式的代码:

Blah = embed(Foo,Bar)
Setindex(Blah)
Two[i] = something

8.2.3 其他细节

一旦我们有了二维数组和索引访问, 用NAND-TM模拟NAND-RAM就只是在NAND-TM中实现算术运算和比较的标准算法的问题了. 虽然这很繁琐, 但并不困难, 最终的结果表明每个NAND-RAM程序 $P$ 都可以被一个等价的NAND-TM程序 $Q$ 模拟, 从而完成了定理 8.1的证明.

备注8.3: NAND-RAM中的递归(进阶)

递归是许多编程语言中都出现的一个概念, 但我们没有将其包含在NAND-RAM程序中. 然而, 递归(以及一般的函数调用)可以在NAND-RAM中使用栈数据结构来实现. 栈是一种包含一系列元素的数据结构, 我们可以按照“后进先出“的顺序向其中“压入“元素和从中“弹出“元素.

我们可以使用一个整数数组Stack和一个标量变量stackpointer(表示栈中的项目数量)来实现一个栈. 我们通过以下方式实现push(foo):

Stack[stackpointer]=foo
stackpointer += one

并通过以下方式实现bar = pop():

bar = Stack[stackpointer]
stackpointer -= one

我们通过将 $F$ 的参数压入栈中来实现对 $F$ 的函数调用. $F$ 的代码将从栈中“弹出“参数, 执行计算(可能涉及进行递归或非递归调用), 然后将其返回值“压入“栈中. 由于栈的“后进先出“特性, 直到所有递归调用完成, 我们才会将控制权返回给调用过程.

我们可以使用非递归语言实现递归这一事实并不令人惊讶. 实际上, 机器语言通常不具有递归(或一般的函数调用)功能, 因此编译器使用栈和GOTO来实现函数调用. 你可以在网上找到关于您最喜欢的编程语言(无论是Python、JavaScript还是Lisp/Scheme)中如何通过栈实现递归的教程.

8.3 图灵等价性(讨论)

图 8.6. 表示一条Fortran语句的打孔卡片

任何标准编程语言, 如C、Java、Python、Pascal、Fortran, 其操作都与NAND-RAM非常相似. (事实上, 它们最终都可以由具有固定数量寄存器和大型内存阵列的机器来执行)因此, 使用定理 8.1, 我们可以用NAND-TM程序来模拟任何此类编程语言中的程序. 反过来, 在任何上述编程语言中编写一个NAND-TM的解释器是一个相当简单的编程练习. 因此, 我们也可以使用这些编程语言来模拟NAND-TM程序(进而通过定理7.11来模拟图灵机). 这种在计算能力上等同于图灵机/NAND-TM的特性被称为图灵等价(有时也称为图灵完备). 因此, 我们熟悉的所有编程语言都是图灵等价的. ¹

8.3.1 “两全其美“的范式

图灵机与RAM机之间的等价性使我们能够为手头的任务选择最方便的语言:

当我们想要证明一个关于所有程序/算法的定理时, 我们可以使用图灵机(或NAND-TM), 因为它们更简单且易于分析. 特别是, 如果我们想证明某个函数无法被计算, 那么我们将使用图灵机.
当我们想要证明某个函数可以被计算时, 我们可以使用RAM机器或NAND-RAM, 因为它们更容易编程, 并且更接近于我们习惯的高级编程语言. 事实上, 我们通常会以非正式的方式描述NAND-RAM程序, 并相信读者能够填充细节并将简略的描述转换为精确的程序. (这就像人们通常使用非正式的或“伪代码“的算法描述方式, 并相信他们的受众知道在需要时将这些描述转换为代码一样)

我们对图灵机/NAND-TM和RAM机/NAND-RAM的使用, 与人们在实践中使用高级和低级编程语言的方式非常相似. 当人们想要制造一个执行程序的设备时, 为一种非常简单和“低级“的编程语言来实现是很方便的. 当人们想要描述一个算法时, 使用尽可能高级的形式体系是方便的.

图 8.7. 通过拥有两种等价语言NAND-TM和NAND-RAM, 我们可以“鱼与熊掌兼得“: 当我们想证明程序不能做某事时, 使用NAND-TM；当我们想证明程序能做某事时, 使用NAND-RAM或其他高级语言

重要启示

重要提示 8.1.

利用图灵机和RAM机之间的等价性, 我们可以“鱼与熊掌兼得“.

当我们想证明某事无法完成时, 可以使用更简单的模型(如图灵机)；当我们想证明某事可以完成时, 可以使用功能丰富的模型(如RAM机).

8.3.2 浅谈抽象层次

Quote

程序员处于一个独特的位置……他必须能够思考概念层次结构, 其深度是单个思维以前从未需要面对的.

*——Edsgar Dijkstra, 《论真正教授计算机科学的残酷性》, 1988年. *

在任何计算理论课程中的某个时刻, 教师和学生都需要进行那次谈话. 也就是说, 我们需要讨论描述算法时的抽象层次. 在算法课程中, 通常用英语描述算法², 假设读者能够“填充细节“, 并在需要时能够将此类算法转化为实现. 例如, 算法 8.1是广度优先搜索算法的高级描述.

算法 8.1 (广度优先搜索). $Input : 图 G, 顶点 u, v Output : 当 u 与 v 在图中联通时, 返回 " connected ", 否则返回 " disconnected " 初始化一个空队列 Q 将 u 放入 Q 中 while {Q 不为空} 将队列顶部的顶点 w 从 Q 中移除 if {w = v} return connected endif 标记 w 将 w 的所有未被标记的邻居加入 Q endwhile return disconnected$

如果我们想提供关于如何在Python或C(或NAND-RAM/NAND-TM)等编程语言中实现广度优先搜索的更多细节, 我们会描述如何用数组实现队列数据结构, 以及同样如何用数组标记顶点. 我们称这种“中间层次“的描述为实现级别(implementation level)或伪代码描述. 最后, 如果我们想精确地描述实现, 我们会给出程序的全部代码(或另一个完全精确的表示形式, 例如元组列表的形式). 我们称之为形式化或低级(low level)描述.

图 8.8. 我们可以用不同的粒度/细节和精确度级别来描述一个算法. 在最高级别, 我们只用文字描述想法, 省略所有关于表示和实现的细节. 在中间级别(也称为实现或伪代码), 我们提供足够的实现细节, 使他人能够推导出它, 但我们仍然不提供完整代码. 最低级别是实际代码或数学描述被完整阐述的地方. 这些不同的细节层次都有其用途, 在它们之间转换是计算机科学家最重要的技能之一

虽然我们开始时是在完全形式化的层面上描述NAND-CIRC、NAND-TM和NAND-RAM程序, 随着本书的深入, 我们将转向实现级别和高级别的描述. 毕竟, 我们的目标不是使用这些模型进行实际计算, 而是分析计算的一般现象. 也就是说, 如果你不理解高级描述如何转化为实际实现, “深入底层“通常是一个极好的练习. 计算机科学家最重要的技能之一就是能够在抽象层次结构中上下移动.

类似的区别也适用于将对象表示为字符串的概念. 有时, 为了精确起见, 我们会给出一个低级规范(low level specification), 确切说明一个对象如何映射到二进制字符串. 例如, 我们可能将 $n$ 个顶点的图的编码描述为长度为 $n^{2}$ 的二进制字符串, 通过说明我们将顶点集为 $[n]$ 的图 $G$ 映射到字符串 $x \in {0, 1}^{n^{2}},$ 其中 $x$ 的第 $n \cdot i + j$ 个坐标是 $1$ 当且仅当边 $i; j$ 存在于 $G$ 中. 我们也可以使用中间或实现级别的描述, 只需简单说明我们使用邻接矩阵表示法来表示图.

最后, 因为图(以及一般对象)的各种表示之间的转换可以通过NAND-RAM(因此也可以通过NAND-TM)程序完成, 所以在进行高级别讨论时, 我们也会避免关于表示的讨论. 例如, 图连通性是一个可计算函数, 这一事实无论我们是用邻接表、邻接矩阵、边对列表等表示图都是成立的. 因此, 在精确表示无关紧要的情况下, 我们通常会谈论我们的算法将对象 $X$ (可以是图、向量、程序等)作为输入, 而不指定 $X$ 如何被编码为字符串.

定义“算法“: 到目前为止, 我们一直非正式地使用“算法“这个术语. 然而, 图灵机和一系列等效模型产生了一种精确且形式化地定义算法的方法. 因此, 在本书中, 每当我们提到算法时, 我们指的是它是图灵等效模型(如图灵机、NAND-TM、RAM机等)中的一个实例. 由于所有这些模型的等价性, 在许多情况下, 我们使用哪一个并不重要.

8.3.3 图灵完备性与等价性的形式化定义(可选)

一个计算模型是某种定义程序(由字符串表示)计算(部分)函数的方式. 一个计算模型 $M$ 是图灵完备的, 如果我们可以将每个图灵机(或等价的NAND-TM程序) $N$ 映射到 $M$ 中的一个程序 $P,$ 使得 $P$ 计算与 $N$ 相同的函数. 它是图灵等价的, 如果另一个方向也成立(即, 我们可以将 $M$ 中的每个程序映射到一个计算相同函数的图灵机). 我们可以形式化地定义这个概念如下. (这个形式化定义对于本书的其余部分并不关键, 只要你理解图灵等价的一般概念就可以跳过它；这个概念在文献中有时被称为哥德尔数(Gödel numbering)或可接纳数(admissible numbering))

定义 8.1 (图灵完备性与等价性(可选)).

令 $F$ 为所有从 ${0, 1}^{*}$ 到 ${0, 1}^{*}$ 的部分函数的集合. 一个计算模型是一个映射 $M : {0, 1}^{*} \to F .$

我们说一个程序 $P \in {0, 1}^{*}$ $M$ -计算一个函数 $F \in F,$ 如果 $M (P) = F .$

一个计算模型 $M$ 是图灵完备的, 如果存在一个可计算映射 $ENCO D E_{M} : {0, 1}^{*} \to {0, 1}^{*},$ 使得对于每个图灵机 $N$ (表示为字符串), $M (ENCO D E_{M} (N))$ 等于由 $N$ 计算的部分函数.

一个计算模型 $M$ 是图灵等价的, 如果它是图灵完备的, 并且存在一个可计算映射 $D ECO D E_{M} : {0, 1}^{*} \to {0, 1}^{*},$ 使得对于每个字符串 $P \in {0, 1}^{*},$ $N = D ECO D E_{M} (P)$ 是一个计算函数 $M (P)$ 的图灵机的字符串表示.

一些图灵等价模型的例子(其中一些我们已经见过, 一些将在下面讨论)包括:

图灵机
NAND-TM程序
NAND-RAM程序
λ演算
生命游戏(将程序和输入/输出映射到起始和结束格局)
编程语言, 如Python/C/Javascript/OCaml…(允许无限存储)

8.4 元胞自动机

许多物理系统可以被描述为由大量相互作用的基元组件组成. 一种模拟此类系统的方法是使用元胞自动机. 这是一个由大量(甚至无限)细胞组成的系统. 每个细胞只有有限个可能的状态. 在每个时间步, 细胞通过将某个简单规则应用于自身及其邻居的状态来更新到新状态.

图 8.9. 康威生命游戏的规则. 图片来自此博客文章

元胞自动机的一个典型例子是康威的生命游戏(Conway’s Game of Life). 在此自动机中, 细胞排列在一个无限二维网格中. 每个细胞只有两种状态: “死亡”(我们可以编码为 $0$ 并标识为 $\emptyset)$ 或“存活“(我们可以编码为 $1) .$ 细胞的下一个状态取决于其先前状态及其8个垂直、水平和对角线邻居的状态(参见图 8.9). 死亡细胞只有在恰好有三个存活邻居时才会变为存活. 存活细胞只有在有两个或三个存活邻居时继续存活. 尽管细胞数量可能无限, 但我们可以通过仅跟踪存活细胞来使用有限长度字符串编码状态. 如果我们在具有有限数量存活细胞的格局中初始化系统, 那么在所有未来步骤中存活细胞的数量将保持有限. 生命游戏的维基百科页面上有一些产生非常有趣演化的格局的美丽图形和动画.

图 8.10. 在二维元胞自动机中, 每个细胞位于某个整数 $i, j \in Z$ 的位置 $i, j$ 上. 细胞的状态是某个值 $A_{i, j} \in Σ,$ 其中 $Σ$ 是某个有限字母表. 在给定时间步, 细胞的状态根据应用于 $(i, j)$ 及其所有邻居 $(i \pm 1, j \pm 1)$ 状态的某个函数进行调整. 在一维元胞自动机中, 每个细胞位于位置 $i \in Z$ 上, 且 $i$ 在下一个时间步的状态 $A_{i}$ 取决于其当前状态及其两个邻居 $i - 1$ 和 $i + 1$ 的状态

由于生命游戏中的细胞排列在无限二维网格中, 它是二维元胞自动机的一个例子. 我们也可以考虑一维元胞自动机的更简单设置, 其中细胞排列在一条无限直线上, 参见图 8.10. 事实证明, 即使这个简单模型也足以实现图灵完备性. 我们现在将正式定义一维元胞自动机, 然后证明它们的图灵完备性.

定义 8.2 (一维元胞自动机).

设 $Σ$ 是一个包含符号 $\emptyset$ 的有限集合. 一个在字母表 $Σ$ 上的一维元胞自动机由一个转移规则 $r : Σ^{3} \to Σ$ 描述, 该规则满足 $r (\emptyset, \emptyset, \emptyset) = \emptyset .$

自动机 $r$ 的一个格局(configuration)是一个函数 $A : Z \to Σ.$ 如果具有规则 $r$ 的自动机处于格局 $A,$ 那么它的下一个格局, 记为 $A^{'} = NEX T_{r} (A),$ 是函数 $A^{'},$ 使得对于每个 $i \in Z,$ 有 $A^{'} (i) = r (A (i - 1), A (i), A (i + 1)) .$ 换句话说, 自动机 $r$ 在点 $i$ 的下一个状态是通过将规则 $r$ 应用于 $A$ 在 $i$ 及其两个邻居的值得到的.

有限格局: 如果自动机 $r$ 的格局中只有有限个索引 $i_{0}, \dots, i_{j - 1}$ 在 $Z$ 中使得 $A (i_{j}) \neq = \emptyset,$ 则我们称该格局是_有限的_. (即, 对于每个 $i \neq \in i_{0}, \dots, i_{j - 1},$ 有 $A (i) = \emptyset)$ 这样的格局可以使用一个有限字符串表示, 该字符串编码索引 $i_{0}, \dots, i_{n - 1}$ 和值 $A (i_{0}), \dots, A (i_{n - 1}) .$ 由于 $r (\emptyset, \emptyset, \emptyset) = \emptyset,$ 如果 $A$ 是有限格局, 则 $NEX T_{r} (A)$ 也是有限的. 我们只关心在有限格局中初始化的元胞自动机, 因此在其整个演化过程中保持有限格局.

8.4.1 一维元胞自动机的图灵完备性

我们可以编写一个程序(例如使用NAND-RAM)来模拟任何元胞自动机从初始有限格局的演化, 只需存储状态不等于 $\emptyset$ 的细胞值并重复应用规则 $r .$ 因此, 元胞自动机可以被图灵机模拟. 更令人惊讶的是, 反过来也成立. 例如, 尽管其规则简单, 我们可以使用生命游戏模拟图灵机(参见图 8.11).

图 8.11. 模拟图灵机的生命游戏格局. 图片由Paul Rendell提供

事实上, 即使一维元胞自动机也可以是图灵完备的:

定理 8.2 (一维自动机是图灵完备的).

对于每个图灵机 $M,$ 存在一个一维元胞自动机, 可以在每个输入 $x$ 上模拟 $M .$

为了使“模拟图灵机“的概念更精确, 我们需要定义图灵机的格局. 我们将在下面的8.4.2节中这样做, 但高层面上, 图灵机的格局是一个字符串, 编码了其在计算中给定步骤的完整状态. 即, 其磁带所有(非空)单元的内容、其当前状态以及磁头位置.

定理 8.2的证明的关键思想是, 在图灵机 $M$ 的计算中的每个点, $M$ 的磁带中唯一能改变的单元是磁头所在的位置, 并且该单元改变的值是其当前状态和 $M$ 的有限状态的函数. 这一观察使我们能够将图灵机 $M$ 的格局编码为一个元胞自动机 $r$ 的有限格局, 并确保此编码格局在 $r$ 的规则下的一步演化对应于图灵机 $M$ 执行中的一步.

8.4.2 图灵机格局与状态转移函数

为了将上述思想转化为定理 8.2的严格证明(甚至陈述! ), 我们需要精确定义图灵机的格局这一概念. 这个概念在后续章节中对我们也有用.

图 8.12. 具有字母表 $Σ$ 和状态空间 $[k]$ 的图灵机 $M$ 的_格局_将其在执行中特定步骤的状态编码为一个在字母表 $\overline{Σ} = Σ \times (\cdot \cup [k])$ 上的字符串 $α .$ 字符串的长度为 $t,$ 其中 $t$ 满足 $M$ 的磁带在所有位置 $t$ 及更大处包含 $\emptyset,$ 且 $M$ 的磁头位于小于 $t$ 的位置. 如果 $M$ 的磁头在第 $i$ 个位置, 那么对于 $j \neq = i,$ $α_{j}$ 编码 $M$ 磁带的第 $j$ 个单元的值, 而 $α_{i}$ 编码此值以及 $M$ 的当前状态. 如果机器写入值 $τ,$ 更改状态为 $t,$ 并向右移动, 那么在下一个格局中, 位置 $i$ 将包含值 $(τ, \cdot),$ 位置 $i + 1$ 将包含值 $(α_{i + 1}, t)$

定义 8.3.(图灵机的格局)

设 $M$ 是一个具有磁带字母表 $Σ$ 和状态空间 $[k]$ 的图灵机. $M$ 的一个格局是一个字符串 $α \in \overline{Σ}^{*},$ 其中 $\overline{Σ} = Σ \times (\cdot \cup [k]),$ 满足存在恰好一个坐标 $i,$ 使得对于某个 $σ \in Σ$ 和 $s \in [k],$ 有 $α_{i} = (σ, s) .$ 对于所有其他坐标 $j,$ $α_{j} = (σ^{'}, \cdot),$ 其中 $σ^{'} \in Σ.$

$M$ 的格局 $α \in \overline{Σ}^{*}$ 对应于其执行的以下状态:

$M$ 的磁带对于所有 $j < ∣ α ∣$ 包含 $α_{j, 0},$ 对于所有至少为 $∣ α ∣$ 的位置包含 $\emptyset,$ 其中我们令 $α_{j, 0}$ 为值 $σ,$ 使得 $α_{j} = (σ, t),$ 其中 $σ \in Σ$ 且 $t \in \cdot \cup [k] .$ (换句话说, 由于 $α_{j}$ 是一个字母表符号 $σ$ 和一个 $[k]$ 中的状态或符号 $\cdot$ 的对, $α_{j, 0}$ 是这个对的第一个分量 $σ)$
$M$ 的磁头位于唯一位置 $i,$ 其中 $α_{i}$ 具有形式 $(σ, s),$ $s \in [k],$ 且 $M$ 的状态等于 $s .$

暂停一下

定义 8.3有一些技术细节, 但实际上并不深奥或复杂. 尝试花点时间停下来思考你如何将图灵机在执行中给定点的状态编码为一个字符串.

思考你需要知道哪些组件才能从此点继续执行, 以及使用有限符号列表编码它们的简单方法是什么. 特别是, 考虑到我们未来的应用, 尝试思考一种编码, 使得将步骤 $t$ 的格局映射到步骤 $t + 1$ 的格局尽可能简单.

定义 8.3有点繁琐, 但无论怎么讲格局只是一个字符串, 编码了图灵机在执行中给定点的快照. (用操作系统术语, 它是一个“核心转储“(core dump))这样的快照需要编码以下组件:

当前磁头位置.
大容量存储器的完整内容, 即磁带.
“本地寄存器“的内容, 即机器的状态.

我们如何编码格局的精确细节并不重要, 但我们确实想记录以下简单事实:

引理 8.1.

设 $M$ 是一个图灵机, 令 $NEX T_{M} : \overline{Σ}^{*} \to \overline{Σ}^{*}$ 是将 $M$ 的格局映射到执行下一步格局的函数. 那么对于每个 $i \in N,$ $NEX T_{M} (α) i$ 的值仅依赖于坐标 $α_{i - 1}, α_{i}, α_{i + 1} .$

(为简化记号, 上面我们使用约定: 如果 $i$ “越界”, 例如 $i < 0$ 或 $i > ∣ α ∣,$ 则我们假设 $α_{i} = (\emptyset, \cdot))$ 我们将引理 8.1的证明留作练习8.7. 证明背后的思想很简单: 如果磁头既不在位置 $i,$ 也不在位置 $i - 1$ 和 $i + 1,$ 那么 $i$ 处的下一步格局将与之前相同. 否则, 我们可以从 $i$ 或其邻居的格局中“读取“图灵机的状态和磁头位置的磁带值, 并用其更新 $i$ 处的新状态应该是什么. 完成完整证明并不难, 但这样做是确保你熟悉格局定义的好方法.

完成定理 8.2的证明: 我们现在可以更正式地重述定理 8.2, 并完成其证明:

定理 8.3.(一维自动机是图灵完备的(形式化陈述))

对于每个图灵机 $M,$ 如果我们用 $\overline{Σ}$ 表示其格局字符串的字母表, 那么存在一个在字母表 $\overline{Σ}^{*}$ 上的一维元胞自动机 $r,$ 使得 $NEX T_{M} (α) = NEX T_{r} (α)$ 对于 $M$ 的每个格局 $α \in \overline{Σ}^{*}$ (再次使用约定: 如果 $i$ “越界”, 则我们考虑 $α_{i} = \emptyset) .$

定理 8.3证明

我们将 $\overline{Σ}$ 的元素 $(\emptyset, \cdot)$ 对应于自动机 $r$ 的 $\emptyset$ 元素. 在这种情况下, 由引理 8.1, 将 $M$ 的格局映射到下一个格局的函数 $NEX T_{M}$ 实际上是一维自动机的有效规则.

从定理 8.3的证明中产生的自动机具有大的字母表, 而且其大小依赖于被模拟的机器 $M .$ 事实证明, 人们可以获得一个具有固定大小字母表的自动机, 该字母表独立于被模拟的程序, 实际上自动机的字母表可以是最小集合 ${0, 1}$ ! 图 8.13展示了这样的一个图灵完备的自动机.

Quote

图 8.13. 一维自动机的演化. 图中的每一行对应一个格局. 初始格局对应顶行, 仅包含一个“存活“细胞. 此图对应Stephen Wolfram的“规则110“自动机, 它是图灵完备的. 图片取自Wolfram MathWorld

备注8.11: NAND-TM程序的格局

我们可以使用与定义 8.3相同的方法来定义NAND-TM程序的格局. 这样的格局需要编码:

变量i的当前值.
对于每个标量变量foo, foo的值.
对于每个数组变量Bar, 值Bar[ $j$ ]对于每个 $j \in 0, \dots, t - 1,$ 其中 $t - 1$ 是指标变量i在计算中曾达到的最大值.

8.5 λ演算与函数式编程语言

λ演算是定义可计算函数的另一种方式. 它有Alonzo Church在1930年代提出, 大约与Alan Turing提出图灵机同时. 有趣的是, 尽管图灵机不用于实际计算, λ演算却催生了函数式编程语言, 如Lisp、ML和Haskell, 并间接地促进了许多其他编程语言的发展. 在本节中, 我们将介绍λ演算并展示其能力等价于NAND-TM程序(因此也等价于图灵机). 我们的Github仓库包含一个Jupyter Notebook, 其中有一个λ演算的Python实现, 你可以通过实验来更好地理解这个话题.

λ算子: λ演算的核心是定义“匿名“函数的一种方式. 例如, 有一个函数 $f$ 的定义为 $f (x) = x \times x$ 我们可以将其写为 $λ x . x \times x$ 因此 $(λ x . x \times x) (7) = 49.$ 也就是说, 你可以将 $λ x . e x p (x)$ (其中 $e x p$ 是某个表达式)视为指定匿名函数 $x \mapsto e x p (x)$ 的一种方式. 匿名函数使用 $λ x . f (x)$ 、 $x \mapsto f (x)$ 或其他密切相关的表示法, 出现在许多编程语言中. 例如, 在Python中我们可以使用lambda x: x*x来定义平方函数, 而在JavaScript中我们可以使用x => x*x或(x) => x*x. 在Scheme中我们会将其定义为(lambda (x) (* x x)). 显然, 函数的参数名称无关紧要, 因此 $λ y . y \times y$ 与 $λ x . x \times x$ 相同, 因为两者都对应平方函数.

省略括号: 为了减少表示上的杂乱, 在书写λ演算表达式时我们经常省略函数求值的括号. 因此, 与其将函数 $f$ 应用于输入 $x$ 的结果写为 $f (x),$ 我们也可以简单地写为 $f x .$ 因此我们可以写 $(λ x . x \times x) 7 = 49.$ 在本章中, 我们将同时使用 $f (x)$ 和 $f x$ 表示法进行函数应用. 函数求值是结合性的, 并从左到右绑定, 因此 $f; g; h$ 与 $(f g) h$ 相同.

8.5.1 函数的高阶应用

λ演算的一个核心特性是函数都是“一等公民“, 即我们可以将函数作为其他函数的参数. 比如说, 你能猜到下面这个表达式等于什么数字吗?

$(((λ f . (λ y . (f (f y)))) (λ x . x \times x)) 3) (8.1)$

暂停一下

(8.1)可能看上去有点吓人, 但在你看下面的解答之前, 尝试将其分解为各个组成部分, 并一次计算一个部分. 完成这个例题将极大地有助于理解λ演算

让我们一步一步地计算(8.1). 尽管允许匿名函数是λ演算的优势, 但添加名称对于理解复杂表达式非常有帮助. 因此, 我们令 $F = λ f . (λ y . (f (f y)))$ 与 $g = λ x . x \times x .$

因此, (8.1)可以写作 $((F g) 3)$ 在输入函数 $f$ 时, $F$ 输出函数 $λ y . (f (f y)),$ 换而言之, $F f$ 是函数 $y \mapsto f (f (y)) .$ 我们的函数 $g$ 是简单的 $g (x) = x^{2},$ 因此 $(F g)$ 是将 $y$ 映射到 $(y^{2})^{2} = y^{4}$ 的函数. 因此 $((F g) 3) = 3^{4} = 81.$

Question

练习 8.1 (λ表达式求值练习).

下面的这个λ表达式等于什么数字?

$((λ x . (λ y . x)) 2) 9 . (8.2)$

对练习 8.1的解答

$λ y . x$ 是一个函数, 其在输入 $y$ 时忽略其输入并返回 $x .$

因此, $(λ x . (λ y . x)) 2$ 的结果是函数 $y \mapsto 2$ (或者使用λ符号写作函数 $λ y .2) .$

因此, (8.2)等价于 $(λ y .2) 9 = 2.$

8.5.2 通过柯里化实现多参数函数

在形如 $λ x . e$ 的λ表达式中, 表达式 $e$ 本身也可以包含λ运算符. 比如如下函数 $λ x . (λ y . x + y) (8.3)$ 将 $x$ 映射到函数 $y \mapsto x + y .$

特别地, 若我们使用 $a$ 调用函数(8.3)得到某个函数 $f,$ 再以 $b$ 调用 $f,$ 便可获得值 $a + b .$ 可以看出, 对应于 $a \mapsto (b \mapsto a + b)$ 的单参数函数(8.3)亦可视为双参数函数 $(a, b) \mapsto a + b .$ 一般地, 我们可以使用λ表达式 $λ x . (λ y . f (x, y))$ 来模拟双参数函数 $(x, y) \mapsto f (x, y)$ 的效果, 这一技巧被称为柯里化(Currying). 我们将使用 $λ x, y . e$ 作为 $λ x . (λ y . e)$ 的简写形式. 若 $f = λ x . (λ y . e),$ 则 $(f a) b$ 对应于对 $f a$ 进行求值后, 将所得函数作用于 $b,$ 从而获得将 $e$ 中 $x$ 出现处替换为 $a,$ $y$ 出现处替换为 $b$ 的结果. 根据结合律, 该结果等价于 $(f a b),$ 有时我们也写作 $f (a, b) .$

图 8.14. 在“柯里化“转换中, 我们可以通过λ表达式 $λ x . (λ y . f (x, y))$ 实现双参数函数 $f (x, y)$ 的效果: 当输入 $x$ 时, 该表达式会输出一个单参数函数 $f_{x},$ 其中 $x$ 已被“硬编码“至函数内, 且满足 $f_{x} (y) = f (x, y) .$ 这一过程可通过电路图直观展示, 详见Chelsea Voss的网站.

8.5.3 λ演算的形式化描述

我们现在提供λ演算的形式描述. 我们从包含单个变量的“基本表达式“开始, 例如 $x$ 或 $y,$ 并构建更复杂的表达式, 形为 $(e e^{'})$ 和 $λ x . e,$ 其中 $e, e^{'}$ 是表达式, $x$ 是变量标识符. 形式上, λ表达式的定义如下:

定义 8.4 (λ表达式).

一个λ表达式要么是一个单独的变量标识符, 要么是以下形式之一的表达式 $e :$

应用(Application): $e = (e^{'} e^{''}),$ 其中 $e^{'}$ 和 $e^{''}$ 是λ表达式.
抽象(Abstraction): $e = λ x . (e^{'}),$ 其中 $e^{'}$ 是λ表达式.

定义 8.4是一个递归定义, 因为我们在λ表达式的定义中使用了其自身. 这可能起初看起来令人困惑, 但事实上你从小学起就已经知道递归定义. 考虑我们如何定义算术表达式: 它是一个表达式, 要么只是一个数字, 要么具有形式 $(e + e^{'}),$ $(e - e^{'}),$ $(e \times e^{'}),$ 或 $(e \div e^{'}),$ 其中 $e$ 和 $e^{'}$ 是其他算术表达式.

自由变量和绑定变量: λ表达式中的变量可以是自由的(free)或绑定(bound)到一个 $λ$ 运算符(在1.4.7节的意义上). 在单变量λ表达式 $v a r$ 中, 变量 $v a r$ 是自由的. 在应用表达式 $e = (e^{'} e^{''})$ 中, 自由和绑定变量的集合与底层表达式 $e^{'}$ 和 $e^{''}$ 的相同. 在抽象表达式 $e = λ v a r . (e^{'})$ 中, $e^{'}$ 中 $v a r$ 的所有自由出现(free occurences)都被绑定到 $e$ 的 $λ$ 运算符. 如果你觉得自由和绑定变量的概念令人困惑, 你可以通过为所有变量使用唯一标识符来避免所有这些问题.

优先级和括号: 我们将使用以下规则来允许我们省略一些括号. 函数应用从左向右结合, 因此 $f g h$ 与 $(f g) h$ 相同. 函数应用的优先级高于λ运算符, 因此 $λ x . f g x$ 与 $λ x . ((f g) x)$ 相同. 这类似于我们在算术运算中使用优先级规则来允许我们使用更少的括号, 比如表达式 $(7 \times 3) + 2$ 可以写成 $7 \times 3 + 2.$ 如8.5.2节所述, 我们还使用简写 $λ x, y . e$ 表示 $λ x . (λ y . e),$ 以及简写 $f (x, y)$ 表示 $(f x) y .$ 这与使用λ表达式模拟多输入函数的“柯里化“转换很好地配合.

λ表达式的等价性: 正如我们在练习 8.1中看到的,规则 $(λ x . e x p) e x p^{'}$ 等价于 $e x p [x \to e x p^{'}]$ 使我们能够修改λ表达式并获得更简单的等价形式. 另一个我们可以使用的规则是参数名称无关紧要, 因此 $λ y . y$ 与 $λ z . z$ 相同. 这些规则一起定义了λ表达式的等价性概念:

定义 8.5 (λ表达式的等价性).

两个λ表达式是等价的, 如果它们可以通过重复应用以下规则变成相同的表达式:

求值(即 $β$ 归约): 表达式 $(λ x . e x p) e x p^{'}$ 等价于 $e x p [x \to e x p^{'}] .$
变量重命名(即 $α$ 转换): 表达式 $λ x . e x p$ 等价于 $λ y . e x p [x \to y] .$

如果 $e x p$ 是一个形式为 $λ x . e x p^{'}$ 的λ表达式, 那么它自然对应于将任何输入 $z$ 映射到 $e x p^{'} [x \to z]$ 的函数. 因此, λ演算自然隐含了一个计算模型. 由于在λ演算中, 输入本身可以是函数, 我们需要决定以什么顺序求值一个表达式, 例如

$(λ x . f) (λ y . g z) (8.4)$

对此有两种自然约定:

按名调用(Call-by-name, 即“惰性求值“): 我们通过先将右侧表达式 $(λ y . g; z)$ 作为输入代入左侧函数来求值(8.4), 得到 $f [x \to (λ y . g; z)]$ 然后从此继续.
按值调用(Call-by-value, 即“立即求值“): 我们先对右侧进行求值并得到 $h = g [y \to z],$ 然后将其代入左侧得到 $f [x \to h]$ 来求值(8.4).

因为λ演算只有纯函数, 没有“副作用“, 所以在许多情况下顺序无关紧要. 事实上, 可以证明如果我们在两种策略中都得到一个确定的不可约表达式(irreducible expression)(例如, 一个数字), 那么它将是同一个. 然而, 为具体起见, 我们将始终使用“按名调用“(即惰性求值)顺序. (编程语言Haskell也做出了相同的选择, 尽管许多其他编程语言使用立即求值)形式上, 使用“按名调用“求值λ表达式的过程由以下过程描述:

定义 8.6 (λ表达式的简化).

令 $e$ 为一个λ表达式. $e$ 的简化是以下递归过程的结果:

如果 $e$ 是一个单独变量 $x,$ 那么 $e$ 的简化是 $e .$
如果 $e$ 具有形式 $e = λ x . e^{'},$ 那么 $e$ 的简化是 $λ x . f^{'}$ 其中 $f^{'}$ 是 $e^{'}$ 的简化.
求值/ $β$ 归约: 如果 $e$ 具有形式 $e = (λ x . e^{'} e^{''}),$ 那么 $e$ 的简化是 $e^{'} [x \to e^{''}]$ 的简化,这表示将 $e^{'}$ 中绑定到 $λ$ 运算符的所有 $x$ 的出现替换为 $e^{''} .$
重命名/ $α$ 转换: $e$ 的规范简化(canonical simplification)通过取 $e$ 的简化并重命名变量得到, 使得表达式中的第一个绑定变量是 $v_{0},$ 第二个是 $v_{1},$ 依此类推.

我们说两个λ表达式 $e$ 和 $e^{'}$ 是等价的, 记为 $e ≅ e^{'},$ 如果它们具有相同的规范简化.

Question

练习 8.2 (λ表达式等价判断练习).

证明以下两个表达式 $e$ 和 $f$ 是等价的:

$e = λ x . x$

$f = (λa . (λb . b)) (λ z . z z)$

对练习 8.2的解答

$e$ 的规范简化就是 $λ v_{0} . v_{0} .$ 为了计算 $f$ 的规范简化, 我们首先使用 $β$ 归约将 $λ z . z z$ 代入 $(λb . b)$ 中的 $a,$ 但由于 $a$ 在这个函数中根本未被使用, 我们简单地得到 $λb . b,$ 它同样简化为 $λ v_{0} . v_{0} .$

8.5.4 λ演算中的无限循环

与图灵机和NAND-TM程序类似, λ演算中的简化过程也可能进入无限循环. 例如, 考虑以下λ表达式

$λ x . xx λ x . xx (8.5)$

若我们尝试通过将左侧函数作用于右侧函数来简化(8.5), 则会得到另一个(8.5)的副本, 因此该过程永不休止. 在某些情况下, 求值顺序会影响表达式是否可被简化, 具体参见习题8.9.

8.6 增强λ演算

我们现在将λ演算作为一种计算模型进行讨论. 我们将从描述一个“增强“版本的λ演算开始, 它包含一些“冗余特性“, 但更易于理解. 我们将首先展示增强λ演算在计算能力上如何等价于图灵机. 然后, 我们将展示如何将“增强λ演算“的所有特性实现为“纯“(即非增强)λ演算之上的“语法糖“. 因此, 纯λ演算在计算能力上等价于图灵机(因此也等价于RAM机器和其他所有图灵等价模型).

增强λ演算包括以下对象和操作:

布尔常量和IF函数: 存在λ表达式 $0,$ $1$ 和 $IF,$ 满足以下条件: 对于每个λ表达式 $e$ 和 $f,$ $IF 1 e f = e$ 且 $IF 0 e f = f .$ 也就是说, $IF$ 是一个函数, 接受三个参数 $a, e, f,$ 当 $a = 1$ 时输出 $e,$ 当 $a = 0$ 时输出 $f .$
二元组: 存在一个λ表达式 $PAIR,$ 我们将其视为配对函数. 对于每个λ表达式 $e, f,$ $PAIR e f$ 是二元对 $⟨ e, f ⟩,$ 其中 $e$ 是其第一个成员, $f$ 是其第二个成员. 我们还有λ表达式 $HEAD$ 和 $TAIL,$ 分别提取二元组的第一个和第二个成员. 因此, 对于每个λ表达式 $e, f,$ $HEAD (PAIR e f) = e$ 且 $TAIL (PAIR e f) = f .$ (在Lisp中, $PAIR,$ $HEAD$ 和 $TAIL$ 函数传统上称为cons, car和cdr)
列表和字符串: 存在λ表达式 $NIL,$ 对应空列表, 我们也用 $⟨ ⊥ ⟩$ 表示. 使用 $PAIR$ 和 $NIL,$ 我们可以构造列表. 思路是, 如果 $L$ 是一个 $k$ 元素列表, 形式为 $⟨ e_{1}, e_{2}, \dots, e_{k}, ⊥ ⟩,$ 那么对于每个λ表达式 $e_{0},$ 我们可以使用表达式 $PAIR e_{0} L$ 获得 $k + 1$ 元素列表 $⟨ e_{0}, e_{1}, e_{2}, \dots, e_{k}, ⊥ ⟩ .$ 例如, 对于任意三个λ表达式 $e, f, g,$ 以下对应三元素列表 $⟨ e, f, g, ⊥ ⟩ :$

$PAIR e (PAIR f (PAIR g NIL)) .$

λ表达式 $ISEMPTY$ 在 $NIL$ 上返回 $1,$ 在其他任何列表上返回 $0.$ 字符串就是由比特组成的列表.

列表操作: 增强λ演算还包含列表处理函数 $MAP,$ $REDUCE$ 和 $FILTER .$ 给定列表 $L = ⟨ x_{0}, \dots, x_{n - 1}, ⊥ ⟩$ 和函数 $f,$ $MAP L f$ 将 $f$ 应用于列表的每个成员, 得到新列表 $L^{'} = ⟨ f (x_{0}), \dots, f (x_{n - 1}), ⊥ ⟩ .$ 给定列表 $L$ 和输出为 $0$ 或 $1$ 的表达式 $f,$ $FILTER L f$ 返回列表 $⟨ x_{i} ⟩_{f x_{i} = 1},$ 包含所有 $f$ 输出 $1$ 的 $L$ 的元素. 函数 $REDUCE$ 对列表应用“组合“操作. 例如, $REDUCE L + 0$ 将返回列表 $L$ 中所有元素的和. 更一般地, $REDUCE$ 接受列表 $L,$ 操作 $f$ (我们视其为接受两个参数)和λ表达式 $z$ (我们视其为操作 $f$ 的“中性元“, 例如加法为 $0,$ 乘法为 $1) .$ 输出通过以下方式定义:

$REDUCE L f z = {z f (HEAD L) (REDUCE (TAIL L) f z) L = NIL otherwise .$

关于三个列表操作操作的图示, 请参见图 8.16.

递归: 最后, 我们希望能够执行递归函数. 由于在λ演算中函数是匿名的, 我们不能编写形式为 $f (x) = b l ah$ 的定义, 其中 $b l ah$ 包含对 $f$ 的调用. 相反, 我们使用函数 $f,$ 它接受一个额外输入 $m e$ 作为参数. 运算符 $RECURSE$ 将接受这样的函数 $f$ 作为输入, 并返回 $f$ 的“递归版本“, 其中所有对 $m e$ 的调用都替换为对此函数的递归调用. 也就是说, 如果我们有一个函数 $F,$ 接受两个参数 $m e$ 和 $x,$ 那么 $RECURSE F$ 将是函数 $f,$ 接受一个参数 $x,$ 使得对于每个 $x,$ $f (x) = F (f, x) .$

Question

练习 8.3 (使用λ演算计算NAND).

证明以下两个表达式 $e$ 和 $f$ 是等价的:

给出一个λ表达式 $N,$ 使得对于每个 $x, y \in {0, 1},$ $N x y = NAND (x, y) .$

对练习 8.3的解答

$x, y$ 的 $NAND$ 等于 $1,$ 除非 $x = y = 1.$ 因此 $N = λ x, y . IF (x, IF (y, 0, 1), 1)$

Question

练习 8.4 (使用λ演算计算XOR).

给出一个λ表达式 $XOR,$ 使得对于每个列表 $L = ⟨ x_{0}, \dots, x_{n - 1}, ⊥ ⟩,$ 其中 $x_{i} \in {0, 1}$ 对于 $i \in [n],$ $XOR L$ 等价于 $\sum x_{i} mod 2.$

对练习 8.4的解答

首先, 我们注意到我们可以计算两个比特的XOR如下: $NOT = λa . IF (a, 0, 1) (8.6)$ 和 $XO R_{2} = λa, b . IF (b, NOT (a), a) (8.7)$ (我们在这里使用了一些语法糖来描述函数. 为了获得XOR的λ表达式, 我们只需将(8.6)代入(8.7)) 现在我们可以递归地定义列表的XOR如下: $XOR (L) = {0 XOR_{2} (HEAD (L), XOR (TAIL (L))) L is empty otherwise$ 这意味着 $XOR$ 等于

$RECURSE (λm e, L . IF (ISEMPTY (L), 0, XOR_{2} (HEAD L, m e (TAIL L)))) .$

也就是说, $XOR$ 是通过将 $RECURSE$ 运算符应用于函数而得到的, 该函数在输入 $m e,$ $L$ 时, 如果 $ISEMPTY (L)$ 则返回 $0,$ 否则返回 $XOR_{2}$ 应用于 $HEAD (L)$ 和 $m e (TAIL (L))$ 的结果.

我们也可以使用 $REDUCE$ 操作计算 $XOR,$ 我们将此作为练习留给读者.

图 8.15. λ演算中的列表 $⟨ x_{0}, x_{1}, x_{2} ⟩$ 是从尾部向前构造的, 先构建二元组 $⟨ x_{2}, NIL ⟩,$ 然后是 $⟨ x_{1}, ⟨ x_{2}, NIL ⟩⟩,$ 最后是 $⟨ x_{0}, ⟨ x_{1}, ⟨ x_{2}, NIL ⟩⟩⟩ .$ 也就是说, 列表是一个二元组, 二元组的第一个元素是列表的第一个元素, 第二个元素是列表的其余部分. 上图展示了这种“对中含对“的构造, 但通常将列表视为“链“更容易理解, 如右图所示, 其中每个对的第二个元素被视为列表其余部分的链接指针或引用.

图 8.16. $MAP,$ $FILTER$ 和 $REDUCE$ 操作的图示.

8.6.1 增强λ演算中的函数计算

一个增强λ表达式是通过将上述对象与应用和抽象规则组合而得到的. 简化λ表达式的结果是一个与远表达式等价的表达式, 因此如果两个表达式具有相同的简化结果, 则它们是等价的.

定义 8.7 (通过λ演算计算函数).

令 $F : {0, 1}^{*} \to {0, 1}^{*}$

我们说 $e x p$ 计算 $F$ 如果对于每个 $x \in {0, 1}^{*},$ $e x p ⟨ x_{0}, \dots, x_{n - 1}, ⊥ ⟩ ≅ ⟨ y_{0}, \dots, y_{m - 1}, ⊥ ⟩$ 其中 $n = ∣ x ∣,$ $y = F (x),$ 和 $m = ∣ y ∣,$ 等价的概念见定义 8.5.

8.6.2 增强λ演算的图灵完备性

增强λ演算的基本操作或多或少相当于Lisp或Scheme编程语言. 鉴于这一点, 增强λ演算与图灵机等效或许并不令人惊讶:

定理 8.4 (λ演算与NAND-TM). 对于每个函数 $F : {0, 1}^{*} \to {0, 1}^{*},$ $F$ 在增强λ演算中可计算当且仅当它在图灵机上可计算.

定理 8.4的证明思路

为了证明该定理,我们需要证明 (1): 如果 $F$ 可由λ表达式计算, 则它可由图灵机计算, 以及 (2): 如果 $F$ 可由图灵机计算,则它可由增强λ表达式计算.

证明 (1) 相当直接.将简化规则应用于λ表达式基本上相当于“搜索和替换“,我们可以轻松地在NAND-RAM或Python中实现(两者在能力上都等价于图灵机). 证明 (2) 本质上相当于在函数式编程语言(如LISP或Scheme)中模拟图灵机(或编写NAND-TM解释器). 我们在下面给出细节, 但如何做到这一点是掌握一些本身就有用的函数式编程技术的良好练习.

定理 8.4的证明

我们仅给出证明的一个概述. “if“方向是简单的. 如上所述, 对λ表达式进行求值基本上相当于“搜索和替换”. 在命令式语言(如Python或C)中实现所有上述基本操作也是一个相当直接的编程练习, 并且使用相同的想法, 我们也可以在NAND-RAM中实现, 然后我们可以将其转换为NAND-TM程序.

对于“only if“方向,我们需要使用λ表达式模拟图灵机. 我们将通过首先为每个图灵机 $M$ 展示一个λ表达式来计算状态转移函数 $NEXT_{M} : \overline{Σ}^{*} \to \overline{Σ}^{*}$ 来实现这一点,该函数将 $M$ 的一个格局映射到下一个格局(见第8.4.2节).

$M$ 的一个格局是一个字符串 $α \in \overline{Σ}^{*},$ 其中 $\overline{Σ}$ 是一个有限集合. 我们可以用有限字符串 ${0, 1}^{ℓ}$ 对每个符号 $σ \in \overline{Σ}$ 进行编码, 因此我们将在λ演算中将格局 $α$ 编码为一个列表 $⟨ α_{0}, α_{1}, \dots, α_{m - 1}, ⊥ ⟩,$ 其中 $α_{i}$ 是一个长度为 $ℓ$ 的字符串(即一个由 $0$ 和 $1$ 组成的长度为 $ℓ$ 的列表), 编码 $\overline{Σ}$ 中的一个符号.

根据引理 8.1, 对于每个 $α \in \overline{Σ}^{*},$ $NEXT_{M} (α) i$ 等于 $r (α i - 1, α_{i}, α_{i + 1}),$ 其中 $r : \overline{Σ}^{3} \to \overline{Σ}$ 是某个有限函数. 使用我们对 $\overline{Σ}$ 的编码 ${0, 1}^{ℓ},$ 我们也可以将 $r$ 视为映射 ${0, 1}^{3 ℓ}$ 到 ${0, 1}^{ℓ} .$ 通过练习 8.3,我们可以计算 $NAND$ 函数, 因此使用λ演算可以计算每个有限函数, 包括 $r .$ 利用这一见解, 我们可以使用λ演算计算 $NEXT_{M}$ 如下. 给定一个编码格局 $α_{0} \dots α_{m - 1}$ 的列表 $L,$ 我们定义列表 $L_{prev}$ 和 $L_{next},$ 分别编码格局 $α$ 向右和向左移动一步后的版本. 下一个格局 $α^{'}$ 定义为 $α_{i}^{'} = r (L prev [i], L [i], L_{next} [i]),$ 其中 $L^{'} [i]$ 表示 $L^{'}$ 的第 $i$ 个元素. 这可以通过递归(使用增强λ演算的 $RECURSE$ 运算符)计算如下:

算法 8.2 (使用λ演算计算 $NEXT_{M}$ ). $输入 : 编码一个格局 α 的列表 L = ⟨ α_{0}, α_{1}, \dots, α_{m - 1}, ⊥ ⟩ 输出 : 编码 NEXT_{M} (α) 的列表 L^{'} Procedure ComputeNext (L_{prev}, L, L_{next}) if (ISEMPTY L_{prev}) return NIL endif α \leftarrow HEAD L_{prev} if (ISEMPTY L) b \leftarrow \emptyset # 此处使用 {0, 1}^{ℓ} 对 \emptyset 的编码 else b \leftarrow HEAD L endif if (ISEMPTY L_{next}) c \leftarrow \emptyset else c \leftarrow HEAD L_{next} endif return PAIR r (a, b, c) ComputeNext (TAIL L_{prev}, TAIL L, TAIL L_{next}) endproc L_{prev} \leftarrow PAIR \emptyset L # L_{prev} = ⟨ \emptyset, α_{0}, \dots, a_{m - 1}, ⊥ ⟩ L_{next} \leftarrow TAIL L # L_{next} = ⟨ α_{1}, \dots, a_{m - 1}, ⊥ ⟩ return ComputeNext (L_{prev}, L, L_{next})$

一旦我们可以计算 $NEXT_{M},$ 我们就可以使用以下递归模拟 $M$ 在输入 $x$ 上的执行. 定义 $FINAL (α)$ 为 $M$ 从格局 $α$ 初始化时的最终格局. 函数 $F I N A L$ 可以递归定义如下:

$F I N A L (α) = {α F I N A L (NEX T_{M} (α)) α is halting configuration otherwise .$

检查一个格局是否停机(即, 转移函数是否输出 $Halt)$ 可以轻松在λ演算中实现, 因此我们可以使用 $RECURSE$ 来计算 $FINAL .$ 如果我们让 $α^{0}$ 是 $M$ 在输入 $x$ 上的初始格局, 那么我们可以从 $FINAL (α^{0})$ 得到输出 $M (x),$ 从而完成证明.

8.7 从增强λ演算到纯λ演算

虽然我们所允许的增强型λ演算的“基本“函数集合比大多数Lisp方言提供的要小, 但从NAND-TM的角度来看, 它仍然显得有些“臃肿“. 我们能否用更少的函数来完成工作? 换句话说, 我们能否找到这些基本操作的一个子集, 使得该子集能够实现其余的操作?

事实上, 增强型λ演算的操作集合确实存在一个真子集, 可以用来实现其余所有操作. 这个子集就是空集.也就是说, 我们甚至可以不用 $0$ 和 $1,$ 仅使用λ运算符就能实现上述所有操作. 这完全是λ的天下!

暂停一下

这是一个很好的时机, 可以暂停一下, 思考你自己会如何实现这些操作. 例如, 可以先思考如何用 $REDUCE$ 来实现 $MAP,$ 然后如何结合 $0, 1, IF, PAIR, HEAD, TAIL, NIL, ISEMPTY$ 与 $RECURSE$ 来实现 $REDUCE .$ 你也可以基于 $0, 1, IF$ 来实现 $PAIR,$ $HEAD$ 和 $TAIL .$ 最具挑战性的部分是仅使用纯λ演算的操作来实现 $RECURSE .$

定理 8.5 (增强型λ演算等价于纯λ演算).

存在λ表达式可以实现函数 $0,$ $1,$ $IF,$ $PAIR,$ $HEAD,$ $TAIL,$ $NIL,$ $ISEMPTY,$ $MAP,$ $REDUCE$ 和 $RECURSE .$

定理 8.5背后的思想是, 我们将 $0$ 和 $1$ 本身编码为λ表达式, 并以此为基础进行构建. 这被称为Church编码(Church encoding), 因为它源于邱奇为了证明λ演算可以作为所有计算的基础所做的努力. 我们不会写出定理 8.5的完整形式化证明, 但会概述其中涉及的思想:

我们将 $0$ 定义为接受两个输入 $x, y$ 并输出 $y$ 的函数, 将 $1$ 定义为接受两个输入 $x, y$ 并输出 $x$ 的函数. 我们使用柯里化来实现双参数函数的效果, 因此 $0 = λ x . λ y . y$ 且 $1 = λ x . λ y . x .$ (这种表示方案是表示false和true的常见惯例, 但也有很多其他同样可行的表示 $0$ 和 $1$ 的替代方案)
上述实现使得 $IF$ 函数的实现变得平凡: $IF (co n d, a, b)$ 就是 $co n d a b,$ 因为 $0 a b = b$ 且 $1 a b = a .$ 我们可以写成 $IF = λ x . x$ 以达到 $IF (co n d, a, b) = (((IF co n d) a) b) = co n d a b$ 的效果.
为了编码一个二元组 $(x, y),$ 我们将产生一个函数 $f_{x, y},$ 该函数在其“内部“包含 $x$ 和 $y,$ 并且对于每个函数 $g$ 都满足 $f_{x, y} g = g x y .$ 也就是说, $PAIR = λ x, y . (λ g . gx y) .$ 我们可以通过写 $p 1$ 来提取二元组 $p$ 的第一个元素, 通过写 $p 0$ 来提取第二个元素, 因此 $HEAD = λ p . p 1$ 且 $TAIL = λ p . p 0.$
我们将 $NIL$ 定义为忽略其输入并始终输出 $1$ 的函数. 即 $NIL = λ x .1.$ $ISEMPTY$ 函数在给定输入 $p$ 时, 检查如果我们将 $p$ 应用于函数 $zero = λ x, y .0$ (该函数忽略其两个输入并始终输出 $0)$ 时是否得到 $1.$ 对于每个形式为 $p = PAIR x y$ 的有效二元组, $p zero = p x y = 0,$ 而 $NIL zero = 1.$ 形式化地, $ISEMPTY = λ p . p (λ x, y .0) .$

Info

备注 8.1 (Church数(可选)).

布尔值并没有什么特别之处. 你可以使用类似的技巧, 用λ项来实现自然数. 标准做法是将数字 $n$ 表示为函数 $ITER_{n},$ 该函数在输入函数 $f$ 时, 输出函数 $x \mapsto f (f (\dots f (x)))$ ( $n$ 次). 也就是说, 我们将自然数 $1$ 表示为 $λ f . f,$ 数字 $2$ 表示为 $λ f . (λ x . f (f x)),$ 数字 $3$ 表示为 $λ f . (λ x . f (f (f x))),$ 依此类推. (请注意, 这与我们在布尔值上下文中用于表示 $1$ 的方式不同: 这没关系；我们已经知道同一个对象可以用多种方式表示)数字 $0$ 被表示为将任何函数 $f$ 映射到恒等函数 $λ x . x$ 的函数. (即 $0 = λ f . (λ x . x))$

在这种表示下, 我们可以将 $PLUS (n, m)$ 表示为 $λ f . λ x . (n f) ((m f) x),$ 将 $TIMES (n, m)$ 表示为 $λ f . n (m f) .$ 减法和除法更复杂, 但可以通过使用递归来实现. (将其推导出来是一个很好的练习)

8.7.1 列表处理

现在我们面临一个更大的障碍, 即如何在纯λ演算中实现 $MAP,$ $FILTER,$ $REDUCE$ 和 $RECURSE .$ 事实证明, 我们可以用 $REDUCE$ 构建 $MAP$ 和 $FILTER,$ 用 $RECURSE$ 构建 $REDUCE .$ 例如, $MAP (L, f)$ 等同于 $REDUCE (L, g, NIL),$ 其中 $g$ 是对输入 $x$ 和 $y$ 输出 $PAIR (f (x), y)$ 的操作. (我将其验证留给读者你作为一个(推荐的)练习)

我们可以递归地定义 $REDUCE (L, f, z),$ 通过令 $REDUCE (N I L, f, z) = z,$ 并规定给定一个非空列表 $L$ (我们可以将其视为一个二元组 $(h e a d, res t)),$ $REDUCE (L, f, z) = f (h e a d, REDUCE (res t, f, z)) .$ 因此, 我们可能会尝试为 $REDUCE$ 编写一个递归的λ表达式, 如下所示:

$REDUCE = λ L, f, z . IF (ISEMPTY (L), z, f HEAD (L) REDUCE (TAIL (L), f, z)) (8.8)$

这里唯一的问题是λ演算没有递归的概念, 因此这是一个无效的定义. 但当然, 我们可以使用我们的 $RECURSE$ 运算符来解决这个问题. 我们将把对“ $REDUCE$ “的递归调用替换为对作为额外参数给定的函数 $m e$ 的调用, 然后将 $RECURSE$ 应用于此. 因此 $REDUCE = RECURSE myREDUCE,$ 其中:

$myREDUCE = λm e, L, f, z . IF (ISEMPTY (L), z, f HEAD (L) m e (TAIL (L), f, z)) (8.9)$

8.7.2 Y组合子: 不需要递归的递归

(8.9)表明为了实现 $MAP,$ $FILTER$ 与 $REDUCE$ 我们需要在纯λ演算中实现 $RECURSE$ 运算符. 这就是我们现在要做的事情.

我们如何在不使用递归的情况下实现递归?我们将用一个简单的例子来说明这一点 - $XOR$ 函数. 如练习 8.4所示, 我们可以递归地写出列表的 $XOR$ 函数如下:

$XOR (L) = {0 XOR_{2} (HEAD (L), XOR (TAIL (L))) L 为空 otherwise$

其中 $XOR_{2} : {0, 1}^{2} \to {0, 1}$ 是两个比特上的异或操作. 在Python中, 我们会这样写:

def xor2(a,b): return 1-b if a else b
def head(L): return L[0]
def tail(L): return L[1:]

def xor(L): return xor2(head(L),xor(tail(L))) if L else 0

print(xor([0,1,1,0,0,1]))
# 1

现在, 我们如何消除这个递归调用? 主要思想是, 既然函数可以接受其他函数作为输入, 那么在Python(当然还有λ演算)中, 给函数自身作为输入是完全合法的. 因此, 我们的想法是尝试提出一个非递归函数tempxor, 它接受两个输入: 一个函数和一个列表, 并且使得tempxor(tempxor,L)会输出L的异或值!

暂停一下

此时, 你可能想尝试用Python或任何其他编程语言(只要它允许函数作为输入)自己实现这一点.

我们的第一次尝试可能只是简单地用me替换递归调用. 让我们将这个函数定义为myxor

def myxor(me,L): return xor2(head(L),me(tail(L))) if L else 0

让我们测试一下:

myxor(myxor,[1,0,1])

如果你这样做,解释器会给出以下错误:

TypeError: myxor() missing 1 required positional argument

问题是myxor期望两个输入: 一个函数和一个列表. 而在调用me时, 我们只提供了一个列表. 为了纠正这一点, 我们修改调用, 同时提供函数本身:

def tempxor(me,L): return xor2(head(L),me(me,tail(L))) if L else 0

注意在tempxor的定义中对me(me,..)的调用: 给定一个函数me作为输入, tempxor实际上会以自身作为第一个输入来调用函数me. 如果我们现在测试一下, 会发现实际上得到了正确的结果!

tempxor(tempxor,[1,0,1])
# 0
tempxor(tempxor,[1,0,1,1])
# 1

因此, 我们可以将xor(L)简单地定义为return tempxor(tempxor,L).

上述方法不仅适用于XOR. 给定一个接受输入x的递归函数f, 我们可以获得一个非递归版本, 如下所示:

创建函数myf, 它接受两个输入me和x,并将对f的递归调用替换为对me的调用.
创建函数tempf,它将myf中形式为me(x)的调用转换为形式为me(me,x)的调用.
函数f(x)将被定义为tempf(tempf,x).

以下是我们如何在Python中实现RECURSE运算符的方式. 它将接受一个如上所述的函数myf, 并将其替换为一个函数g, 使得对于每个x, g(x)=myf(g,x).

def RECURSE(myf):
    def tempf(me,x): return myf(lambda y: me(me,y),x)

    return lambda x: tempf(tempf,x)


xor = RECURSE(myxor)

print(xor([0,1,1,0,0,1]))
# 1

print(xor([1,1,0,0,1,1,1,1]))
# 0

从Python到λ演算: 在λ演算中, 一个接受两个输入 $m e, y$ 的函数 $g$ 被写作 $λm e . (λ y . g) .$ 因此, 函数 $y \mapsto m e (m e, y)$ 被简单地写作 $m e m e,$ 类似地, 函数 $x \mapsto tempf (tempf, x)$ 就是 $tempf tempf$ (你明白为什么吗?) 因此, 上述定义的函数tempf可以写作λ me. myf(me me). 这意味着, 如果我们将RECURSE的输入记为 $f,$ 那么 $RECURSE myf = tempf tempf,$ 其中 $tempf = λm . f (m; m),$ 或者换句话说

$RECURSE = λ f . ((λm . f (m m)) (λm . f (m m)))$

在线附录包含一个使用Python实现的λ演算. 以下是该附录中递归XOR函数的实现: ³

# XOR of two bits
XOR2 = λ(a,b)(IF(a,IF(b,_0,_1),b))

# Recursive XOR with recursive calls replaced by m parameter
myXOR = λ(m,l)(IF(ISEMPTY(l),_0,XOR2(HEAD(l),m(TAIL(l)))))

# Recurse operator (aka Y combinator)
RECURSE = λf((λm(f(m*m)))(λm(f(m*m))))

# XOR function
XOR = RECURSE(myXOR)

#TESTING:

XOR(PAIR(_1,NIL)) # List [1]
# equals 1

XOR(PAIR(_1,PAIR(_0,PAIR(_1,NIL)))) # List [1,0,1]
# equals 0

Info

备注 8.2 (Y组合子).

上述 $RECURSE$ 运算符更广为人知的名字是Y组合子(Y combinator).

它是一族不动点算子(fixed point operators)中的一个, 给定一个λ表达式 $F,$ 找到 $F$ 的一个不动点(fixed point) $f,$ 使得 $f = F f .$ 如果你思考一下就会发现, $XOR$ 就是上述 $myXOR$ 的不动点. $XOR$ 是这样的函数: 对于每个 $x,$ 如果将 $XOR$ 作为 $myXOR$ 的第一个参数代入, 我们会得到 $XOR,$ 换句话说 $XOR = myXOR XOR .$ 因此, 为 $myXOR$ 找到不动点等同于对其应用 $RECURSE .$

8.8 Church-Turing论题(讨论)

Quote

[1934年], 丘奇一直在思索, 并最终明确提出了λ可定义函数就是所有能行可计算函数的观点….当丘奇提出这一论点时, 我坐下来试图反驳它….但很快意识到[我的方法失败了], 一夜之间我成了该论点的支持者.

——斯蒂芬·克林,1979年.

Quote

[该论点]与其说是定义或公理, 不如说是…一条自然法则.

——埃米尔·波斯特,1936年.

我们定义了一个函数是可计算的, 如果它可以通过NAND-TM程序进行计算, 并且我们已经看到, 如果我们将NAND-TM程序替换为Python程序, 图灵机, λ演算, 元胞自动机以及许多其他计算模型, 该定义将保持不变. Church-Turing论题指出, 这是“可计算“函数的唯一合理定义. 与我们之前看到的“物理扩展Church-Turing论题“(PECTT)不同, Church-Turing论题并未做出可以通过实验检验的具体物理预测, 但它确实激励了诸如PECTT之类的预测. 我们可以将Church-Turing论题视为一种定义选择的提倡, 对所有潜在计算设备做出某种预测, 或者提出一些约束自然界的自然法则. 用Scott Aaronson的话来说, “无论它是什么, Church-Turing论题只能被视为极其成功”. 迄今为止, 尚无候选计算设备(包括量子计算机, 以及更不合理的模型, 例如我们之前提到的假设性“封闭时间曲线“计算机)对Church-Turing论题构成严肃挑战. 这些设备可能使某些计算更高效, 但并未改变有限可计算与不可计算之间的界限.(我们在第13.3节讨论的扩展Church-Turing论题规定, 图灵机也捕获了可高效计算内容的极限. 正如其物理版本所言, 量子计算对这一论题构成了主要挑战)

8.8.1 不同的计算模型

我们可以将我们已经看到的模型总结在以下表格中:

计算问题	模型类型	示例
有限函数 $f : {0, 1}^{n} \to {0, 1}^{m}$	非均匀计算 (算法依赖于输入长度)	布尔电路, NAND电路, 直线程序 (例如, NAND-CIRC)
具有无界输入的函数 $F : {0, 1}^{} \to {0, 1}^{}$	顺序访问内存	图灵机, NAND-TM程序
–	索引访问 / RAM	RAM机, NAND-RAM, 现代编程语言
–	其他	λ演算, 细胞自动机

用于计算有限函数和任意输入长度函数的不同模型.

在第17章中, 我们将研究_内存受限_计算. 事实证明, 具有常量内存的NAND-TM程序等价于有限自动机(finite automata)模型(有时也会加上“确定性“或“非确定性“的形容词, 该模型也被称为有限状态机(finite state machines)), 它又捕获了正则语言(regular language)的概念(那些可以用正则表达式描述的语言), 这是我们将在第10章中看到的概念.

本章回顾

虽然我们使用图灵机定义了可计算函数, 但我们同样可以使用许多其他模型来定义, 不仅包括NAND-TM程序, 还包括RAM机, NAND-RAM, λ演算, 细胞自动机和许多其他模型.
非常简单的模型也可以是“图灵完备“的, 即它们可以模拟任意复杂的计算.

8.9 习题

习题 8.1 (TM/RAM等价性的替代证明).

令 $SEARCH : {0, 1}^{*} \to {0, 1}^{*}$ 为以下函数. 输入是一个二元组 $(L, k),$ 其中 $k \in {0, 1}^{,}$ $L$ 是一个由键值对 $(k_{0}, v_{1}), \dots, (k_{m - 1}, v_{m - 1})$ 组成的列表的编码, 其中 $k_{0}, \dots, k_{m - 1},$ $v_{0}, \dots, v_{m - 1}$ 是二进制字符串. 输出是满足 $k_{i} = k$ 的最小 $i$ 对应的 $v_{i}$ (如果这样的 $i$ 存在), 否则输出空字符串.

证明 $SEARCH$ 可由图灵机计算.
令 $UPDATE (L, k, v)$ 为一个函数, 其输入是一个对组成的列表 $L,$ 其输出是通过将对 $(k, v)$ 添加到 $L$ 的开头而得到的列表 $L^{'} .$ 证明 $UPDATE$ 可由图灵机计算.
假设我们用一个键/值对的列表 $L$ 来编码一个NAND-RAM程序的配置, 其中键要么是标量变量名foo, 要么是形如Bar[<num>]的形式(其中<num>是某个数字), 并且它包含所有非零的变量值. 令 $NEXT (L)$ 为一个函数, 它将NAND-RAM程序在某一时刻的配置映射到下一时刻的配置. 证明 $NEXT$ 可由图灵机计算(你不需要实现每一个算术操作: 实现加法和乘法就足够了).
证明对于每个可由NAND-RAM程序计算的函数 $F : {0, 1}^{*} \to {0, 1}^{*},$ $F$ 也可由图灵机计算.

习题 8.2 (NAND-TM查找函数).

本练习展示了NAND-TM可以模拟NAND-RAM的部分证明. 编写一个NAND-TM程序的代码, 该程序计算函数 $LOOKUP : {0, 1}^{*} \to {0, 1},$ 其定义如下. 在输入 $p f (i) x$ 上, 其中 $p f (i)$ 表示整数 $i$ 的一个前缀无关编码, 如果 $i < ∣ x ∣$ 则 $LOOKUP (p f (i) x) = x_{i},$ 否则 $LOOKUP (p f (i) x) = 0.$ (我们不关心 $LOOKUP$ 在非此形式的输入上的输出)你可以选择任何你喜欢的任意前缀无关编码, 也可以使用你喜欢的编程语言来生成此代码.

习题 8.3 (配对).

令 $embed : N^{2} \to N$ 为定义为 $embed (x_{0}, x_{1}) = \frac{1}{2} (x_{0} + x_{1}) (x_{0} + x_{1} + 1) + x_{1}$ 的函数.

证明对于每个 $x^{0}, x^{1} \in N,$ $embed (x^{0}, x^{1})$ 确实是一个自然数.
证明 $embed$ 是单射.
构造一个NAND-TM程序 $P,$ 使得对于每个 $x^{0}, x^{1} \in N,$ $P (p f (x^{0}) p f (x^{1})) = p f (embed (x^{0}, x^{1})),$ 其中 $p f$ 是上面定义的前缀无关编码映射. 你可以为内层循环、条件语句以及递增/递减计数器使用语法糖.
构造NAND-TM程序 $P_{0}, P_{1},$ 使得对于每个 $x^{0}, x^{1} \in N$ 和 $i \in N,$ $P_{i} (p f (embed (x^{0}, x^{1}))) = p f (x^{i}) .$ 你可以为内层循环、条件语句以及递增/递减计数器使用语法糖.

习题 8.4 (最短路径).

令 $SHORTPATH : {0, 1}^{*} \to {0, 1}^{*}$ 为一个函数, 其在输入一个编码三元组 $(G, u, v)$ 的字符串时, 如果 $u$ 和 $v$ 在 $G$ 中不连通, 则输出一个编码 $\infty$ 的字符串; 否则输出一个编码从 $u$ 到 $v$ 的最短路径长度 $k$ 的字符串. 证明 $SHORTPATH$ 可由图灵机计算. 参见脚注中的提示. ⁴

习题 8.5 (最长路径).

令 $LONGPATH : {0, 1}^{*} \to {0, 1}^{*}$ 为一个函数, 其在输入一个编码三元组 $(G, u, v)$ 的字符串时, 如果 $u$ 和 $v$ 在 $G$ 中不连通, 则输出一个编码 $\infty$ 的字符串; 否则输出一个编码从 $u$ 到 $v$ 的最长简单路径长度 $k$ 的字符串. 证明 $LONGPATH$ 可由图灵机计算. 参见脚注中的提示. ⁵

习题 8.6 (最短路径λ表达式).

令 $SHORTPATH$ 如习题 8.4所定义. 证明存在一个计算 $SHORTPATH$ 的λ表达式. 你可以使用习题 8.4.

习题 8.7 (状态转移函数是局部的).

证明引理 8.1并利用它完成定理 8.2的证明.

习题 8.8 (λ演算最多需要三个变量).

证明对于每个不含自由变量的λ表达式 $e,$ 存在一个等价的λ表达式 $f,$ 该表达式仅使用变量 $x,$ $y$ 和 $z .$ ⁶

习题 8.9 (λ演算中的求值顺序示例).

令 $e = λ x .7 ((λ x . xx) (λ x . xx)) .$ 证明如果我们使用按名调用求值顺序, 则 $e$ 的简化过程会在确定的步数内结束; 而如果我们使用按值调用顺序, 则它永远不会结束.
(加分, 挑战性)令 $e$ 为任意λ表达式. 证明如果使用按值调用顺序时简化过程会在确定的步数内结束, 那么使用按名调用顺序时它也会在确定的步数内结束. 参见脚注中的提示. ⁷

习题 8.10 (Zip函数).

给出一个增强的λ演算表达式来计算函数 $zip,$ 该函数在输入一对相同长度 $n$ 的列表 $I$ 和 $L$ 时, 输出一个由 $n$ 个对组成的列表 $M,$ 使得 $M$ 的第 $j$ 个元素(我们记为 $M_{j})$ 是对 $(I_{j}, L_{j}) .$ 因此 $zip$ 将这两个元素列表“压缩“成一个由对组成的单个列表. ⁸

习题 8.11 (不使用RECURSE的状态转移函数).

令 $M$ 为一台图灵机. 给出一个增强的λ演算表达式来计算 $M$ 的状态转移函数 $NEXT_{M}$ (如定理 8.4的证明中所示), 而不使用 $RECURSE .$ 参见脚注中的提示. ⁹

习题 8.12 (λ演算到NAND-TM编译器(挑战性)).

用你选择的编程语言给出一个程序, 该程序将λ表达式 $e$ 作为输入, 并输出一个NAND-TM程序 $P,$ 该程序计算与 $e$ 相同的函数. 为了部分得分, 你可以在输出程序中使用GOTO和所有NAND-CIRC语法糖. 你可以使用任何对你方便的λ表达式到二进制字符串的编码. 参见脚注中的提示. ¹⁰

习题 8.13 (λ演算中的“至少两个“函数).

令 $1 = λ x, y . x$ 且 $0 = λ x, y . y$ 如前所定义. 定义

$ALT = λa, b, c . (a (b 1 (c 10)) (b c 0))$

证明 $ALT$ 是一个计算至少两个函数的λ表达式. 也就是说, 对于每个 $a, b, c \in {0, 1}$ (按上述编码), 当且仅当 $a, b, c$ 中至少有两个等于 $1$ 时, $ALT ab c = 1.$

习题 8.14 (状态转移函数的局部性).

这个问题将帮助你更好地理解图灵机状态转移函数的局部性概念. 这种局部性在诸如λ演算和一维元胞自动机的图灵完备性等结果中起着重要作用, 也出现在我们将在本课程后面看到的Godel不完备定理和Cook Levin定理等结果中. 定义STRINGS为具有以下语义的编程语言:

一个STRINGS程序 $Q$ 有一个单一的字符串变量str, 它既是 $Q$ 的输入也是输出. 该程序没有循环也没有其他变量, 而是由一系列修改str的条件搜索和替换操作组成.
STRINGS程序的操作包括:
- REPLACE(pattern1,pattern2), 其中pattern1和pattern2是固定字符串. 这将str中第一次出现的pattern1替换为pattern2.
- if search(pattern) { code }: 如果pattern是str的子串, 则执行code. 代码code本身可以包含嵌套的if语句. (也可以添加else { ... }来在pattern不是str的子串时执行).
- 返回值是str.
一个STRINGS程序 $Q$ 计算一个函数 $F : {0, 1}^{*} \to {0, 1}^{*},$ 如果对于每个 $x \in {0, 1}^{*},$ 我们将str初始化为 $x$ 然后执行 $Q$ 中的指令序列, 则在执行结束时str等于 $F (x) .$

例如, 以下是一个STRINGS程序, 它计算函数 $F : {0, 1}^{*} \to {0, 1}^{*},$ 使得对于每个 $x \in {0, 1}^{*},$ 如果 $x$ 包含一个形如 $y = 11 ab 11$ 的子串, 其中 $a, b \in {0, 1},$ 则 $F (x) = x^{'},$ 其中 $x^{'}$ 是通过将 $x$ 中第一次出现的 $y$ 替换为 $00$ 得到的.

if search('110011') {
    replace('110011','00')
} else if search('110111') {
    replace('110111','00')
} else if search('111011') {
    replace('111011','00')
} else if search('111111') {
    replace('1111111','00')
}

证明对于每个图灵机程序 $M,$ 存在一个STRINGS程序 $Q,$ 它计算 $NEXT_{M}$ 函数, 该函数将每个编码 $M$ 的有效配置的字符串映射到编码 $M$ 计算下一步的配置的字符串. (我们不关心该函数在那些不编码有效配置的字符串上的行为)你不必完整地写出STRINGS程序, 但你需要给出一个令人信服的论证, 证明这样的程序存在.

8.10 参考文献

Moore和Mertens的杰出著作(Moore, Mertens, 2011)第七章对这部分内容进行了精彩阐述.

RAM模型在研究实用算法的具体复杂度时非常有效, 其理论研究始于Cook和Reckhow(Cook, Reckhow, 1973). 不过需要注意的是, 不同文献和场景中对RAM模型允许的操作集及其成本定义存在差异. 正如Shamir(Shamir, 1979)已指出的, 在定义时需要特别谨慎——尤其是在字长可变的情况下. Savage著作(Savage, 1998)第三章给出了RAM机更形式化的描述, 亦可参阅Hagerup的论文(Hagerup, 1998). 关于不依赖输入规模的RAM算法研究(即transdichotomous RAM model)则由Fredman和Willard(Fredman, Willard, 1993)开创.

目前讨论的计算模型本质上是串行的, 但当今大量计算已转向并行模式——无论是通过多核处理器, 还是通过数据中心或互联网的大规模分布式计算. 虽然并行计算在实践中至关重要, 但对于“可计算与不可计算“的界限问题并未产生本质影响. 毕竟, 若计算任务可由 $m$ 台机器在 $t$ 时间内完成, 那么单台机器只需 $m t$ 时间同样可以完成.

λ演算由Church(Church, 1941)提出. Pierce的专著(Pierce, 2002)是该领域权威教材, 另可参考Barendregt的著作(Barendregt, 1984). “柯里化“以逻辑学家Haskell Curry命名(Haskell编程语言同样得名于他). Curry本人认为这一概念应归功于Moses Schönfinkel, 但出于某种原因, “Schönfinkeling“这一术语始终未能流行.

与大多数编程语言不同, 纯λ演算不包含类型概念. 其中的每个对象既可视为λ表达式, 也可作为接收单参数并返回单值的函数. 所有函数均采用“搜索替换“机制：当传入非常规参数时, 系统会将形参全部替换为输入表达式的副本. λ演算的类型化变种已成为研究热点, 与编程语言类型系统及计算机可验证证明系统紧密关联(参见Pierce, 2002). 部分类型化λ演算变种摒弃了无限循环特性, 这使其成为程序静态分析和机器验证证明的重要工具, 我们将在第10章和第22章重新探讨这一主题.

陶哲轩曾提出通过证明流体动力学(“水计算机”)的图灵完备性来解决Navier-Stokes方程行为问题, 相关科普论述可参阅此文.

1: 一些编程语言可以访问的内存量有固定的(即使非常大)上限, 这正式地阻止了它们适用于计算无限函数并因此模拟图灵机. 我们在本次讨论中忽略此类问题, 并假定可以访问某种容量没有固定上限的存储设备.

2: 译者注: 在本翻译版中会使用中文

3: 由于Python语法的特定问题, 在此实现中, 我们使用f * g表示将f应用于g,而不是f g, 并使用λx(exp)而不是λx.exp进行抽象. 我们还使用_0和_1表示 $0$ 和 $1$ 的λ项, 以免与Python常量混淆.

4: 你不需要给出图灵机的完整描述：使用我们的“鱼与熊掌兼得“范式, 通过论证更强大的等价模型来证明这种机器的存在.

5: 与习题 8.4相同的提示. 注意, 为了证明 $LONGPATH$ 是可计算的, 你不必给出一个高效的算法.

6: 提示: 你可以通过“将它们配对“来减少函数所使用的变量数量. 也就是说, 定义一个λ表达式 $P A I R,$ 使得对于每个 $x, y,$ $PAIR x y$ 是某个函数 $f,$ 满足 $f 0 = x$ 且 $f 1 = y .$ 然后使用 $PAIR$ 迭代地减少所使用的变量数量.

7: 对表达式 $e$ 的结构使用归纳法.

8: $zip$ 是这个操作的常用名称, 例如在Python中. 不要将其与zip压缩文件格式混淆.

9: 使用 $MAP$ 和 $REDUCE$ (以及可能的 $FILTER) .$ 你可能还会发现习题 8.10中的 $zip$ 函数有用.

10: 尝试建立这样一个过程: 如果数组Left包含λ表达式 $λ x . e$ 的编码, 并且数组Right包含另一个λ表达式 $e^{'}$ 的编码, 那么数组Result将包含 $e [x \to e^{'}] .$

Warning

本章施工中

通用性和不可计算性

通用性和不可计算性

学习目标

通用机器/程序: “以一驭万“的单一程序
计算机科学与数学的基础结论: 不可计算函数的存在性
停机问题: 不可计算函数的典型范例
了解归约(reduction)这一技巧
RIce定理: 不可计算性研究的“元工具“, 亦是编译器, 编程语言与软件验证领域众多研究的起点

“变量函数是由该变量与数字或常量以任意方式组合而成的解析表达式. “

——Leonhard Euler, 1748年

“通用机器的重要性显而易见. 我们无需制造无数台执行不同任务的机器……生产各类专用机器的工程问题, 已被为通用机器’编程’这类文书工作所取代. “

——Alan Turing, 1948年

我们在布尔电路(或等价的直线程序)研究中取得的最重要成果之一即是通用性(universality)这一概念: 存在可运行所有其他电路的单一电路. 然而该结论存在重要限制:运行包含 $s$ 个门电路的电路时, 通用电路所需门电路数量必须大于 $s .$ 事实证明, 图灵机或NAND-TM程序等均匀计算模型能帮助我们“突破此循环“, 并真正实现能运行所有其他机器的通用图灵机(universal turing machine) $U,$ 其甚至能处理比 $U$ 自身更复杂(如具备更多状态)的机器. (同理, 存在能运行所有NAND-TM程序的通用NAND-TM程序(universialNAND-TMprogram) $U^{'},$ 包括那些比 $U^{'}$ 具有更多代码行的程序)

可以毫不夸张地说, 此类通用程序/机器的存在奠定了二十世纪后半叶(并持续至今)的信息技术革命根基. 在此之前的漫长历史中, 人类虽创造了诸如算盘, 计算尺及各类三角级数计算装置等专用计算设备, 但正如图灵(或许是最早洞见通用性的深远影响的思想家)所指出的, 通用计算机具有更强大的潜力. 当我们构建出能计算单一通用函数的设备后, 便获得了通过软件扩展其实现任意计算的能力. 例如要模拟新图灵机 $M$ 时, 无需重新构建实体机器, 只需将 $M$ 表示为字符串(即代码)并输入至通用机器 $U$ 即可.

除实际应用外, 通用算法的存在更具深远的理论意义, 尤其可用于证明不可计算函数(uncomputable functions)的存在, 此举颠覆了自Euler至Hilbert等数学家数百年来形成的数学直觉. 本章将论证通用程序的存在性, 并阐释其对不可计算性研究的启示, 详见图 9.1.

简要概述

本章将展现计算机科学中的两项重大成果:

通用图灵机的存在性: 可运行所有其他算法的单一算法
不可计算函数的存在性: 任何算法都无法计算的函数(包括著名的“停机问题“)

我们将通过归约(reductions)技巧论证函数计算的困难性. 归约是借助“假想“能力(假设某函数可被计算)来推导其他函数计算途径的方法. 该技术当然广泛运用于编程领域:我们常将某些任务作为“黑箱“子程序来构建其他任务的算法. 但本章将采用“逆否“视角: 不再通过归约证明前项任务的“简易性“, 而是用以揭示后项任务的“困难性“. 如果你觉得归约费解无需担忧, 这一概念需要时日与实践方能掌握.

universalchapoverviewfig

图 9.1. 本章将证明通用图灵机的存在, 据此推导出某些不可计算函数的存在性, 进而揭示图灵著名“停机问题“(即 $HALT$ 函数)的不可计算性, 并引申出诸多不可计算性结论. 我们同时引入归约方法, 通过函数F的不可计算性推导新函数 $G$ 的不可计算性.

9.1 通用性或自循环解释器

我们首先证明通用图灵机的存在性. 这是一个独立的图灵机 $U,$ 能够模拟任意图灵机 $M$ 在任意输入 $x$ 上的运行, 甚至包括那些状态数和字母表规模都超过 $U$ 本身的图灵机 $M .$ 特别地, $U$ 甚至可以用来运行自身! 这种自指(self reference)概念将在本书中反复出现, 并且正如我们将要看到的, 它会引发计算领域中诸多反直觉的现象.

定理 9.1 (通用图灵机).

存在一个图灵机 $U,$ 使得对于每个表示图灵机的字符串 $M$ 以及任意 $x \in {0, 1}^{*},$ 满足 $U (M, x) = M (x) .$

即若机器 $M$ 在输入 $x$ 上停机并输出某个 $y \in {0, 1}^{*},$ 则 $U (M, x) = y;$ 若 $M$ 在 $x$ 上不停机(即 $M (x) = ⊥),$ 则 $U (M, x) = ⊥.$

universaltmfig

图 9.2. 通用图灵机是一个独立的图灵机 $U,$ 当输入任意图灵机 $M$ (以字符串形式描述)及其输入 $x$ 时, 能够计算 $M$ 在 $x$ 上的输出. 与图5.6所示的通用电路不同, 机器 $M$ 可以比 $U$ 复杂得多(例如具有更多状态或磁带字母符号).

重要启示

重要提示 9.1.

存在一种“通用“算法, 能够在任意输入上运行任意算法.

定理 9.1的证明思路

只要理解定理的含义, 证明并不困难. 目标程序 $U$ 本质上是图灵机的解释器: 它获取机器 $M$ 的表述(可视为源代码)和输入 $x,$ 通过模拟执行 $M$ 在 $x$ 上的运算过程.

设想如何用常用编程语言实现 $U :$ 首先需要设计 $M$ 的编码方案(例如用数组或字典表示状态转移函数), 随后使用链表等数据结构存储 $M$ 的磁带内容, 逐步模拟 $M$ 的运行并动态更新数据. 解释器将持续模拟直至机器停机.

接下来只需依照第8章的方法, 将该解释器从编程语言转化为图灵机. 最终得到的就是“自循环解释器“(meta-circular evaluator), 即用同一语言实现该语言的解释器. 这一概念自通用图灵机诞生伊始便贯穿计算机科学史, 亦可参见图 9.3的示意.

9.1.1 证明通用图灵机的存在性

为证明(甚至准确表述)定理 9.1, 我们需要确定一种将图灵机表示为字符串的编码方式. 一种可能的方案是利用图灵机与NAND-TM程序的等价性, 从而用对应NAND-TM程序 $P$ 源代码的ASCII编码来表示图灵机 $M .$ 但我们将采用更直接的编码方式.

定义 9.1 (图灵机的字符串表示).

设 $M$ 是一个具有 $k$ 个状态, 字母表 $Σ = {σ_{0}, \dots, σ_{ℓ - 1}}$ (遵循 $σ_{0} = 0,$ $σ_{1} = 1,$ $σ_{2} = \emptyset,$ $σ_{3} = ▹$ 的约定)的图灵机. 我们将 $M$ 表示为三元组 $(k, ℓ, T),$ 其中 $T$ 是 $δ_{M}$ 的函数值表:

$T = (δ_{M} (0, σ_{0}), δ_{M} (0, σ_{1}), \dots, δ_{M} (k - 1, σ_{ℓ - 1})),$

这里每个 $δ_{M} (s, σ)$ 的值是一个三元组 $(s^{'}, σ^{'}, d),$ 其中 $s^{'} \in [k],$ $σ^{'} \in Σ,$ $d$ 是编码 ${L, R, S, H}$ 中某个方向的数字 ${0, 1, 2, 3} .$ 因此这类图灵机 $M$ 可由包含 $2 + 3 k \cdot ℓ$ 个自然数的列表编码. $M$ 的字符串表示是由通过连接这些整数的前缀无关编码获得. 若字符串 $α \in {0, 1}^{*}$ 不符合上述整数列表形式, 则视其表示一个在任意输入上立即停机的单状态平凡图灵机.

Info

备注 9.1 (表示方法的要点).

将图灵机编码为字符串的具体细节在绝大多数应用中并不重要. 只需牢记以下要点:

每个图灵机都可表示为字符串.
给定图灵机 $M$ 的字符串表示和输入 $x,$ 我们可以模拟 $M$ 在输入 $x$ 上的运行过程(这是定理 9.1的核心内容).

另一个细节是为了方便起见, 我们假设每个字符串都表示某个图灵机. 通过将不符合要求的字符串映射到某个固定的平凡图灵机, 很容易满足这一假设. 该假设虽不重要, 但能使某些结论(如Rice定理: 定理 9.7)的表述更简洁.

利用此表示法, 我们可以严格证明定理 9.1.

定理 9.1的证明

此处仅概述证明的主要思路. 首先注意到我们可以轻松编写一个Python程序, 该程序根据图灵机 $M$ 的表示 $(k, ℓ, T)$ 和输入 $x,$ 在 $X$ 上对 $M$ 进行求值. 以下是该程序的具体代码(若不熟悉或不感兴趣可跳过):

# constants
def EVAL(δ,x):
    '''Evaluate TM given by transition table δ
    on input x'''
    Tape = ["▷"] + [a for a in x]
    i = 0; s = 0 # i = head pos, s = state
    while True:
        s, Tape[i], d = δ[(s,Tape[i])]
        if d == "H": break
        if d == "L": i = max(i-1,0)
        if d == "R": i += 1
        if i>= len(Tape): Tape.append('Φ')

    j = 1; Y = [] # produce output
    while Tape[j] != 'Φ':
        Y.append(Tape[j])
        j += 1
    return Y

在输入转移表 $δ$ 时, 该程序将逐步模拟对应图灵机 $M$ 的运行过程, 始终维持数组Tape包含 $M$ 的磁带内容, 变量s包含 $M$ 当前状态的不变性.

上述内容并未完全证明定理, 因为我们需要展示计算 $EVAL$ 的是图灵机而非Python程序. 通过足够努力, 我们可以将此Python代码逐行转换为图灵机. 但为证明定理, 我们无需实际完成这一转换, 而是可以运用“鱼与熊掌兼得”范式: 虽然需要运行图灵机, 但在编写解释器代码时允许使用更强大的模型(如NAND-RAM), 因为根据定理8.1, 其与图灵机在计算能力上等价.

将上述Python代码转换为NAND-RAM程序非常直接. 唯一的问题是NAND-RAM没有内置存储转移函数δ的字典数据结构. 但我们可以将形如 ${k e y_{0} : v a l_{0}, \dots, k e y_{m - 1} : v a l_{m - 1}}$ 的字典 $D$ 表示为简单的键值对列表. 通过扫描所有键值对直到找到 $(k, v)$ 形式, 即可计算 $D [k] .$ 类似地, 通过扫描列表并修改或追加 $(k ey, v a l)$ 键值对, 即可更新字典.

Info

备注 9.2 (模拟的效率).

定理 9.1证明中实现字典数据结构的方式在实践中效率很低, 但足以满足证明目的. 这种实现方式下对包含 $m$ 个值的字典进行读写需要 $Ω (m)$ 步, 但实际使用搜索树数据结构可在 $O (lo g m)$ 步内完成, 甚至通过哈希表在“典型”情况下仅需 $O (1)$ 步. NAND-RAM和RAM机器对应现代电子计算机架构, 因此我们可以在NAND-RAM中实现哈希表和搜索树, 就像在其他编程语言中实现那样.

上述构造产生的通用图灵机具有非常多的状态. 但由于通用图灵机具有重要的哲学和技术意义, 研究人员一直致力于寻找最小的通用图灵机(见第9.7节).

9.1.2 通用性的影响(讨论)

lispinterpreterfig

图 9.3. a) “元循环求值器”的一个特别优雅的示例来自John McCarthy在1960年的论文, 他在定义Lisp编程语言时给出了一个可求值任意Lisp程序的Lisp函数(见上图). Lisp最初并非作为实用编程语言设计, 此示例旨在说明Lisp通用函数比通用图灵机更优雅. 但麦卡锡的研究生史蒂夫·罗素建议将其实现. 据麦卡锡后来回忆: “我对他说, 呵呵, 你把理论和实践搞混了, 这个eval函数是用来阅读而不是计算的. 但他坚持做了下去——他将我论文中的eval编译成IBM 704机器码, 修复了一个错误, 然后将其作为Lisp解释器发布, 这确实名副其实. ” b) 汤普逊的经典论文(Thompson, 1984)中的自复制C程序.

满足定理 9.1条件的图灵机 $U$ 不止一个, 但即使仅存在一个这样的机器, 对计算机科学的理论与实践都具有极其重要的意义. 定理 9.1的影响超越了图灵机这一特定模型. 由于每个图灵机都可以被NAND-TM程序模拟, 反之亦然, 定理 9.1直接表明存在通用NAND-TM程序 $P_{U}$ 使得 $P_{U} (P, x) = P (x)$ 对每个NAND-TM程序 $P$ 成立. 我们还可以“混合搭配”不同模型: 由于每个NAND-RAM程序可被图灵机模拟, 每个图灵机可被 $λ$ 演算模拟, 定理 9.1表明存在 $λ$ 表达式 $e,$ 使得对每个满足 $P (x) = y$ 的NAND-RAM程序 $P$ 和输入 $x,$ 若将 $(P, x)$ 编码为 $λ$ 表达式 $f$ (使用 $λ$ 演算将字符串编码为0和1的列表), 则 $(e f)$ 会求值为 $y$ 的编码. 更一般地说, 对于图灵等价模型集合{图灵机, RAM机器, NAND-TM, NAND-RAM, $λ$ 演算, JavaScript, Python……}中的任意 $X$ 和 $Y,$ 都存在 $X$ 中的程序/机器, 可计算每个程序/机器 $P \in Y$ 的映射关系 $(P, x) \mapsto P (x) .$

“通用程序”的思想当然不仅限于理论. 例如编程语言的编译器常被用于编译自身以及比编译器更复杂的程序(Fabrice Bellard的Obfuscated Tiny C编译器就是典型例子: 这个2048字节的C程序能编译C编程语言的一个大型子集, 尤其能编译自身). 这也与可打印自身源代码的程序相关(见图 9.3). 目前已知存在需要极少状态或字母符号的通用图灵机, 特别是存在一种(基于特定图灵机字符串表示方法的)通用图灵机, 其磁带字母表为 ${▹, \emptyset, 0, 1}$ 且状态数少于25个(见第9.7节).

9.2 所有函数都可计算吗?

在定理4.6中, 我们看到NAND-CIRC程序可以计算每个有限函数 $f : {0, 1}^{n} \to {0, 1} .$ 因此, 一个很自然的猜想是, NAND-TM程序(或者等价地说, 图灵机)能够计算每个无限函数 $F : {0, 1}^{*} \to {0, 1} .$ 然而, 事实并非如此. 也就是说, 存在一个函数 $F : {0, 1}^{*} \to {0, 1}$ 是不可计算的!

不可计算函数的存在是相当令人惊讶的. 我们对“函数“的直观概念(也是直到20世纪大多数数学家所持有的概念)是, 函数 $f$ 定义了某种从输入 $x$ 计算输出 $f (x)$ 的隐式或显式方法. 因此, “不可计算函数“这个概念看起来似乎自相矛盾, 但下面的定理表明, 这样的函数确实存在:

定理 9.2 (不可计算函数).

存在一个函数 $F^{*} : {0, 1}^{*} \to {0, 1},$ 它不能被任何图灵机计算.

定理 9.2的证明思路

证明背后的思路与康托尔证明实数是不可数(定理2.2)的思路非常接近, 实际上, 这个定理也可以相当直接地从那个结果推导出来(见练习7.11). 然而, 看看直接证明是有启发性的. 思路是构造 $F^{*}$ 的方式将确保每一台可能的机器 $M$ 实际上都无法计算 $F^{*} .$ 我们通过如下方式实现: 如果 $x$ 描述了一台满足 $M (x) = 1$ 的图灵机 $M,$ 则定义 $F^{*} (x)$ 等于 $0;$ 否则定义 $F^{*} (x) = 1.$ 根据构造, 如果 $M$ 是任意图灵机且 $x$ 是描述它的字符串, 那么 $F^{*} (x) \neq = M (x),$ 因此 $M$ 不能计算 $F^{*} .$

定理 9.2的证明

证明过程如图 9.4所示. 我们首先定义以下函数 $G : {0, 1}^{*} \to {0, 1} :$

对于每个字符串 $x \in {0, 1}^{*},$ 如果 $x$ 满足**(1) $x$ 是某个图灵机 $M$ 的有效表示(根据上述表示方案), 并且(2)**当程序 $M$ 在输入 $x$ 上执行时它停机并产生一个输出, 那么我们将 $G (x)$ 定义为此输出的第一个比特. 否则(即, 如果 $x$ 不是图灵机的有效表示, 或者机器 $M_{x}$ 在 $x$ 上永不停机), 我们定义 $G (x) = 0.$ 我们定义 $F^{*} (x) = 1 - G (x) .$

我们声称不存在计算 $F^{*}$ 的图灵机. 确实, 假设为了推出矛盾, 存在一台机器 $M$ 计算 $F^{*},$ 并令 $x$ 是表示机器 $M$ 的二进制字符串. 一方面, 根据我们的假设, $M$ 计算 $F^{*},$ 在输入 $x$ 上, 机器 $M$ 停机并输出 $F^{*} (x) .$ 另一方面, 根据 $F^{*}$ 的定义, 由于 $x$ 是机器 $M$ 的表示, $F^{*} (x) = 1 - G (x) = 1 - M (x),$ 从而产生矛盾.

diagonal-fig

图 9.4. 我们通过为每对字符串 $x, y$ 定义值 $1 - M_{y} (x)$ 来构造一个不可计算函数, 如果由 $y$ 描述的机器在 $x$ 上输出 $1,$ 则该值为 $0,$ 否则为 $1.$ 然后我们定义 $F^{*} (x)$ 为该表的“对角线“, 即对每个 $x,$ $F^{*} (x) = 1 - M_{x} (x) .$ 函数 $F^{*}$ 是不可计算的, 因为如果它可由某个字符串描述为 $x^{*}$ 的机器计算, 那么我们将得到 $M_{x^{*}} (x^{*}) = F^{*} (x^{*}) = 1 - M_{x^{*}} (x^{*}) .$

重要启示

重要提示 9.2.

存在一些函数是任何算法都无法计算的.

暂停一下

定理 9.2的证明简短但精妙. 我建议你在这里暂停, 回头再读一遍并思考一下——这是一个值得读至少两遍, 如果不是三四遍的证明. 用几行数学推理就确立了一个意义深远的事实——即存在我们根本无法解决的问题——这种情况并不常见.

用于证明定理 9.2的论证类型被称为对角线法, 因为它可以像图 9.4中那样, 被描述为基于表的对角线项来定义一个函数. 这个证明可以看作是我们用于在定理5.3中证明NAND-CIRC程序下界的计数论证的无限版本. 也就是说, 我们证明了不可能用图灵机计算所有从 ${0, 1}^{*} \to {0, 1}$ 的函数, 仅仅因为这样的函数比图灵机要多.

如备注7.4所述, 许多文献使用“语言“术语, 因此如果函数 $F : {0, 1}^{*} \to {0, 1}$ 满足 $F (x) = 1 \leftrightarrow x \in L$ 是不可计算的, 则称集合 $L \subseteq {0, 1}^{*}$ 为不可判定或非递归语言.

9.3 停机问题

定理 9.2表明存在某个无法计算的函数. 但是, 这个函数是否等同于“森林中无人听闻其倒下的树“呢? 也就是说, 它或许是一个实际上没有人想要计算的函数. 事实证明, 确实存在一些自然的不可计算函数：

定理 9.3 (停机函数的不可计算性).

令 $HALT : {0, 1}^{*} \to {0, 1}$ 为如下函数：对于每个字符串 $M \in {0, 1}^{*},$ 如果图灵机 $M$ 在输入 $x$ 上停机, 则 $HALT (M, x) = 1;$ 否则 $HALT (M, x) = 0.$ 那么 $HALT$ 是不可计算的.

在着手证明定理 9.3之前, 我们注意到 $HALT$ 是一个非常自然, 人们会想要计算的函数. 例如, 可以将 $HALT$ 视为管理“应用商店“任务的一个特例. 也就是说, 给定某个应用程序的代码, 商店的守门员需要决定此代码是否足够安全以允许进入商店. 至少, 我们似乎应该验证该代码不会进入无限循环.

定理 9.3的证明思路

理解此证明的一种方式如下： $F^{*} 的不可计算性 + 通用性 = HALT 的不可计算性$ 也就是说, 我们将使用计算 $EVAL$ 的通用图灵机, 从定理 9.2所证明的 $F^{*}$ 的不可计算性, 推导出 $HALT$ 的不可计算性. 具体来说, 我们将采用反证法进行证明. 即, 我们将为了引出矛盾而假设 $HALT$ 是可计算的, 然后利用该假设, 连同定理 9.1中的通用图灵机, 推导出 $F^{*}$ 是可计算的, 这将与定理 9.2相矛盾.

重要启示

重要提示 9.3.

如果一个函数 $F$ 是不可计算的, 我们可以通过给出一种将计算 $F$ 的任务归约到计算 $H$ 的方法, 来证明另一个函数 $H$ 也是不可计算的.

定理 9.3的证明

该证明将使用先前已建立的结果定理 9.2. 回顾定理 9.2表明以下函数 $F^{*} : {0, 1}^{*} \to {0, 1}$ 是不可计算的：

$F^{*} (x) = {01 x (x) = 1 其他情况$ 其中 $x (x)$ 表示由字符串 $x$ 描述的图灵机在输入 $x$ 上的输出(按照通常约定, 如果此计算不停机, 则 $x (x) = ⊥) .$

我们将证明 $F^{*}$ 的不可计算性意味着 $HALT$ 的不可计算性. 具体来说, 我们将为了引出矛盾而假设存在一个能够计算 $HALT$ 函数的图灵机 $M,$ 并利用它来得到一个计算函数 $F^{*}$ 的图灵机 $M^{'} .$ (这被称为_归约_证明, 因为我们将计算 $F^{*}$ 的任务归约到了计算 $HALT$ 的任务. 根据逆否命题, 这意味着 $F^{*}$ 的不可计算性蕴含着 $HALT$ 的不可计算性)

确实, 假设 $M$ 是一个计算 $HALT$ 的图灵机. 算法 9.1描述了一个计算 $F^{*}$ 的图灵机 $M^{'} .$ (我们使用图灵机的“高层次“描述, 援引“鱼与熊掌兼得“范式, 见核心思想10)

我们断言算法 9.1计算了函数 $F^{*} .$ 确实, 假设 $x (x) = 1$ (因此 $F^{*} (x) = 0) .$ 在这种情况下, $HALT (x, x) = 1,$ 因此在我们假设 $M (x, x) = HALT (x, x)$ 的条件下, 值 $z$ 将等于 $1,$ 因此算法 9.1将设定 $y = x (x) = 1,$ 并输出正确的值 $0.$

假设否则 $x (x) \neq = 1$ (因此 $F^{*} (x) = 1) .$ 在这种情况下, 有两种可能性：

情况1：: 由 $x$ 描述的机器在输入 $x$ 上不停机(因此 $F^{*} (x) = 1) .$ 在这种情况下, $HALT (x, x) = 0.$ 由于我们假设 $M$ 计算 $HALT,$ 这意味着在输入 $x, x$ 上, 机器 $M$ 必须停机并输出值 $0.$ 这意味着算法 9.1将设定 $z = 0$ 并输出 $1.$
情况2：: 由 $x$ 描述的机器在输入 $x$ 上停机并输出某个 $y^{'} \neq = 1$ (因此 $F^{*} (x) = 0) .$ 在这种情况下, 由于 $HALT (x, x) = 1,$ 根据我们的假设, 算法 9.1将设定 $y = y^{'} \neq = 1,$ 从而输出 $1.$

我们看到在所有情况下, $M^{'} (x) = F^{*} (x),$ 这与 $F^{*}$ 不可计算的事实相矛盾. 因此, 我们对我们最初关于 $M$ 计算 $HALT$ 的假设得出了矛盾.

算法 9.1 ( $F^{*}$ 到 $HALT$ 的归约). $Input : x \in {0, 1}^{*} Output : F^{*} (x) # 假设图灵机 M_{HALT} 计算 HALT Let z \leftarrow M_{HALT} (x, x) # 假设 z = HALT (x, x) if (z = 0) return 1 endif Let y \leftarrow U (x, x) # U 是通用图灵机, 即 y = x (x) if (y = 1) return 0 endif return 1$

暂停一下

这又是一个值得多次阅读的证明. 停机问题的不可计算性是计算机科学的基本定理之一, 并且是我们后续将看到的许多研究的起点. 更好地理解定理 9.3的一个极好方法是仔细阅读9.3.2节, 该节给出了同一结果的另一种证明.

9.3.1 停机问题真的困难吗? (讨论)

许多人在初次看到定理 9.3的证明时, 第一反应是不敢相信. 也就是说, 虽然大多数人都相信这个数学结论, 但从直觉上看, 停机问题似乎并不真的那么困难. 毕竟, 不可计算性仅仅意味着 $HALT$ 无法被图灵机计算.

但程序员们似乎总能通过非正式或正式地论证其程序会终止, 来解决 $HALT$ 问题. 虽然他们的程序是用C或Python编写的, 而不是图灵机, 但这并无区别: 我们可以轻松地在这个模型与任何其他编程语言之间进行转换.

尽管每个程序员都曾遇到过无限循环, 但真的没有办法解决停机问题吗? 有些人声称, 只要他们足够努力地思考, 就能够判断任何给定的具体程序是否会终止. 甚至有人认为, 人类普遍具有这种能力, 因此人类天生就拥有优于计算机或其他由图灵机建模的事物的智能. ¹

我们目前最好的答案是, 确实没有办法解决 $HALT,$ 无论是使用Mac, 个人电脑, 量子计算机, 人类, 还是任何其他电子, 机械和生物设备的组合. 实际上, 这一断言正是Church-Turing论题的内容. 当然, 这并不意味着对于每一个可能的程序 $P,$ 判断 $P$ 是否进入无限循环都很困难. 有些程序甚至根本没有循环(因此显然会终止), 并且还有许多其他不那么平凡的程序示例, 我们可以证明它们永远不会进入无限循环(或者我们确信它们会进入这样的循环). 然而, 并不存在一种通用方法, 能够对任意程序 $P$ 判断它是否终止. 此外, 有一些非常简单的程序, 没有人知道它们是否会终止. 例如, 以下Python程序当且仅当哥德巴赫猜想为假时才会终止:

def isprime(p):
    return all(p % i for i in range(2,p-1))

def Goldbach(n):
    return any( (isprime(p) and isprime(n-p))
           for p in range(2,n-1))

n = 4
while True:
    if not Goldbach(n): break
    n+= 2

鉴于哥德巴赫猜想自1742年提出以来一直未被解决, 人类是否拥有任何神奇的能力来判断这个(或其他类似程序)是否会终止, 尚不清楚.

xkcdhaltingfig

图 9.5. SMBC对解决停机问题的看法.

9.3.2 $HALT$ 不可计算性的直接证明(可选)

事实证明, 我们可以结合定理 9.2和定理 9.3的证明思路, 给出后者的一个简短证明, 而不需要诉诸 $F^{*}$ 的不可计算性. 这个简短证明出现在1965年Christopher Strachey写给《计算机杂志》编辑的一封信中:

致《计算机杂志》编辑.

一个不可能的程序

先生:

程序员间流传的一个众所周知的民间传说认为, 不可能编写一个程序来检查任何其他程序, 并在所有情况下判断它运行时是会终止还是进入封闭循环. 我从未在出版物上见过此事的证明, 尽管Alan Turing曾给过我一个口头证明(1953年在前往国家物理实验室参加会议的火车车厢里), 但我不幸立刻忘记了细节. 这让我有一种不安的感觉, 认为证明一定很长或很复杂, 但实际上它如此简短和简单, 一般的读者可能也会感兴趣. 以下版本使用了CPL, 但并非本质性的.

假设T[R]是一个布尔函数, 它以没有形式或自由变量的例程(或程序)R作为参数, 并且对于所有R, 如果R运行时终止, 则T[R] = True; 如果R不终止, 则T[R] = False.

考虑如下定义的例程P:

rec routine P
§L: if T[P] go to L
Return §

如果T[P] = True, 例程P将进入循环, 只有T[P] = False时它才会终止. 在每种情况下,T[P]的值都恰好是错误的, 这个矛盾表明函数T不可能存在.

您诚挚的,
C. Strachey

丘吉尔学院, 剑桥

暂停一下

尝试停下来, 从上面的信中提取证明定理 9.3的论证.

由于CPL如今已不常见, 让我们复现这个证明. 思路如下: 为了推出矛盾, 假设存在一个程序T, 使得T(f,x)等于True当且仅当f在输入x上停机. (Strachey的信考虑的是 $HALT$ 的无输入变体, 但我们会看到, 这一区别并非本质上的)然后我们可以构造一个程序P和一个输入x, 使得T(P,x)给出错误的答案. 思路是, 在输入x上, 程序P将执行以下操作: 运行T(x,x), 如果答案是True, 则进入无限循环, 否则停机. 现在你可以看到T(P,P)会给出错误的答案: 如果P在以其自身代码作为输入时停机, 那么T(P,P)本应为True, 但P(P)将进入无限循环. 而如果P不停机, 那么T(P,P)本应为False, 但P(P)却会停机. 我们也可以用Python编写这段代码:

def CantSolveMe(T):
    """
    接受一个声称能解决停机问题的函数T. 
    返回一个由代码和输入组成的二元组(P,x)使
    T(P,x) ≠ HALT(x)
    """
    def fool(x):
        if T(x,x):
            while True: pass
        return "我停机了"

    return (fool,fool)

例如, 考虑以下天真的Python程序T, 它猜测一个给定的函数如果其输入包含while或for就不会停机:

def T(f,x):
    """粗略的停机测试器——如果程序含包含循环, 则判定其不停机"""
    import inspect
    source = inspect.getsource(f)
    if source.find("while"): return False
    if source.find("for"): return False
    return True

如果我们现在设置(f,x) = CantSolveMe(T), 那么T(f,x)=False, 但f(x)实际上却停机了. 这当然不是这个特定T独有的问题: 对于每个程序T, 如果我们运行(f,x) = CantSolveMe(T), 我们都会得到一个输入, 在该输入上T对 $HALT$ 给出了错误的答案.

9.4 归约

停机问题被证明是不可计算性的关键, 因为定理 9.3已被用来证明大量有趣函数的不可计算性. 我们将在本章和练习中看到几个这样的结果示例, 但还有更多此类结果(见图 9.6).

haltreductions-fig

图 9.6. 一些不可计算性结果. 从问题X指向问题Y的箭头表示我们通过将计算X归约为计算Y, 利用X的不可计算性来证明Y的不可计算性. 除MRDP定理外, 所有这些结果都出现在正文或练习中. 停机问题 $HALT$ 是我们所有这些不可计算性结果以及许多其他结果的起点.

这类不可计算性结果背后的思路在概念上很简单, 但起初可能相当令人困惑. 如果我们知道 $HALT$ 是不可计算的, 并且我们想证明某个其他函数 $BLAH$ 是不可计算的, 那么我们可以通过逆否论证(即反证法)来实现. 也就是说, 我们证明如果存在一个计算 $BLAH$ 的图灵机, 那么就存在一个计算 $HALT$ 的图灵机. (实际上, 这正是我们证明 $HALT$ 本身不可计算的方式, 即从定理 9.2的函数 $F^{*}$ 的不可计算性推导出这一事实)

例如, 为了证明 $BLAH$ 是不可计算的, 我们可以证明存在一个可计算函数 $R : {0, 1}^{*} \to {0, 1}^{*},$ 使得对于每对 $M$ 和 $x,$ 都有 $HALT (M, x) = BLAH (R (M, x)) .$ 存在这样一个函数 $R$ 意味着, 如果 $B L A H$ 是可计算的, 那么 $HALT$ 也将是可计算的, 从而导致矛盾! 关于归约令人困惑的部分在于, 我们假设一些我们相信为假的东西(即 $BLAH$ 有算法), 以推导出一些我们知道为假的东西(即 $HALT$ 有算法). Michael Sipser将这类结果描述为具有 “如果猪能吹口哨, 那么马就能飞” 的形式.

基于归约的证明有两个组成部分. 首先, 由于我们需要 $R$ 是可计算的, 我们应该描述计算它的算法. 计算 $R$ 的算法被称为归约, 因为变换 $R$ 将 $HALT$ 的输入修改为 $BLAH$ 的输入, 从而将计算 $HALT$ 的任务归约为计算 $BLAH$ 的任务. 基于归约的证明的第二个组成部分是对算法 $R$ 的分析: 即证明 $R$ 确实满足所需的性质.

基于归约的证明与其他反证法类似, 但它们涉及那些并不真正存在的假设性算法, 这往往使得归约相当令人困惑. 唯一的一点慰藉是, 归根结底, 归约的概念在数学上非常简单, 因此, 即使你每次都需要回到基本原理来记住归约的方向, 也并不是那么糟糕.

Info

备注 9.3 (归约是算法). 归约是一个算法, 这意味着, 如备注0.3所讨论的, 一个归约有三个组成部分:

规范(做什么): 在从 $HALT$ 到 $BLAH$ 的归约中, 规范是函数 $R : {0, 1}^{*} \to {0, 1}^{*}$ 应满足对于每个图灵机 $M$ 和输入 $x,$ $HALT (M, x) = BLAH (R (M, x)) .$ 一般来说, 要将函数 $F$ 归约到 $G,$ 归约应满足对于 $F$ 的每个输入 $w,$ $F (w) = G (R (w)) .$
实现(怎么做): 算法的描述: 将输入 $w$ 转换为输出 $y = R (w)$ 的精确指令.
分析(为什么): 证明算法符合规范的证明. 特别地, 在从 $F$ 到 $G$ 的归约中, 这是证明对于每个输入 $w,$ 算法的输出 $y = R (w)$ 满足 $F (w) = G (y) .$

9.4.1 示例: 零输入停机问题

这里有一个通过归约进行证明的具体例子. 我们定义函数 $HALTONZERO : {0, 1}^{*} \to {0, 1}$ 如下: 给定任意字符串 $M,$ $HALTONZERO (M) = 1$ 当且仅当 $M$ 描述了一个在给定字符串 $0$ 作为输入时会停机的图灵机. 先验地, $HALTONZERO$ 似乎比完整的 $HALT$ 函数可能更容易计算, 因此我们或许可以希望它是可计算的. 然而, 下面的定理表明情况并非如此:

定理 9.4 (无输入停机问题).

$HALTONZERO$ 是不可计算的.

暂停一下

定理 9.4的证明在下方, 但在阅读之前, 你可能需要暂停几分钟, 思考您自己将如何证明它. 特别是, 尝试思考从 $HALT$ 到 $HALTONZERO$ 的归约会是什么样子. 这样做是初步熟悉归约证明概念的绝佳方式, 这是我们将在本书中反复使用的一种技术. 你也可以查看图 9.8和随附的Colab笔记本, 了解此归约的Python实现.

haltonzerofig

图 9.7. 为了证明定理 9.4, 我们通过给出从计算 $HALT$ 的任务到计算 $HALTONZERO$ 的任务的归约, 来证明 $HALTONZERO$ 是不可计算的. 这表明如果存在一个假设计算 $HALTONZERO$ 的算法 $A,$ 那么就会存在一个计算 $HALT$ 的算法 $B,$ 这与定理 9.3矛盾. 由于 $A$ 和 $B$ 实际上都不存在, 这是一个“如果猪能吹口哨, 那么马就能飞“形式的蕴含示例.

定理 9.4的证明

该证明通过从 $HALT$ 归约来完成, 参见图 9.7. 为了推出矛盾, 我们假设 $HALTONZERO$ 可由某个算法 $A$ 计算, 并利用这个假想的算法 $A$ 来构造一个计算 $HALT$ 的算法 $B,$ 从而得到与定理 9.3的矛盾. (如重要启示10中所讨论的, 遵循我们“鱼与熊掌兼得“的范式, 我们只使用通用名称“算法“, 而不关心是将它们建模为图灵机, NAND-TM程序, NAND-RAM等; 这没有区别, 因为所有这些模型都是彼此等价的)

由于这是我们第一次从停机问题出发进行归约证明, 我们将比往常更详细地阐述它. 这样的归约证明包括两个步骤:

归约描述: 我们将描述我们的算法 $B$ 的操作, 以及它如何对假想的算法 $A$ 进行“函数调用“.
归约分析: 然后我们将证明, 在算法 $A$ 计算 $HALTONZERO$ 的假设下, 算法 $B$ 将计算 $HALT .$

我们的算法 $B$ 工作如下: 在输入 $M, x$ 上, 它运行算法 9.1以获得一个图灵机 $M^{'},$ 然后返回 $A (M^{'}) .$ 机器 $M^{'}$ 忽略其输入 $z,$ 只运行 $M$ 于 $x$ 上.

在伪代码中, 程序 $N_{M, x}$ 看起来大致如下:

def N(z):
    M = r'.......'  # 包含 M 描述的字符串常量
    x = r'.......'  # 包含 x 的字符串常量
    return eval(M,x) # 注意我们忽略了输入 z

也就是说, 如果我们将 $N_{M, x}$ 视为一个程序, 那么它是一个包含 $M$ 和 $x$ 作为“硬编码常量“的程序, 给定任何输入 $z,$ 它 simply 忽略输入并总是返回在 $x$ 上运行 $M$ 的结果. 算法 $B$ 并不实际执行机器 $N_{M, x} .$ $B$ 仅仅将 $N_{M, x}$ 的描述作为字符串写下(就像我们上面做的那样), 并将这个字符串作为输入提供给 $A .$

以上完成了归约的描述. 分析通过证明以下断言获得:

断言: 对于每个字符串 $M, x, z,$ 由算法 $B$ 在步骤1中构造的机器 $N_{M, x}$ 满足: $N_{M, x}$ 在 $z$ 上停机当且仅当由 $M$ 描述的程序在输入 $x$ 上停机.

断言证明: 由于 $N_{M, x}$ 忽略其输入并使用通用图灵机在 $x$ 上评估 $M,$ 它在 $z$ 上停机当且仅当 $M$ 在 $x$ 上停机.

特别地, 如果我们用输入 $z = 0$ 来实例化这个断言, 我们看到 $HALTONZERO (N_{M, x}) = H A L T (M, x) .$ 因此, 如果假想的算法 $A$ 对每个 $M$ 满足 $A (M) = HALTONZERO (M),$ 那么我们构造的算法 $B$ 对每个 $M, x$ 满足 $B (M, x) = H A L T (M, x),$ 这与 $H A L T$ 的不可计算性相矛盾.

haltonzeropythonfig

图 9.8. 一个Python实现, 展示了如果 $HALT$ 不可计算, 则 $HALTONZERO$ 也不可计算的归约. 有关此归约的完整实现, 请参见此Colab笔记本.

算法 9.2 ( $HALT$ 到 $HALTONZERO$ 的归约).

$Input : 图灵机 M 和字符串 x Output : 图灵机 M^{'} 使得 M 在输入 x 上停机当且仅当 M^{'} 在输入 0 时停机 procedure N_{M, x} (w) # 图灵机 N_{M, x} 的描述 return EVAL (M, x) # 忽略输入, 并在 x 上运行 M endproc return N_{M, x} # 我们并不运行 N_{M, x}, 只返回其描述$

Info

备注 9.4 (硬编码技术).

在定理 9.4的证明中, 我们使用了将输入 $x$ “硬编码“到程序/机器 $P$ 中的技术. 也就是说, 我们取一个计算函数 $x \mapsto f (x)$ 的程序, 并将一些输入“固定“或“硬编码“为某个常数值. 例如, 如果你有一个程序, 它接受一对数字 $x, y$ 作为输入并输出它们的乘积(即计算函数 $f (x, y) = x \times y),$ 那么你可以将第二个输入“硬编码“为 $17,$ 从而获得一个程序, 它接受一个数字 $x$ 作为输入并输出 $x \times 17$ (即计算函数 $g (x) = x \times 17) .$ 这种技术在归约证明和其他地方非常常见, 我们将在本书中反复使用它.

9.5 Rice定理与通用软件验证的不可能性

停机问题的不可计算性其实是一个更普遍现象的特殊情况. 即, 我们无法证明通用程序的语义属性. “语义属性“指的是程序计算的函数的属性, 而不是依赖于程序使用的特定语法的属性.

程序 $P$ 的语义属性的一个例子是: 只要 $P$ 被给定一个具有偶数个 $1$ 的输入字符串, 它就输出 $0.$ 另一个例子是: 当输入以 $1$ 结尾时, $P$ 将始终停机. 相比之下, C程序在每个函数声明之前包含注释的属性不是语义属性, 因为它依赖于实际的源代码, 而不是输入/输出关系.

检查程序的语义属性非常重要, 因为它对应于检查程序是否符合规范. 但结果证明这样的属性通常是不可计算的. 我们已经看到了一些不可计算语义函数的例子, 即 $HALT$ 和 $HALTONZERO,$ 但这些只是“冰山一角“. 我们首先观察另一个这样的例子:

定理 9.5 (计算全零函数).

设 $ZEROFUNC : {0, 1}^{*} \to {0, 1}$ 为如下函数: 对于每个 $M \in {0, 1}^{*},$ $ZEROFUNC (M) = 1$ 当且仅当 $M$ 表示一个图灵机, 且该图灵机在每个输入 $x \in {0, 1}^{*}$ 上都输出 $0.$ 那么 $ZEROFUNC$ 是不可计算的.

暂停一下

尽管名称相似, $ZEROFUNC$ 和 $HALTONZERO$ 是两个不同的函数. 例如, 如果 $M$ 是一个图灵机, 在输入 $x \in {0, 1}^{*}$ 上, 停机并输出 $x$ 的所有坐标的与, 那么 $HALTONZERO (M) = 1$ (因为 $M$ 在输入 $0$ 上确实停机), 但 $ZEROFUNC (M) = 0$ (因为 $M$ 不计算常数零函数).

定理 9.5的证明

证明通过从 $HALTONZERO$ 归约来完成. 为了推出矛盾, 假设存在一个算法 $A,$ 使得对每个 $M \in {0, 1}^{*},$ $A (M) = ZEROFUNC (M) .$ 那么我们将构造一个算法 $B$ 来解决 $HALTONZERO,$ 从而与定理 9.4矛盾.

给定一个图灵机 $N$ (它是 $HALTONZERO$ 的输入), 我们的算法 $B$ 执行以下操作:

构造一个图灵机 $M,$ 它在输入 $x \in {0, 1}^{*}$ 上, 首先运行 $N (0),$ 然后输出 $0.$
返回 $A (M) .$

现在, 如果 $N$ 在输入 $0$ 上停机, 那么图灵机 $M$ 计算常数零函数, 因此在我们假设 $A$ 计算 $ZEROFUNC$ 的情况下, $A (M) = 1.$ 如果 $N$ 在输入 $0$ 上不停机, 那么图灵机 $M$ 在任何输入上都不会停机, 因此特别地, 它不计算常数零函数. 因此在我们假设 $A$ 计算 $ZEROFUNC$ 的情况下, $A (M) = 0.$ 我们看到在两种情况下, $ZEROFUNC (M) = HALTONZERO (N),$ 因此算法 $B$ 在步骤 2 返回的值等于 $HALTONZERO (N),$ 这正是我们需要证明的.

另一个类似的结果如下:

定理 9.6 (验证奇偶性的不可计算性).

以下函数是不可计算的: $COMP U TES - P A R I T Y (P) = {10 P 计算奇偶函数否则$

暂停一下

我们将定理 9.6的证明留作练习(习题 9.6). 我强烈建议你停在这里, 尝试解决这个练习.

9.5.1 Rice定理

定理 9.6可以推广到远不止奇偶校验函数. 事实上, 这种推广排除了对程序进行任何类型的语义规约验证的可能性. 我们将程序上的一个语义规约(semantic specification)定义为某种不依赖于程序代码, 而只依赖于程序所计算的函数的性质.

例如, 考虑以下两个C程序:

int First(int n) {
    if (n<0) return 0;
    return 2*n;
}

int Second(int n) {
    int i = 0;
    int j = 0
    if (n<0) return 0;
    while (j<n) {
        i = i + 2;
        j = j + 1;
    }
    return i;
}

First和Second是两个不同的C程序, 但它们计算相同的函数. 一个语义性质, 对这两个程序要么同时为真, 要么同时为假, 因为它依赖于程序计算的函数, 而不是它们的代码. First和Second都满足的一个语义性质的例子是: “程序 $P$ 计算一个将整数映射到整数的函数 $f,$ 满足对于每个输入 $n,$ $f (n) \geq n$ ”.

如果一个性质依赖于源代码本身而不是输入/输出行为, 那么它就是非语义的. 例如, “程序包含变量k” 或 “程序使用了while操作” 等性质就不是语义的. 这样的性质可能对一个程序为真, 而对其他程序为假.

形式化地, 我们定义语义性质如下:

定义 9.2 (语义性质).

如果对于每个 $x \in {0, 1}^{*},$ 都有 $M (x) = M^{'} (x),$ 则称一对图灵机 $M$ 和 $M^{'}$ 是功能等价的(functionally equivalent). (特别地, 对于所有 $x,$ $M (x) = ⊥$ 当且仅当 $M^{'} (x) = ⊥)$

一个函数 $F : {0, 1}^{*} \to {0, 1}$ 是语义的, 如果对于每一对表示功能等价图灵机的字符串 $M, M^{'},$ 都有 $F (M) = F (M^{'}) .$ (回想一下, 我们假设每个字符串都表示某个图灵机, 参见备注 9.1)

语义函数有两个平凡的例子: 常值1函数和常值0函数. 例如, 如果 $Z$ 是常零函数(即, 对于每个 $M,$ $Z (M) = 0),$ 那么显然对于每一对功能等价的图灵机 $M$ 和 $M^{'},$ 都有 $F (M) = F (M^{'}) .$ 下面是一个非平凡的例子:

Question

练习 9.1 ( $ZEROFUNC$ 是语义的).

证明函数 $ZEROFUNC$ 是语义的.

对练习 9.1的解答

回想一下, $ZEROFUNC (M) = 1$ 当且仅当对于每个 $x \in {0, 1}^{*},$ $M (x) = 0.$ 如果 $M$ 和 $M^{'}$ 功能等价, 那么对于每个 $x,$ $M (x) = M^{'} (x) .$ 因此, $ZEROFUNC (M) = 1$ 当且仅当 $ZEROFUNC (M^{'}) = 1.$

通常, 我们最感兴趣计算的程序性质是语义的, 因为我们希望理解程序的功能. 不幸的是, Rice定理告诉我们这些性质都是不可计算的:

定理 9.7 (Rice定理).

设 $F : {0, 1}^{*} \to {0, 1} .$ 如果 $F$ 是语义的且非平凡的, 那么它是不可计算的.

定理 9.7的证明思路

证明背后的思路是表明, 每个语义的非平凡函数 $F$ 至少和计算 $HALTONZERO$ 一样困难. 这将完成证明, 因为根据定理 9.4, $HALTONZERO$ 是不可计算的. 如果一个函数 $F$ 是非平凡的, 那么存在两个机器 $M_{0}$ 和 $M_{1},$ 使得 $F (M_{0}) = 0$ 且 $F (M_{1}) = 1.$ 因此, 目标是取一个机器 $N,$ 并设法将其映射到一个机器 $M = R (N),$ 使得**(i)**如果 $N$ 在输入0上停机, 则 $M$ 功能等价于 $M_{1};$ (ii) 如果 $N$ 在输入0上不停机, 则 $M$ 功能等价于 $M_{0} .$

因为 $F$ 是语义的, 如果我们实现了这一点, 那么我们将保证 $HALTONZERO (N) = F (R (N)),$ 从而表明如果 $F$ 是可计算的, 那么 $HALTONZERO$ 也将是可计算的, 这与定理 9.4矛盾.

定理 9.7的证明

我们不会给出完全形式化的证明, 而是通过将注意力限制在一个特定的语义函数 $F$ 上来阐述证明思路. 然而, 同样的技术可以推广到所有可能的语义函数. 定义 $MONOTONE : {0, 1}^{*} \to {0, 1}$ 如下: $MONOTONE (M) = 1,$ 如果不存在 $n \in N$ 和两个输入 $x, x^{'} \in {0, 1}^{n},$ 使得对于每个 $i \in [n],$ $x_{i} \leq x_{i}^{'},$ 但 $M (x)$ 输出 $1$ 且 $M (x^{'}) = 0.$ 也就是说, $MONOTONE (M) = 1$ 如果不可能找到一个输入 $x,$ 使得将 $x$ 的某些位从0翻转为1会将 $M$ 的输出从1反方向改变为0. 我们将证明 $MONOTONE$ 是不可计算的, 但该证明很容易推广到任何语义函数.

我们首先注意到 $MONOTONE$ 既不是常值零函数, 也不是常值一函数:

在所有输入上直接进入无限循环的机器 $INF$ 满足 $MONOTONE (INF) = 1,$ 因为 $INF$ 在任何地方都没有定义, 因此特别地, 不存在两个输入 $x, x^{'},$ 使得对于每个 $i$ 有 $x_{i} \leq x_{i}^{'},$ 但 $INF (x) = 0$ 且 $INF (x^{'}) = 1.$
计算其输入的 $XOR$ 或奇偶性(异或)的机器 $PAR$ 不是单调的(例如, $PAR (1, 1, 0, 0, \dots, 0) = 0$ 但 $PAR (1, 0, 0, \dots, 0) = 0),$ 因此 $MONOTONE (PAR) = 0.$

(注意 $INF$ 和 $PAR$ 是机器而不是函数)

现在, 我们将给出一个从 $HALTONZERO$ 到 $MONOTONE$ 的归约. 也就是说, 我们假设存在一个计算 $MONOTONE$ 的算法 $A,$ 并由此导出矛盾, 然后我们将构建一个计算 $HALTONZERO$ 的算法 $B .$ 我们的算法 $B$ 将如下工作:

算法 $B :$
输入: 描述图灵机的字符串 $N .$ (目标: 计算 $HALTONZERO (N))$
假设: 可以访问计算 $MONOTONE$ 的算法 $A .$
操作:
- 构造以下机器 $M :$ “对于输入 $z \in {0, 1}^{*},$ 执行: (a) 运行 $N (0),$ (b) 返回 $PAR (z)$ ”.
- 返回 $1 - A (M) .$

为了完成证明, 我们需要证明, 在我们假设 $A$ 计算 $MONOTONE$ 的前提下, $B$ 输出了正确答案. 换句话说, 我们需要证明 $HALTONZERO (N) = 1 - MONOTONE (M) .$ 假设 $N$ 在输入 0 上不停机. 在这种情况下, 算法 $B$ 构造的程序 $M$ 在步骤 (a) 进入无限循环, 并且永远不会到达步骤 (b). 因此, 在这种情况下, $N$ 功能等价于 $INF .$ (机器 $N$ 与 $INF$ 不是同一个机器: 它的描述或代码不同. 但它的输入/输出行为(在这种情况下)确实相同, 即在任何输入上都不停机. 另外, 虽然程序 $M$ 将在每个输入上进入无限循环, 但算法 $B$ 从未实际运行 $M :$ 它只生成其代码并将其提供给 $A .$ 因此, 即使在这种情况下, 算法 $B$ 也不会进入无限循环)所以在这种情况下, $MONOTONE (M) = MONOTONE (INF) = 1.$

如果 $N$ 在输入0上确实停机, 那么 $M$ 中的步骤**(a)** 最终将结束, 并且 $M$ 的输出将由步骤**(b)** 决定, 即它简单地输出其输入的奇偶性. 因此, 在这种情况下, $M$ 计算的是非单调的奇偶性函数(即功能等价于 $PAR),$ 所以我们得到 $MONOTONE (M) = MONOTONE (PAR) = 0.$ 在这两种情况下, $MONOTONE (M) = 1 - H A L TONZERO (N),$ 这正是我们想要证明的.

检查这个证明可以发现, 除了 $MONOTONE$ 是语义且非平凡的之外, 我们没有使用关于它的任何其他信息. 对于每个语义的非平凡函数 $F,$ 我们可以使用相同的证明, 只需将 $PAR$ 和 $INF$ 替换为两个机器 $M_{0}$ 和 $M_{1},$ 使得 $F (M_{0}) = 0$ 且 $F (M_{1}) = 1.$ 如果 $F$ 是非平凡的, 这样的机器必须存在.

Info

备注 9.5 (语义性不等于不可计算性).

Rice定理非常强大, 并且是证明不可计算性的一种流行方法, 以至于人们有时会感到困惑, 认为它是证明不可计算性的唯一方法. 特别地, 一个常见的误解是, 如果一个函数 $F$ 不是语义的, 那么它就是可计算的. 这完全不是事实.

例如, 考虑以下函数 $HALTNOYALE : {0, 1}^{*} \to {0, 1} .$ 这个函数在输入一个表示NAND-TM程序 $P$ 的字符串时, 输出 $1$ 当且仅当 (i) $P$ 在输入 $0$ 上停机, 并且 (ii) 程序 $P$ 不包含标识符为Yale的变量. 函数 $HALTNOYALE$ 显然不是语义的, 因为当输入以下两个功能等价程序之一时, 它将输出两个不同的值:

Yale[0] = NAND(X[0],X[0])
Y[0] = NAND(X[0],Yale[0])

Harvard[0] = NAND(X[0],X[0])
Y[0] = NAND(X[0],Harvard[0])

然而, $HALTNOYALE$ 是不可计算的, 因为每个程序 $P$ 都可以被转换成一个等价的(实际上是更好的:)) 程序 $P^{'},$ 该程序不包含变量Yale. 因此, 如果我们能计算 $HALTNOYALE,$ 那么我们就能判定NAND-TM程序(从而也能判定图灵机)在输入0上是否停机.

此外, 正如我们将在第11章中看到的, 存在一些不可计算函数, 其输入不是程序, 因此形容词“语义的“并不适用.

诸如“程序包含变量Yale“之类的性质有时被称为语法性质. “语义的“和“语法的“这两个术语的使用超出了编程语言的范围: 英语中一个著名的语法正确但语义无意义的句子是乔姆斯基的“Colorless green ideas sleep furiously.”(无色的绿色思想愤怒地睡觉)然而, 形式化定义“语法性质“相当微妙, 本书将不使用这个术语, 只使用“语义的“和“非语义的“这两个术语.

9.5.2 其他图灵完备模型的停机问题与Rice定理

正如我们之前所见, 许多自然计算模型被证明是彼此等价的, 因为我们可以将一个模型的“程序“(例如 $λ$ 表达式, 或生命游戏的格局)转换成另一个模型(例如NAND-TM程序). 这种等价性意味着, 我们可以将NAND-TM程序的停机问题的不可计算性转化为其他模型中停机问题的不可计算性. 例如:

定理 9.8 (NAND-TM机器停机问题).

设 $NANDTMHALT : {0, 1}^{*} \to {0, 1}$ 为函数, 对于输入字符串 $P \in {0, 1}^{*}$ 和 $x \in {0, 1}^{*},$ 如果由 $P$ 描述的NAND-TM程序在输入 $x$ 上停机, 则输出 $1,$ 否则输出 $0.$ 那么 $NANDTMHALT$ 是不可计算的.

暂停一下

再次强调, 这是你停下来尝试自己证明结果的好时机, 然后再阅读下面的证明.

定理 9.8的证明

我们在定理7.11中已经看到, 对于每个图灵机 $M,$ 都存在一个等价的NAND-TM程序 $P_{M},$ 使得对于每个 $x,$ $P_{M} (x) = M (x) .$ 特别地, 这意味着 $H A L T (M) = NANDTMHALT (P_{M}) .$

从定理7.11的证明中获得的变换 $M \mapsto P_{M}$ 是构造性的(constructive). 也就是说, 该证明提供了一种计算映射 $M \mapsto P_{M}$ 的方法. 这意味着该证明产生了一个从计算 $H A L T$ 的任务到计算 $NANDTMHALT$ 的任务的归约, 由于 $H A L T$ 是不可计算的, 所以 $NANDTMHALT$ 也是不可计算的.

同样的证明也适用于其他计算模型, 如 $λ$ 演算, 二维(甚至一维)自动机等. 因此, 例如, 没有算法可以判定一个 $λ$ 表达式是否计算恒等函数, 也没有算法可以判定生命游戏的初始格局最终是否会将单元格 $(0, 0)$ 染成黑色.

事实上, 我们可以将Rice定理推广到所有这些模型. 例如, 如果 $F : {0, 1}^{*} \to {0, 1}$ 是一个非平凡函数, 使得对于每对功能等价的NAND-TM程序 $P, P^{'}$ 都有 $F (P) = F (P^{'}),$ 那么 $F$ 是不可计算的, 这对于NAND-RAM程序, $λ$ 表达式以及所有其他图灵完备模型(如定义8.5所定义)同样成立, 另见习题 9.12.

9.5.3 软件验证被摧毁了吗? (讨论)

程序正越来越多地用于关键任务, 无论是运行我们的银行系统, 驾驶飞机还是监控核反应堆. 如果我们甚至无法提供一个认证算法来证明一个程序正确计算了奇偶校验函数, 那么我们怎么能确信一个程序做了它应该做的事情呢？关键见解是, 虽然不可能认证一个通用程序符合规约, 但可以在最初编写程序时采用一种使其更容易认证的方式. 举个简单的例子, 如果你编写一个没有循环的程序, 那么你可以证明它会停机. 此外, 虽然可能无法认证一个任意程序计算了奇偶校验函数, 但完全可以编写一个特定的程序 $P,$ 我们可以从数学上证明 $P$ 计算了奇偶校验. 事实上, 编写程序或算法并提供其正确性证明, 正是我们在算法研究中一直在做的事情.

软件验证(software verification)领域关注的是验证给定程序是否满足某些条件. 这些条件可以是程序计算了某个函数, 永远不会写入危险的内存位置, 遵守某些不变量等等. 虽然验证这些任务的一般性问题可能是不可计算的, 但研究人员已经成功地对许多有趣的案例进行了验证, 特别是如果程序最初就是用一种使验证更容易的形式化方法或编程语言编写的. 尽管如此, 验证, 尤其是大型复杂程序的验证, 在实践中仍然是一项极具挑战性的任务, 并且已被形式化证明正确的程序数量仍然很少. 此外, 即使是提出要证明的正确定理(即规约)本身, 也常常是一项非常重要的任务.

inclusionuncomputablefig

图 9.9. 可计算布尔函数集合 $R$ (定义7.3)是所有将 ${0, 1}^{*}$ 映射到 ${0, 1}$ 的函数集合的真子集. 在本章中, 我们看到了后者集合中一些不在前者集合中的元素的例子.

本章回顾

存在一个通用图灵机(或NAND-TM程序) $U,$ 使得在输入图灵机 $M$ 的描述和某个输入 $x$ 时, $U (M, x)$ 停机并输出 $M (x),$ 当(且仅当) $M$ 在输入 $x$ 上停机. 与有限计算(即NAND-CIRC程序/电路)的情况不同, 程序 $U$ 的输入可以是一个状态数比 $U$ 本身更多的机器 $M .$
与有限情况不同, 实际上存在一些本质上不可计算的函数, 即它们不能被任何图灵机计算.
这些不仅包括一些“退化“或“深奥“的函数, 还包括人们深切关注并曾猜想可以计算的函数.
如果Church-Turing论题成立, 那么根据我们的定义不可计算的函数 $F,$ 在我们的物理世界中无法通过任何方式计算.

9.6 习题

习题 9.1 (NAND-RAM停机问题).

设函数 $NANDRAMHALT : {0, 1}^{*} \to {0, 1}$ 满足: 对于输入 $(P, x),$ 其中 $P$ 表示一个NAND-RAM程序, $NANDRAMHALT (P, x) = 1$ 当且仅当程序 $P$ 在输入 $x$ 上停机. 证明 $NANDRAMHALT$ 是不可计算的.

习题 9.2 (时限停机问题).

设函数 $TIMEDHALT : {0, 1}^{*} \to {0, 1}$ 满足: 对于输入(表示三元组 $(M, x, T)$ 的)字符串, $TIMEDHALT (M, x, T) = 1$ 当且仅当图灵机 $M$ 在输入 $x$ 上至多在 $T$ 步内停机(其中一步定义为从纸带读取符号, 更新状态, 写入新符号以及(可能)移动读写头的一个完整操作序列). 证明 $TIMEDHALT$ 是可计算的.

习题 9.3 (空间停机问题(挑战)).

设函数 $SPACEHALT : {0, 1}^{*} \to {0, 1}$ 满足: 对于输入(表示三元组 $(M, x, T)$ 的)字符串, $SPACEHALT (M, x, T) = 1$ 当且仅当图灵机 $M$ 在输入 $x$ 上, 在其读写头到达其纸带的第 $T$ 个位置之前停机. (我们不关心 $M$ 执行了多少步, 只要读写头始终保持在位置 ${0, \dots, T - 1}$ 内即可)证明 $SPACEHALT$ 是可计算的. 提示见脚注²

习题 9.4 (可计算函数的组合).

假设 $F : {0, 1}^{*} \to {0, 1}$ 和 $G : {0, 1}^{*} \to {0, 1}$ 是可计算函数. 对于下列每个函数 $H,$ 要么证明 $H$ 必定是可计算的, 要么给出一对可计算函数 $F$ 和 $G$ 使得 $H$ 不可计算. 证明你的论断.

$H (x) = 1$ 当且仅当 $F (x) = 1$ 或 $G (x) = 1.$
$H (x) = 1$ 当且仅当存在两个非空字符串 $u, v \in {0, 1}^{*}$ 使得 $x = uv$ (即 $x$ 是 $u$ 和 $v$ 的连接), 并且 $F (u) = 1$ 且 $G (v) = 1.$
$H (x) = 1$ 当且仅当存在一个非空字符串的列表 $u_{0}, \dots, u_{t - 1},$ 使得对每个 $i \in [t]$ 都有 $F (u_{i}) = 1$ 且 $x = u_{0} u_{1} \dots u_{t - 1} .$
$H (x) = 1$ 当且仅当 $x$ 是NAND++程序 $P$ 的一个有效字符串表示, 并且满足对于每个 $z \in {0, 1}^{*},$ 程序 $P$ 在输入 $z$ 上的输出都是 $F (z) .$
$H (x) = 1$ 当且仅当 $x$ 是NAND++程序 $P$ 的一个有效字符串表示, 并且程序 $P$ 在输入 $x$ 上输出 $F (x) .$
$H (x) = 1$ 当且仅当 $x$ 是NAND++程序 $P$ 的一个有效字符串表示, 并且程序 $P$ 在输入 $x$ 上执行至多 $100 \cdot ∣ x ∣^{2}$ 行后输出 $F (x) .$

习题 9.5.

证明下列函数 $FINITE : {0, 1}^{*} \to {0, 1}$ 是不可计算的. 对于输入 $P \in {0, 1}^{*},$ 我们定义 $FINITE (P) = 1$ 当且仅当 $P$ 是一个表示NAND++程序的字符串, 并且只有有限个输入 $x \in {0, 1}^{*}$ 满足 $P (x) = 1.$ ³

习题 9.6 (计算奇偶性).

不使用Rice定理证明定理 9.6.

习题 9.7 (图灵机等价性).

定义函数 $EQ : {0, 1}^{*} :\to {0, 1}$ 如下: 给定一个表示图灵机对 $(M, M^{'})$ 的字符串, $EQ (M, M^{'}) = 1$ 当且仅当 $M$ 和 $M^{'}$ 根据定义 9.2是功能等价的. 证明 $EQ$ 是不可计算的.

注意, 你不能直接使用Rice定理, 因为该定理只处理以单个图灵机作为输入的函数, 而 $EQ$ 接收两个机器作为输入.

习题 9.8.

对于以下两个函数, 分别说明它们是否可计算:

给定一个NAND-TM程序 $P,$ 一个输入 $x$ 和一个数 $k,$ 当我们运行 $P$ 于 $x$ 时, 索引变量i是否曾达到 $k$ ?
给定一个NAND-TM程序 $P,$ 一个输入 $x$ 和一个数 $k,$ 当我们运行 $P$ 于 $x$ 时, $P$ 是否曾对数组索引 $k$ 的位置进行写操作?

习题 9.9.

设 $F : {0, 1}^{*} \to {0, 1}$ 为如下定义的函数. 对于输入一个表示NAND-RAM程序的字符串 $P$ 和一个表示图灵机的字符串 $M,$ $F (P, M) = 1$ 当且仅当存在某个输入 $x$ 使得 $P$ 在 $x$ 上停机而 $M$ 在 $x$ 上不停机. 证明 $F$ 是不可计算的. 提示见脚注. ⁴

习题 9.10 (递归可枚举性).

定义一个函数 $F : {0, 1}^{*} :\to {0, 1}$ 是递归可枚举的, 如果存在一台图灵机 $M$ 满足: 对于每个 $x \in {0, 1}^{*},$ 如果 $F (x) = 1$ 则 $M (x) = 1$ ；如果 $F (x) = 0$ 则 $M (x) = ⊥.$ (即, 如果 $F (x) = 0$ 则 $M$ 在 $x$ 上不停机)

证明每个可计算的 $F$ 也是递归可枚举的.
证明存在一个函数 $F,$ 它不是可计算的, 但是递归可枚举的. 提示见脚注. ⁵
证明存在一个函数 $F : {0, 1}^{*} \to {0, 1},$ 它不是递归可枚举的. 提示见脚注. ⁶
证明存在一个函数 $F : {0, 1}^{*} \to {0, 1},$ 它是递归可枚举的, 但由 $\overline{F} (x) = 1 - F (x)$ 定义的函数 $\overline{F}$ 不是递归可枚举的. 提示见脚注. ⁷

习题 9.11 (Rice定理: 标准形式).

在本练习中, 我们将证明文献中通常形式的Rice定理.

对于一台图灵机 $M,$ 定义 $L (M) \subseteq {0, 1}^{*}$ 为所有满足 $M$ 在输入 $x$ 上停机并输出 $1$ 的 $x \in {0, 1}^{*}$ 的集合. (集合 $L (M)$ 在文献中称为由 $M$ 识别的语言. 注意, 对于不在 $L (M)$ 中的输入 $x,$ $M$ 可能输出非 $1$ 的值或者根本不停机)

证明对于每台图灵机 $M,$ 如果我们定义函数 $F_{M} : {0, 1}^{*} \to {0, 1}$ 满足 $F_{M} (x) = 1$ 当且仅当 $x \in L (M),$ 那么 $F_{M}$ 是如习题 9.10所定义的递归可枚举函数.
使用定理 9.7证明, 对于每个函数 $G : {0, 1}^{*} \to {0, 1},$ 如果 (a) $G$ 既不是恒等于 $0$ 也不是恒等于 $1$ 的函数, 并且 (b) 对于每对满足 $L (M) = L (M^{'})$ 的 $M, M^{'}$ 都有 $G (M) = G (M^{'}),$ 那么 $G$ 是不可计算的. 提示见脚注. ⁸

习题 9.12 (适用于通用图灵等价模型的Rice定理(可选)).

设 $F$ 为所有从 ${0, 1}^{*}$ 到 ${0, 1}$ 的部分函数的集合, $M : {0, 1}^{*} \to F$ 是定义8.5中定义的图灵等价模型. 我们称一个函数 $F : {0, 1}^{*} \to {0, 1}$ 是* $M$ -语义的*, 如果存在某个 $G : F \to {0, 1}$ 使得对于每个 $P \in {0, 1}^{*}$ 都有 $F (P) = G (M (P)) .$

证明对于每个既非常数 $1$ 也非常数 $0$ 的 $M$ -语义函数 $F : {0, 1}^{*} \to {0, 1},$ $F$ 是不可计算的.

习题 9.13 (忙碌海狸).

本题中我们定义忙碌海狸函数的NAND-TM变体(参见Aaronson于1999年的论文, 2017年的博客文章和2020年的综述(Aaronson, 2020); 另见Tao关于文明科学进步如何通过我们能理解的量来衡量的演讲).

定义 $T_{BB} : {0, 1}^{*} \to N$ 如下: 对于每个字符串 $P \in {0, 1}^{*},$ 如果 $P$ 表示一个NAND-TM程序, 并且当 $P$ 在输入 $0$ 上执行时在 $M$ 步内停机, 则 $T_{BB} (P) = M .$ 否则(如果 $P$ 不代表一个NAND-TM程序, 或者它是一个在 $0$ 上不停机的程序), $T_{BB} (P) = 0.$ 证明 $T_{BB}$ 是不可计算的.
令 $TO W ER (n)$ 表示数 $n 次 2^{\cdot^{\cdot^{\cdot^{2}}}}$ (即高度为 $n$ 的“二的幂塔”). 为了体会这个函数增长有多快, $TO W ER (1) = 2,$ $TO W ER (2) = 2^{2} = 4,$ $TO W ER (3) = 2^{2^{2}} = 16,$ $TO W ER (4) = 2^{16} = 65536,$ 而 $TO W ER (5) = 2^{65536}$ 大约是 $1 0^{20000} .$ $TO W ER (6)$ 已经是一个即使用科学记数法也难以书写的巨大数字. 定义 $NBB : N \to N$ (代表“NAND-TM Busy Beaver“)为函数 $NBB (n) = max_{P \in {0, 1}^{n}} T_{BB} (P),$ 其中 $T_{BB}$ 如问题6.1所定义. 证明 $NBB$ 的增长速度快于 $TO W ER,$ 即 $TO W ER (n) = o (NBB (n)) .$ 提示见脚注⁹

5.9 参考书目

图 9.1中关于停机问题的漫画取自Charles Cooper的网站, 版权归2019年Charles F. Cooper所有.

(Moore与Mertens, 2011年)第7.2节对不可计算性作了高度推荐的概述. 《Gödel, Escher, Bach》(Hofstadter, 1999年)是一本经典科普著作, 涉及不可计算性, 不可证明性, 特别是我们将在第11章看到的哥德尔定理. 亦可参考Holt的新书(Holt, 2018年).

函数定义的历史与数学作为一个领域的发展交织在一起. 多年以来, 函数被(依照上述Euler的表述)视为从输入计算输出的方法. 19世纪, 随着Fourier级数的发明以及对连续性和可微性的系统研究, 人们开始关注更一般的函数类型, 但将函数定义为任意映射的现代定义尚未被普遍接受. 例如, Poincare在1899年写道：*“我们见到大量奇异的函数, 它们似乎被迫尽可能不像那些有实际用途的正当函数…这些函数被特意构造出来, 只为证明我们先辈的推理存在缺陷, 除此之外我们从中得不到任何东西”*部分精彩的历史论述可参阅(Grabiner, 1983)(Kleiner, 1991)(Lützen, 2002)(Grabiner, 2005).

通用图灵机的存在以及 $HALT$ 的不可计算性最早由Turing在其开创性论文(Turing, 1937)中证明, 但Church在前一年已证明了密切相关的结论. 这些工作建立在Gödel1931年的不完备性定理基础上, 我们将在第11章讨论该定理.

(Rogozhin, 1996)给出了一些字母表和状态数较小的通用图灵机, 包括采用二进制字母表且状态数少于 $25$ 的单带通用图灵机；亦可参阅综述(Woods与Neary, 2009). Adam Yedidia开发了辅助生成较少状态灵机的软件. 这与“代码高尔夫”这种娱乐活动相关, 旨在用尽可能短的程序解决特定计算任务. 寻找“高度复杂“的小型图灵机也与“忙碌海狸“问题有关, 参见习题 9.13及综述(Aaronson, 2020).

用于证明 $F^{*}$ 不可计算性的对角线论证法源于第2章讨论的康托尔关于实数不可数的论证.

Christopher Strachey是英国计算机科学家, CPL编程语言的发明者. 他也是早期人工智能领域的先驱, 在1950年代初期就编程使计算机能下跳棋甚至写情书, 详见《纽约客》文章与此网站.

Rice定理在(Rice, 1953)中被证明. 其常见表述形式与我们所采用的略有不同, 参见习题 9.11.

本章未讨论递归可枚举语言的概念, 但习题 9.10简要涉及了该内容. 我们照例使用函数记法而非语言记法.

1: 这一论点也与意识和自由意志的问题相关. 我个人对其与这些问题的相关性持怀疑态度. 或许推理过程是: 人类有能力解决停机问题, 但他们通过选择不这样做来行使自由意志和意识.

2: 一台字母表为 $Σ$ 的机器, 其纸带前 $T$ 个位置的内容最多有 $∣Σ ∣^{T}$ 种可能. 如果机器重复了之前出现过的配置(即纸带内容, 读写头位置和当前状态都与之前某个执行状态完全相同), 会发生什么?

3: 提示: 你可以使用Rice定理.

4: 提示: 虽然不能直接应用, 但稍作“调整“后, 你可以使用Rice定理来证明这一点.

5: $HALT$ 具有此性质.

6: 你可以使用对角化方法直接证明, 或者证明所有递归可枚举函数的集合是可数的.

7: $HALT$ 具有此性质: 证明如果 $HALT$ 和 $\overline{HALT}$ 都是递归可枚举的, 那么 $HALT$ 实际上将是可计算的.

8: 证明任何满足 (b) 的 $G$ 都必须是语义的.

9: 在本练习中, 你不需要使用 $TO W ER$ 函数非常具体的性质. 例如, $NBB (n)$ 的增长也快于Ackerman函数.

❗页面施工中: 目前状态: 创建教程中.

要求:

✅将所有numthm环境用灰色admonish(quote)框起.
✅标点符号统一为英文.
✅使用添加对文内特定位置的超链接.
✅使用添加引用.

⬛️重要概念框.

量子计算

学习目标

了解量子力学与局部确定性理论的主要不同之处
量子电路模型，或等价的 QNAND-CIRC 程序
复杂度类 $BQP$ 及其与其他复杂度类关系的现有知识
Shor 算法和量子傅里叶变换背后的思想

Quote

“我们一直以来（这是秘密！关门再听！）……都很难理解量子力学所代表的世界观……对我来说，目前还没有明显的证据表明这里没有真正的问题……我能否通过提出一个问题——一个关于计算机、关于量子力学世界观（这种或许存在、或许不存在的谜团）的问题——学到些什么呢？”

—Richard Feynman，1981年

Quote

“概率古典世界与量子世界方程之间的唯一区别在于，不知何故，似乎概率必须变为负数。”

—Richard Feynman，1981年

古希腊有两大学派的自然哲学观点。亚里士多德认为，万物具有解释其行为的“本质”，对自然世界的理论必须涉及事物表现出某些现象的根本原因（用亚里士多德的话说就是“final cause“）。德谟克利特则主张对世界进行纯粹机械的解释。在他看来，宇宙最终由基本粒子（即“原子”）组成，我们所观察到的现象，源于这些粒子按照某些局部规则相互作用的结果。现代科学（可以说从牛顿开始）基本上采纳了德谟克利特的观点，即认为世界是由粒子和作用于它们的力组成的机械的、精密的宇宙系统。

尽管粒子和力的分类随着时间推移有所演变，但从牛顿到爱因斯坦，整体的“宏观图景”并没有太大变化。特别是，有一个被当作公理的观点：如果我们完全了解宇宙当前的“状态”（即粒子及其属性，如位置和速度），那么我们就可以在任何时刻预测它的未来状态。用计算语言来说，在所有这些理论中，一个包含 $n$ 个粒子的系统状态可以用 $O (n)$ 个数字的数组来存储，而预测系统的演化则可以通过对这个数组运行某种高效（例如 $p o l y (n)$ 时间）的确定性计算来完成。

双缝实验

然而，到了20世纪初，一些实验结果开始对这种机械且精确的世界观提出质疑。（原文表述为 “clockwork” or “billiard ball” theory of world ——译者注）其中一个著名的实验就是双缝实验。我们可以这样描述它：假设我们买了一台棒球发射机，对准一个软塑料墙发射棒球，但在发射机和塑料墙之间放置一个带有单个缝隙的金属屏障（见 doublebaseballfig{.ref}）。如果我们向塑料墙发射棒球，一些棒球会被金属屏障弹开，而另一些则会通过缝隙击中墙面并留下凹痕。如果我们在金属屏障上再开一个缝隙，就会有更多的棒球通过，从而塑料墙上的凹痕会变得更多。

| 理论计算机科学导论 |