谨以此文纪念伟大的计算机科学巨匠Ken Thompson和Dennis Ritchie,并同时向其他所有为Unix发展做出贡献的黑客致敬。 历史的尘埃Unix作为一个举世闻名的操作系统已有40余年的历史,围绕着这个古老的操作系统的发展又衍生出了一系列外围软件生态群,其中一个非常重要的组件就是shell。它是操作系统最外层的接口,负责直接面向用户交互并提供内核服务,包括命令行接口(CLI)或图形界面接口(GUI)两种形式。以CLI为例,它提供一套命令规范,是一种解释性语言,将用户输入经过解释器(interpreter)输出使其转化成真正的系统调用,实现人机交互的功能。 和操作系统一样,shell也经历了一个漫长的演变史。如今大部分资料讲述最古老的shell都是从1977年的Bourne Shell说起的,它最初移植到Unix V7上,被追认整个shell家族成员的鼻祖,后来的种群都是从其身上分支出来的。 对于1977年之前的历史很多资料大多一笔带过或略过不提。事实上,第一个移植到Unix上的shell却不是Steve Bourne写的,早在1975年5月,贝尔实验室就对外发布了第一个广泛传播的Unix版本——Unix V6(之前开发的版本只供内部研究之用),其根目录下的/bin/sh是第一个Unix自带的shell,由Ken Thompson写的,因此也被称为Thompson Shell。甚至,更早可以追溯到1971年的时候,Thompson Shell就作为一个独立于内核的应用程序而实现了,只不过从1975年正式问世到1977年被取代,短短两年的寿命使得它很少为大多数人所认识。 关于Thompson Shell被取代的原因在后文中会给出说明,这里着重介绍一下该shell本身的一些技术细节。坦白讲,关于Thompson Shell的资料有点稀缺,但至少还能从网上找到源代码和在线文档。Thompson Shell本身是由一个不足900行代码的解释器和一些外部命令工具组件(utilities)构成,用K&R C写成,下面给出各个组件的相关源码和文档链接。
下面是外部命令:
命令结构和规范尽管后来遭“埋汰”,Thompson Shell仍有着不容否认的历史地位,其最大的价值在于它奠定了shell命令语言结构和规范的基础,而且其解释器具有跨平台的可移植性,并影响到了后来包括Bourne Shell在内的各种脚本语言设计实现。下面我们就以其中5个特性重温一些大家已经耳熟能详的命令规范,你也可以通过sh(1)手册查看原始资料。
解释器的原理与实现接下来马上要进入核心部分了,为了搞懂shell解释器原理,我们要对其整个工作流程做个描述(这里给出一份带注解的sh.c源码剖析)。读过《编 译原理》的同学知道,解释器的实现跟编译器差不多,只不过省略了生成目标代码这一步,直接将用户输入(shell命令)转化成输出(系统调用)。软件前端是一致的,包括预处理、词法扫描、语法分析和语义分析,最后还要附加一个进程管理。当然相较于现代编译器,Thompson Shell解释器在算法和规模上都要简单得多,不过原理上是相通的,何况年代上要比Lex & Yacc还要早。麻雀虽小,五脏俱全,对于初学者来说,从Thompson Shell去入手编译原理或许不失为一种好选择。 预处理(preprocessor)同C预处理器需要事先将源代码中包含的宏和头文件展开一样,Thompson Shell首先需要处理命令中的选项参数和位置参数。选项参数有两种’-t’和’-c’,决定了shell从标准输入还是参数缓存中读取字符(见sh(1))。此外字符序列中还要处理反斜杠’\’,判断是转义字符还是行接续符,前者对下一个字符设置引用标识,表明做普通字符处理,后者将紧邻其后换行符过滤掉。 位置参数是美元符号’$’打头的,后带一个数字,如’$n’,预处理器对shell命令参数从头开始计数,返回数字n指定的参数位置。如果遇上double’$$’,则表示当前的进程标识,调用getpid()获取。 注意到预处理器需要一次读取多个字符,这样就会多读一个不必要的字符。对此解释器提供了一种预读(peek)方式,即每次从输入流读取一个字符时,放入一个预读缓存里(只有一个int大小的堆栈),也叫回退(push back)。此后先从预读缓存中读取,如果缓存被读完,则从输入流中读取。 |