面向贫困地区基础教育的远程教学*
Randolph WangX Kai LiX Margaret Martonosi³ Arvind Krishnamurthyl
基础教育对于贫困地区的脱贫解困起着至关重要的作用。然而,基于设立传统学校的方法难以在短时间内满足发展中国家对普及基础教育的巨大需求。在此,我们提议一个基于数字化技术的远程教学项目,目的是通过扩大现有教师的教学覆盖面和提高他们的工作效率从而给贫困地区的孩子提供他们所缺乏的高质量的基础教育。我们计划联合美国的普林斯顿大学、耶鲁大学和中国的相关院校及组织的力量来完成该项目。
该项目将有机地结合高科技和低科技手段。其中,低科技手段的例子包括通过邮寄移动存储设备来提供高带宽的交互而无需依赖于良好的网络基础设施。高科技部分通过在一个P2P(peer-to-peer)系统中综合利用多种通讯渠道(包括使用互联网和邮寄存储设备的方式)来连接不同时空中的老师和学生。如果成功的话,我们相信我们的工作不但将从根本上改善基础教育的发展前景,也将建立起一个适用于医疗保健,商业,信息发布以及娱乐等诸多应用的数字化通讯平台。该合作研究项目也将为前沿的计算机科学和教育学研究提供真实世界的试验平台。同时,我们希望该项目能够成为跨学科及跨国界合作的典范。
本提案的余下部分组织如下:第二节讲述我们的研究动机,它简单列举了基础教育的重要性、传统方法面临的挑战以及远程教学的优势。第三节概括了主要的技术创新。第四节给出初步的组织计划,包括合作伙伴的选择以及一个框架性的执行计划。第五节详细描述了该项目在计算机领域的主要技术创新。(我们将尽量使我们的描述浅显易懂,但没有相关技术背景的读者也可以选择跳过该节)。第六节将讨论一些读者可能关心的问题。
现代社会的发展越来越依赖于科技和信息的发展及应用,随之而来的则是对受过良好教育和训练的人才的空前需求,因而基础教育是一个国家未来发展的根本。
对于发展中国家而言,基础教育的作用更是至关重要。彼得.贝尔(Peter Bell,与贫穷作斗争的国际知名组织(CARE)的主席)将扩大基础教育的范围列作消除极度贫穷的三个首要环节之一[1]。在贫困地区,一代又一代人重复着缺乏教育、缺乏工作机会、贫穷、无力给下一代提供教育的恶性循环,而教育的缺乏正是这一沉重枷锁上的重要一环。如果我们能够在广大贫困地区提供便利而廉价的基础教育从而打破这一恶性循环,其深远影响将惠及子孙后代。大部分专家都赞同帮助贫困地区脱贫的最好方法是为当地民众提供所需的工具手段以便他们能够掌握主动,自觉地去发掘机会,而不是由专家们来制定具体的解决方案。在改善基础教育方面的投资符合这些专家看法。
我们的动机不仅仅是冰冷的经济发展数字。我们也不能忘记人性的一面。让我们不要忘记那些父母们忍饥挨饿在街上收集矿泉水瓶以便能够筹集子女学费的情景。极度贫穷是对人类尊严的打击。马丁.路德.金说过在真正意义上,所有的生命都是相互联系的,穷人的痛楚使富人在精神上变得贫穷,而穷人生活的改善让富人在精神上变得更富有。我们大家都有义务来与极度贫穷作斗争,而改善基础教育是为数不多的有效方法之一。
进一步说,在一个信息爆炸的时代,大部分未能接受基础教育的人会有一种深深的与社会脱节的感觉,一种迷惘的感觉,这有时候会转变成对社会和生活的不满,进而成为社会动荡的源头。反之,享有基础教育能够给人一种融入的感觉,一种能够参与社会并为之做出贡献的自豪感。这样一种健康向上的精神上的满足感,其价值是不能仅仅用金钱来衡量的。正如温家宝总理在最近一次采访中说道,民众教育水平的不足是阻碍更快的政治改革的最大障碍[14]。
改善基础教育的传统方法所面临的最大问题是难以真正普及。据估计,在中国有两亿文盲,而在印度有四亿文盲[2]。女性人口的状况更糟(中国女性文盲率超过20%,而印度女性文盲率超过40%)。这些估计还可能只是保守的数字(关于识字的定义各地不同,有的定义是相当宽松的)。而从识字到能够提供就业机会的基础教育水平之间的差距也可能相当大。
虽然最近几年基础教育有很大提高,而且在接下来的几年里还会有更大的进步,利用传统方法来普及教育仍然困难重重。建造传统的砖瓦学校速度慢而且耗资巨大,要消除现有的人数众多的文盲需要大量资金的长期投入。教师资源也很缺乏,特别是受过良好训练,有能力而且真正热爱工作的教师非常缺乏。很多贫困的偏远地区很难吸引和留住优秀的教师。
事实上,即便是发达国家也在教育资源方面面临着很大的压力。比如说,美国每年在教育上花费8800亿美元,但还是有很多人认为美国的基础教育不够。象中国和印度这样的国家,人口基数更大,文盲率更高,人均资源更少,偏远贫困地区更多,基础设施更差,地区差异更显著,要赶上发达国家的基础教育普及水平将是一个长期的斗争过程。
随着网络和其他数字技术的持续发展,远程教学成为推广普及基础教育的一个可能解决方案。远程教学的优点是多方面的。远程教学的内容可以制作一次后重复使用。远程教学的覆盖面可以更广。由于无需诸如在大量学校里安置大量教师的费用,远程教学可以更经济。当前,农村地区适龄学童辍学的一个主要原因就是他们需要帮助家里干农活,尤其是在农忙季节,因而和学校的上课时间冲突。远程教育可以让学生选择适合他们的学习时间和进度从而解决这个问题。对于那些有志于帮助这些孩子,但又不想忍受贫困地区艰苦生活的教师而言,远程教学是一个很有吸引力的选择。(这种吸引力对于象今天的阿富汗和伊拉克这样的危险地区可能更加明显)。这个系统也允许志愿者更加灵活地安排时间。比如说,一个志愿者可能愿意通过远程教学系统每天抽出一个小时的空余时间来批改作业。这比志愿者在现有系统中的投入要小得多,所以我们有可能吸引到更多的志愿者。即使是对于那些愿意到偏远地区为那些需要他们的孩子服务的教师,远程教学也可以为他们省下旅行的时间从而提高他们的工作效率。
需要指出的是,数字化远程教学系统的目的不是要与教师们竞争甚至替代他们,相反,这样一个系统的目的是要放大现有数目有限的教师的能力,拓展他们教学的覆盖范围。换句话说,我们并不认为通过远程教学渠道传授的课程会比优秀教师面对面教学的质量要好。但是对于今天那些根本没有机会接受任何基础教育的孩子们来说,享有远程教学将是一个很大的进步。
如果这个数字化远程教学计划执行得当的话,随之而来的一个重要的副产品就是一整套能够用于其他改善贫困地区生活的措施的软硬件基础设施。这里列举几个可能的例子:初步的医疗保健(通过远程诊断的方式),对本地商业的推动,更丰富的社交娱乐。总的来说,它能够更好地把贫困地区和外面的世界联系起来从而让当地民众有一种融入社会的感觉,同时能够促进当地经济和社会的发展。在工业社会的萌芽时期,铁路、公路、高速公路等物质基础设施作为一种强有力的催化剂,大大推进了原本相互隔离的世界各地之间的联系。在当前的信息社会,数字化基础设施应该起到同等关键的作用。建立这种基础设施和古人授人以鱼不如授人以渔的道理不谋而合。一旦这些软硬件设施到位,当地民众就能因地制宜,利用这些设施开发出更多的应用。远程教学为建设这样一套基础设施提供了最初的推动力。
现有的远程教学大都着眼于如何在资源相对丰富的环境里提供高等教育。要成功地采用远程教学来提供基础教育,我们至少面临两个挑战:(1)要能够提供复杂的交互模式;(2)要能够适应资源的限制,特别是通讯带宽的限制。在很大程度上,这两个目标是相互冲突的。现有的方法都倾向于牺牲其中一个来达到另一个。
两种极端做法之一是通过电视或者是可被邮寄的存储介质(譬如CD和DVD)来传播教学内容。对于带宽要求更低的内容,也可以通过互联网下载到学生的计算机上。这种方法所能提供的交互性即使有也非常有限。虽然它对自发、自律、具有一定理解能力从而能够充分利用有限学习方式的成年自学者来说可能有效,但不一定适用于那些需要更紧密的监督以及和教师频繁交互的孩子。另一个极端则是利用类似远程会议的方式来进行教学:老师和学生进行实时的语音和图像交互。这种方法的缺点是消耗大量的通讯带宽和不具可扩展性。这使得它很难在资源有限的发展中国家中实施。
在中国教育部主持下,一些雄心勃勃的远程教学项目已于近期启动[5,12,21]。我们相信,我们所提议的项目将为这些已有的项目起到很好的补充作用。(1)已有的项目着眼于对必需的关键性硬件技术的投资,而我们的项目则更关注所需基础设施中的软件部分。正如有关专家所指出的[12],这个项目的软件部分与其硬件部分一样重要。(2)正如我们在前面提到的,最简单的仅靠播放DVD的教学方式缺乏学生和老师之间的交互,而在我们看来,这些交互是成功的基础教育所不可或缺的。更加先进的利用卫星网络的教学方式也有其自身的缺点:卫星网络的带宽有限而且昂贵。我们的提案可以在缺少高带宽网络的情况下提供交互。(3)已有的项目致力于建立一对一的联系,而我们的提案则试图将包括学校,老师,作业批改者以及相关助理人员在内的所有参与者组织成一个虚拟社区。这样一个社区的集合力量将远大于许多孤立个体的力量总和,从而能够更好地服务于社区成员并吸引更多的参与者。(4)我们的目标之一是要开发一个适用于其它类型应用的通讯平台,而不仅仅是局限于远程教学。
高质量基础教育的普及是一个世界性难题。我们相信, 在所提的远程教学合作项目中将很可能产生一些有趣的技术,从而使各具体参与组织以及中国作为一个整体在这一问题上处于世界领先地位。
在这一小节,我们简要介绍主要的技术创新。对于这些技术更详细的描述将在第五节中给出。这些新技术最终是为了达到两个目的:一是要不依赖高带宽通讯网络而提供有效的交互;二是要尽可能地提高教师的工作效率和教学覆盖范围。为此,我们的第一项技术是对非常规的高带宽异步通讯渠道的利用。第二项技术是一个面向交互的P2P系统,它不仅允许更有效的信息流动,也让教师能够根据自身情况更加灵活地安排时间。第三项技术是交互设备的智能化,以减少对带宽以及人工监控的要求。除了可用于远程教学,我们相信这些技术也将为最终建立一个具有更广泛应用的数字化通讯平台打下了基础。这些技术中的计算机学研究课题(包括分布式系统和人机交互部分)也可以为研究生提供科研和实际相结合的机会。
我们首先给出下面一系列问题:(1)对于一个带宽较低的广域通讯网络,我们能够提供怎样的有效交互模式?(2)如果我们将通讯网络的定义推广到包括邮寄存储介质的方式,我们又能支持什么样的交互模式?如何将这种新的通讯方式与包括传统网络和本地存储组件的系统其余部分相结合?(3)如何使我们的系统构架更通用,以便更多的应用可以受益。
我们将使用HLHB(High Latency High Bandwidth,高延迟高带宽)信道来表示通过邮政系统来邮寄信息的渠道。(在5.1.1节中我们将提到邮政系统之外的HLHB信道)。相对应的,我们用LLLB(Low Latency Low Bandwidth,低延迟低带宽)信道来表示通过传统互联网传输信息的渠道。乍一看,使用HLHB信道似乎是针对资源有限的贫困地区的权宜之计,但我们并不这样认为。HLHB信道的吸引力是基于存储介质密度增长和广域网带宽增长的一个根本趋势:即前者速度远大于后者。这意味着HLHB信道对发达和发展中地区同样非常有吸引力,而且随着存储技术和广域网技术之间差距的扩大这种吸引力将不断增大。我们的目标是建立一个能够天衣无缝地对所有这些通讯渠道进行综合利用的异步分布式存储系统,并且在它之上开发各种有趣的应用,如在商业、信息和娱乐等诸多方面的应用。我们的远程教学项目只是其中一例。
正如我们在前面已经提及,我们的目的不是要替代人的作用,而是要提高现有的有限人力资源的功效。我们希望能够吸引各地的参与者,这不仅包括各年级的学生和具有各种专才的教师,也包括可以担当像批改作业和助教这样任务的志愿者。只要我们有一定的质量监控机制,对于参与者在时间安排和技能上要求可以是灵活的。实际上,我们希望我们的系统能够像市场一样运作,对各种服务(比如作业批改)的需求和供给能够在系统中相互匹配。在某种意义上,这和诸如拍卖所这样的现有的商业市场是很相似的。 (人们是否免费提供他们的服务是一个独立的事项:我们预期一部分志愿者将无偿服务而其他人则为他们所花的时间收取一小笔费用。当然,孩子们应该免费接受他们的教育。)
要建立这样一个市场,一种简单的方法是要求所有的交互都通过一个集中式的服务器,比如说,学生必须把作业(比如说以扫描的方式数字化)递交到一个中央服务器(可以利用前面讨论过的任何通讯渠道,见3.3.1节)。这个中央服务器再把作业发派给可能在第三地的作业批改者,所以作业还必须被送到这个第三地。(同样,改好的作业包括各种的反馈,也可能需要返回给学生)。这种简单的基于中央服务器的方法的低效性是显而易见的。
一个较明显的改进方案是让学生和作业批改者直接联系。但这种联系也需要彼此协调。从技术层面来说,我们需要的是一个P2P的存储系统,一个P2P的路由机制(routing mechanism)和一个建立于它们之上的P2P交互式应用。我们至少面临两个现有系统尚未能很好解决的问题:(1)考虑到特定应用背景(如作业批改)的P2P路由选取。(2)P2P体系结构和异步通讯渠道的结合。(见3.3.1节)。
我们相信通过围绕P2P体系结构来建造我们的远程教学系统,它将具有以下一些有用的特性。它将允许更广泛和更灵活的参与,P2P的体系结构使得愿意在系统中扮演各种角色的人都能够很容易地加入。随着参与者的增加,系统将能够以分布式的方式随之不断扩展。这些参与者在时间和空间上可以是散布的,我们的系统则可以消除这种时空上的差距。
有的参与者可以编撰教材以供学生使用。有的参与者可以开设新的利用在线资源的地方学校。有的参与者可以作为学生加入系统。有的参与者可以作为教师加入。有些参与者可以作为作业批改者加入。有的参与者可以安排在线答疑时间来给学生提供额外的帮助。这些服务有的可以由志愿者提供,而其他一些人可以从由政府或者非赢利性组织提供的资金中收取适当的报酬。实际上,我们希望有些专业教师能够把远程教学作为自己的职业。除了学生和教育者之间的交互,我们的系统也为学生和学生之间以及教育者和教育者之间的交互提供了可能。例如,学生可以方便地和其他远程学生在学业或社会活动方面进行交流。
这样一个系统同时鼓励职责分工---现代经济中提高效率的一条准则。传统上,教师一般承担多种不同的职责:如准备教案、授课、批改作业和答疑。虽然把这些任务集中到一个人身上有其重要优点,但也导致了对宝贵的专业人才资源的低效使用,而我们的系统正是要尽可能的优化使用人力资源。比如说,对简单作业的批改就可以交给教学技能相对较差或者经验相对较少的人员负责。如果我们想充分利用那些受过良好训练,有经验又善于和学生交流的教师的话,我们就不应该让他们承担这些杂务。一个集合众多参与者的远程教学系统可以根据他们的技能水平来进行分工,从而更有效地安排使用人力资源。
当然,正如我们在前面提到的,参与系统的教职员工需要经过仔细遴选并接受质量监控。我们可以用同样的P2P系统来培训与孩子们面对面交流的本地职员。作为一名本地职员,他并不需要了解教学内容的每一个细节,因为教学内容的传授可以由专业教师远程进行(使用3.3.1节中讨论的一种或多种可能的渠道),但他在系统中的作用仍然是非常重要的:我们需要他来维持课堂秩序、管理设备以及就一些行政管理的细节与孩子们进行面对面的交互。对于知识更渊博的职员,他们的角色还可以被扩充。这些职员的一个可能来源正是参加我们远程教学的孩子。比如,一些高年级的孩子就可以给低年级的孩子做助教。我们的目标是建立一个自我支撑,自我放大的循环来解决我们有关资源的最大顾虑之一人力资源。
上述的一系列基于真实场景的P2P交互都是一个成功的大型远程教学系统所应有的。在一个采用P2P体系结构的系统中,这些交互将能够自然地得到表达。我们相信完成后的P2P交互平台也将适用于诸如商业、信息、娱乐等其他应用中的P2P交互。
另一个在不消耗大量网络资源的前提下提供丰富的交互手段的措施是采用智能化的交互设备。考虑以下情况,学生在黑板上写了一个字,老师随后给予反馈。一种简单的解决方法是用一个数码录像机不断拍下黑板上的书写并将其传输给在远端的老师。这个方案需要大量的网络带宽。有三种优化方法可以使交互设备智能化,从而在使用较少带宽的情况下也能够达到同样的交互效果。
第一种优化是使用更加紧凑的数据表达方式。微软公司在写字板电脑(TabletPC)中使用的数字墨水(digital ink)技术就是一个范例。但是,我们要先解决写字板电脑自身的一些问题。首先,我们需要一个大小上更象黑板从而可以被一组人同时使用的设备。通过共用一个设备,小组成员可以共同学习,互相帮助。其次,这个设备需要是低成本的。给每个学生配备一个写字板电脑是一个过于昂贵而不可行的方案。另外,通过该设备传送的数据最好能够反映黑板上内容的演变情况(而不仅仅是一些静态图像)并针对不同的网络带宽情况(包括前述的异步通讯渠道的情况)作出适当调整。
第二种优化是提供某种形式的自动模式识别和简单的本地自动反馈系统而不必时时需要远端老师的反馈。与传统的语音识别和手写体识别并不完全一样的是,他们的目标是归纳出一个结果,而我们的目标则是总结学习过程中的一般模式。因此,我们需要考虑的不仅是最终的结果,而且是得到这个结果的过程。我们的最新的内容识别系统[7] 中采用的机器学习(machine learning)技术在此将有重要的应用。当然,我们要确认哪些交互可以在本地完成的,而哪些是必须远程进行的,以及如何将二者相结合。我们也要分析如何对早期学生的学习经验进行利用以有助于以后的学生。例如,我们可以从早期学生的学习过程中总结出常犯的错误,并针对这些错误预先准备好反馈信息。另外一个途径是更有效地利用本地职员,他们或许没有针对某一科目的专业知识,但他们具备一般常识并可以帮助总结学习过程中的常见模式。虽然模式识别一直是人工智能研究领域的难题,我们只要能够有效地利用本地职员的一般常识和他们的模式识别的能力就能够绕过这个难题。
第三种优化是使用数字虚拟人。这些虚拟人可以发音,做动作,模仿在远端的老师。比起远程直播老师的一举一动,传输用于控制虚拟人的命令要占用少得多的带宽。同时,它们也给孩子们提供了比空洞的人声更有趣、视觉效果更好的交互。
我们还对其他一些领域的问题感兴趣。其中一个是如何提供或改进到偏远地区的网络连接。另一个是提供一个编撰系统以便于编制远程教学所需的教材,包括采用多种异步通讯方式的交互性教学内容。这个编撰系统将使用一系列手段来记录老师的教学过程:(1)无交互的录音录像;(2)协同式的录音录像。这种方式要求教师使用上述的智能化设备来辅助记录的过程;(3)后期制作。在这个阶段老师可以加入一些相关的资料。在编制过程中我们也会针对不同的网络带宽制作适合于它们的版本。编制出来的资料不仅仅适用于远程教学,也将是传统教学方式的一种良好辅助材料。和我们的信息传送系统一样,这个编制系统同样面临一个挑战,那就是要使系统在很大程度上独立于任一特定的编制内容和应用环境,从而可以较容易地被用于其他应用环境。在这些领域,我们将尽可能利用已有的最新技术。在得到最初的一些经验之后,我们期望我们能够就这些领域提出一些更具体的科研方向和设想。
在项目的初始阶段,我们希望能够邀请到以下各方面的参与者并把他们有效地组织起来。
· 试点学校 这些试点学校将被设立在需要的地区。它们可以是在城市里,但更可能是在偏远的农村地区。来自当地的参与者将在帮助我们了解该地情况和需要的过程中扮演重要的角色。
· 师范院校 师范院校,如上海的华东师范大学和北京的北京师范大学,是培养新一代教师的地方。通过参与这一令人振奋的基于新技术的远程教学实践,从这些师范院校挑选出来的学生志愿者将在以下方面获取宝贵的经验:(1)他们将学习并从事适合于远程教学的数字化教材的开发;(2)通过远程教学机制与真实世界中的孩子们进行交互并得到更多的教学实践机会;(3)更好地熟悉掌握新的数字技术。我们认为上述任务在很大程度上对于这些志愿者来说并非完全陌生,特别是其中的教学实践环节,早已是现有的师范教育体制的有机组成部分。新的远程教学机制的引入仅仅是在已有师范教育的基础上增加一个新的可能性。换句话说,远程教学在师范教育中的作用将是补充性的,而不是替代性的。同时,我们希望远程教学中接触最新技术的机会能够吸引更多的学生来投身于教育事业。
· 中小学教师 我们希望能够邀请一些有经验的中小学教师来参与我们的项目。他们的主要任务将是帮助制订教程。我们最终目标是让在偏远地区的孩子也能够享受到由最好的老师提供的最好的教育,所以经验丰富的教师的参与是至关重要的。我们将研究如何在远程教学教程中应用他们的先进教学方法。当然,我们同时也希望他们中的一部分人能够使用远程教学系统来进行教学。
· 技术院校 这包括中国和美国一些顶级大学的计算机系,如清华大学,上海交通大学,以及美国的普林斯顿大学和耶鲁大学。正如我们在技术概述部分解释过的一样,在广域网带宽有限的情况下提供复杂的远程交互是非常具有挑战性的。对此我们计划采用在分布式系统和用户界面领域中的一些新技术。各计算机系的研究生和教授在本项目中的任务是在这些技术领域进行研究并与从事远程教学的教育工作者们密切合作。同时,基于对这些技术课题的研究,他们可以发表学术文章以及完成学位论文。
我们相信所有这些参与者都将通过彼此学习而受益匪浅。师范院校学生和教师将有机会接触新的技术。计算机专业的学生和教授们将为他们的技术研究找到真实的应用背景。试点学校的孩子们将同时受益于资深教师的丰富经验和师范院校学生的热情。走出我们所熟知的世界,所有从事远程教学的教育工作者也许能够更加深刻地体会到那些需要我们帮助的孩子们身上所蕴藏的巨大潜力,并且为能够帮助他们改变命运而感到发自内心的满足。
· 规划阶段 我们计划与一系列相关组织进行会谈以组成最初的规划小组。该小组的成员将包括来自上述各领域的参与者。这个小组将选择一些地区来设立试点学校进行最初的试验。该小组将到这些地区实地考察以更准确地估计当地的需要并进行资源评估。(在初期阶段我们所需的资源主要是愿意在该项目上投入时间的人员。我们相信对于设备的需求在初始阶段将不会太大。) 该小组将负责提议什么样的特点是远程教学系统的后续版本所应该具有的。本提案中提到的想法仅仅是为这些后续讨论起抛砖引玉的作用:小组成员可以提出新的想法,也可以现有的想法择优选取。
· 开发阶段 这一阶段的任务包括:(1)开发适用于数字化远程教学平台的教材;(2)开发便利远程交互的技术;(3)进行小规模授课测试以评估系统的优缺点;(4)制定计划对现有系统进行改进并多次重复评估改进这一循环。我们认为保持最初系统的简洁性是十分重要的:我们希望用从实际授课测试中得到的经验教训来推动每一轮的系统更新。
· 实用阶段 为了使系统逐渐实用化,我们需要在开发阶段就开始一系列的准备工作。任务之一是确认进行远程教学的试点学校的分布范围。还有就是要为设备和扩充教工队伍而寻找资金。虽然我们可以允许在教学内容编辑阶段使用相对昂贵的设备,但是每个偏远学校所需设备的费用必须努力控制在最低,因为这部份费用会随着远程教学的推广应用而倍增。我们预期来自各方的设备捐赠将在很大程度上满足我们的需要。(计算机硬件的费用正在迅速下降。) 研发工作将在实用阶段继续, 譬如可扩展性问题将随着系统的推广而变得越来越重要。
在第3.3节中我们已经就本项目的技术创新点做了一个概述。在本节中我们将逐点展开详细阐述。
首先让我们考虑两种通讯渠道:一种是靠邮政系统来运送存储介质(例如DVD甚至硬盘);另一种是广域的互联网连接。如果我们比较在一或两天的时间中这两种方法所能传送的字节数,那么众所周知前一种方法要远胜于后者。也许有人会认为这只不过是现有互联网容量有限所造成的暂时现象。但我们认为事实并非如此。我们的观点是基于对一些根本性的技术发展趋势的观察:磁介质的存储密度已经以每年60%到100%的速度持续增长了好几年而且这种趋势在可以预见的将来将继续下去。因此,单位体积的介质内所能存储的信息量,或者说在一定费用下能够通过邮政系统传送的信息量将遵从摩尔定律的速度呈指数增长。另一方面广域互联网带宽的增长受限于诸多因素,例如光纤的铺设速度。这些因素注定了广域网带宽的增长速度要慢得多。而且,从互联网干线到最终用户的接入布线的费用高得惊人,其进展速度也十分缓慢。所以实际上,上述两种传输方法的带宽差距非但不是暂时现象,还会随着介质存储密度的持续快速增长而不断加大。
像通过邮政系统运送存储介质这样的通讯渠道有着巨大的带宽,但它也有着长达数天但却相对固定的延迟。我们称这样的通讯渠道为HLHB(高延迟高带宽)的信道。同时我们称传统的互联网连接为LLLB(低延迟低带宽)的信道。除了在单个信道的带宽方面具有优势外,HLHB信道还有其他方面的优势。其中之一就是能够得到更高的总带宽:互联网中的总带宽受限于诸如其主干带宽这样的因素,而HLHB信道由于相互之间比较独立,所以更容易用增加新的信道的方法来取得高的总带宽。HLHB信道的另一个潜在优势是它的低费用。充分利用这些HLHB信道对于偏远的或发展中的地区来说尤其重要,因为要在这些地区建立起高速连线的基础设施还需要很漫长的时间。当然,正如我们之前已经说过的,对HLHB信道的利用即使是在发达地区也是很有必要的。
使用HLHB信道来传送数字内容并不是一个新想法。AOL.com和netflix.com这样的公司已经开始大规模使用邮政系统来递送软件和电影有一段时间了。其中,尚未被考虑到因而有待于我们来解决的问题包括:(1)怎样整合HLHB信道、LLLB信道以及本地存储,使之成为一个协调一致的分布式存储系统?(2) 怎样提供交互性?
在此,信息下载指的是教学内容从远端的教师到学生的传送。(我们将在5.1.4节考虑信息上传和交互性。) 让我们考虑图1所示的例子。假设有一堂在前几个学期已经教过了的课现在要被重新教授。由于它已经被教过了,所以大多数课堂材料已经存在于学校的本地硬盘中(如图1中的数据块1所示) 。
现在假定老师认为需要替换现有教案中一个两分钟左右的片段,或许是因为原来的片段做得不够好,或许是因为需要对它进行修改以适应当前的情况。这样的调整是一个好老师总会想着要做的,它也是富有创造性的教学过程的有机组成部分。这两分钟的片段足够小,所以我们可以用互联网来传送(如图1中的数据块2所示)。传送要提早足够多的时间开始以保证在孩子们上包含该片段的那堂课之前能够完成。
老师也可以选择传送一个长达两小时的新片段,其中可以包括新的内容或者是对学生作业情况的反馈。由于数据量较大,数据可以被存放于移动存储设备并通过邮政系统来传送(如图1中的数据块3所示)。当然,还可以有其它类型的信息下载渠道。图1中也给出了另外一种可能的渠道:收音机或电视广播,它们可以传输模拟或数字编码的内容(如图1中的数据块4所示)。而且,移动存储设备并不一定要由邮政系统来负责运送,它们可以由个人携带并相互共享。我们系统的一个目标就是要把所有这些散布的设备"编织"成一个有机完整的系统[16,17,20]。
乍看起来,对多种信道的同时应用似乎很简单,一个教职员应该可以应付自如,但实际情况则要复杂得多。
比如,如果我们简单地将整堂课存成一个大的视频文件,要确认并替换其中一个两分钟的片段将是难以操作的。所以我们需要一大批可以被重新组合,重新排列并且可以灵活替换的细粒度的数据单元。手工管理这些数据单元并不容易。在完全手工管理的情况下,当老师创作一批新的数据单元时,她需要为这些数据单元分配一些有意义的名字;她需要决定用哪些信道来传输数据;她需要为数据单元的接收方准备相应的指示;她需要手工将数据拷贝到移动存储设备上;她需要关心数据是否已经到达目的地以及何时到达;她需要处理数据在运输过程中丢失的情况。
当数据到达后,接收方的人员需要解读相关指示以知道如何对数据进行处理,需要安排送回确认消息,需要手工将数据从收到的移动存储设备中拷贝出来,需要考虑由邮政系统送来的多个移动存储设备之间是否次序颠倒,需要考虑来自互联网的数据和来自邮政系统的数据之间是否次序颠倒,最后需要负责回答来自远端老师的关于某些数据是否到达的询问。只有当接收方人员和远端的老师一致认为所有的数据都已正确就位,他们才可以开始预定的授课。而在授课过程中,也许又会有新的更多的调整,从而更多的新数据需要被传送,这又要求更多的手工管理工作。显然,所有这些对手工管理的要求将极大地限制我们从多种通讯渠道中所能获得的好处。
我们提议建立的存储系统的一个目标就是要将几乎所有上述的手工任务自动化。有了这个系统,一位远端的老师可以简单地为已有的课程制作新片段而无须担心对新片段的命名。她也许需要给系统一些提示:譬如她预期在将来的什么时候远端的学生要用到该片段。
老师不必担心要选择哪些信道来满足她的要求;系统会根据数据量大小和时间的充裕程度自动选择。事实上,系统可以选择同时使用多种信道:它也许会准备一个低分辨率的版本在LLLB信道上传送,同时在HLHB信道上传送高分辨率的版本。两个版本互相赛跑从而在数据质量和数据可及性之间取得某种平衡。如果互联网正处于高负荷状态,系统需要仔细考虑什么数据需要优先通过互联网来传送以及以什么样的分辨率来进行传送。看这个问题的一种方法是把互联网看成是邮政系统的高速缓存。系统还可以选择通过邮政系统传送数据的多个副本(在时间上相互间隔)以增加数据可靠性。
老师不需要手工发起任何通讯。如果要使用互联网,系统将自动启动网络。如果要使用邮政系统,老师不需要记住什么数据需要被拷贝到移动存储设备上,也不需要进行手工复制。在一天的工作之后,系统会自动准备好包含新内容的移动磁盘。如果有多位老师同时创作新内容,系统自动从这些老师那里收集新内容并拷贝到单个移动存储设备上(收集过程可以使用一个高速的局域网)。
在一天的最后,一个邮递员会定期来将需要交付的移动存储设备取走。事实上,数据的复制并不一定要等到每天的末尾,而是可以在一天中的任何时候在后台进行,这样我们可以避免将所有费时的数据复制都集中到邮递员快要到达的时候。我们同时注意到由于存储设备的容量相对较大,只要有足够时间进行复制,系统可以相当自由地决定需拷贝的数据。例如,即使一个数据片段只有非常小的机会会最终被学生用到,对它同样进行拷贝也不会有什么害处。通过HLHB信道来取得低延迟听起来也许有点匪夷所思,但是由于学生可以以比访问互联网更快的速度来访问移动存储设备上的数据,所以低延迟实际上是可能的(只要邮政系统的延迟能够被恰当地隐藏)。我们存储系统的一项重要原则就是要利用盈余资源(存储容量)来克服由缺稀资源(广域网带宽)造成的限制。
一旦传输在一个或多个通讯信道中被启动后,老师不需要监控其进程。邮政系统能够提供包裹追踪服务,从而方便了系统的自动化进程监控。如果发送方在一定时间内没有(通过互联网)收到接收方的确认消息,它可以采取以下几种可能的措施。如果移动存储设备在邮递过程中被丢失了,同时离数据被使用还有足够的时间,系统可以简单地将数据重新拷贝到一个新的移动存储设备由邮递员在下次来的时候取走从而完成重传。如果剩下的时间不够进行邮政系统的重传,系统可以选择通过互联网传送一个分辨率较低的版本。如果上述所有补救措施都不适用,老师会接到一个通知。老师可以据此作出选择:或者调整上课时间以便有足够的时间进行重传,或者跳过新的数据片段而根据旧的教案进行授课。
不管哪个信道被使用,数据到达的时候接收方的人员只需极少的手工干预。这对于通过互联网到达的数据是十分直接了当的,数据的到达将自动触发确认消息通过互联网送回。如果数据是存在移动存储设备上由邮政系统送达的,接收方人员所要做的只是将新近到达的存储设备接入系统。如果存储设备是DVD,则只需将它插入DVD光驱。如果存储设备是象Microdrive这样的小磁盘,接收方人员需要学会使用一个转接器将其接入系统。在所有情况中,将存储设备接入系统应自动触发一段代码的执行从而完成一定的任务。任务之一是给发送方送确认消息(该消息可以通过互联网来传送)。(现在发送方的老师知道她的授课已经一切准备就绪。) 其他任务可以是将数据从移动存储设备上拷贝到由学校维护的一个本地存储中。被触发的任务还可以是把批改好的作业打印出来以便发还给学生,或者是自动安排在第二天进行作业讲评。
同时需要注意的是,并不是一定要将新数据从移动存储设备拷贝到本地存储后才可以使用。如果需要新数据的一堂课马上就要开始了,没有足够时间来进行拷贝,数据可以直接从移动存储设备中读取。事实上,在远端的老师可能在送出移动磁盘后又做了一些新的内容变动。这些最新内容可能在原来的移动磁盘到达之前就通过互联网送达了,现在移动磁盘上的一些内容就过时了。或者,一些最新内容可能存于另一个移动存储设备,并先于原来的移动磁盘到达(邮政系统并不保证包裹按序邮递)。系统必须小心地避免浪费时间来拷贝过时的数据。再或者,一些最新内容可能仍然存在远端的老师的计算机上。又或者,一个新近到达的存储设备上可能包含有重复的数据(由于积极复制或过早重传)。
上述的许多问题,如重传,处理传输过程中的次序颠倒,排除重复数据,并且尽量减少数据拷贝等等,都与传统通讯网络中的问题有相似之处。但是,由于我们的系统利用移动存储设备来传递信息,存储系统和通讯网络之间的界限变得模糊了。我们系统中一个数据包的延迟和数据量可以比传统网络的大几个数量级。所以我们研究的问题不仅是一个网络问题,更是一个分布式存储系统的问题。最新的数据可能散布在一定数量的设备中:学校的本地存储,一个动态的数据转发中心(参见第5.2节),最近到达的移动存储设备,甚至远端老师的计算机。当要讲授基于这些散布的数据的课程时,系统需要知道所有这些片段的位置以便能够象拼七巧板一样把它们组织在一起而无须将全部片段完全复制到一个地方。
系统需要解决的另一个问题是安全性问题。例如,当一张移动磁盘由邮政系统送达时,我们需要能够肯定(1)数据来自我们认可的发送者;(2)发送者无法伪造身分;(3)数据未被窜改。如果有必要的话,本系统的一个通用版本可以有更为宽松的数据接收政策,例如, 垃圾邮件(spam)将被允许但给予较低的处理优先级。由于发送者必须支付邮政系统来传递他的邮件,所以无节制的垃圾邮件不大可能成为一个问题。
以上提到的通讯主要是基于发送方的,其它的利用多信道的通讯模式也是可能的。例如,考虑下述关于异步读取的实现。读取请求通过互联网(或其它一些渠道)传输。收到该请求后,如果要求的数据量很大,该请求会自动触发所要求的数据被拷贝到一个移动存储设备,该设备将由邮政系统送出。当所要求的数据到达数据请求方时,它可能触发请求者预先指定的其它动作。这种形式的通讯与现有的一些异步通讯模式[18] 以及建立于其上的编程语言 [4] 有类似之处。在这种编程模式下,附在消息中的处理代码(这种消息被称为活动消息(Active Messages))将在消息到达的时候被异步执行,从而使得新近到达的数据与正在进行的计算有机结合。考察这种异步通讯编程模式的适用性和可拓展性是我们提议的研究工作的一个关键部分。
值得注意的是,虽然我们是在远程教学的背景下讨论提议中的存储系统,实际上我们的存储系统适用于多种应用背景。它与我们最近开发的一些无连接移动存储系统[9,16,17,20] 有一定的相似之处,但较之原有系统更加通用。我们预期提议中的异步分布式存储系统能支持一大类基于发布/预订(publish/subscribe)模式的应用环境。
到目前为止,我们的讨论集中于信息下载,也就是从老师到学生方向的通讯。我们现在考虑信息上传以及老师如何使用异步通讯渠道为学生提供反馈。
一些交互对带宽的要求相对较低因而可以实时进行。例如,通过电话线或互联网传送声音信息可以让学生与他们在远方的老师实时交互。本地职员可以起到过滤的作用使得问题被有选择地传送给远方的老师。为了让老师能够有效地与学生交互,她应该知道问题提出的上下文。如图2所示,如果学生正在观看本地磁盘上的教学内容并就其中一点提出具体问题,老师需要能够看到相关部分的内容。在传统的远程教学系统中,这种形式的交互是通过双向视频会议。在我们的系统中,由于老师和学生都能从他们各自的本地磁盘中得到同样的数据,老师所需要的只是一个指针来定位相关内容;这些指针将和学生的问题一起实时传送给老师。除了提供声音反馈之外,老师也可以通过互联网送回计算机命令来控制教学内容在学生一端的播放。这些命令可以重新安排各片段的播放顺序,甚至可以是播放针对一个预期问题事先准备好的回答。
由于通讯带宽有限,好的实时交互并非总是可能的。事实上,即使是在传统的教室里,从单个孩子的角度来看,与老师面对面的实时交互也受限于老师的带宽,老师的时间必须分配给多个学生。但是,一个孩子可以通过观察老师和其他孩子的交互而获益。这种间接的交互,与直接交互一样,都是我们想要利用的。
让我们考虑图3中甘特图(Gantt Chart)的例子。图中,有两组学生:A组和B组。(这两个小组可以在同一个地方也可以不在。)A组做了一次练习(1),完成后被传送给远方老师评分和准备反馈意见(2)。(其中用到的异步通讯信道可以是在5.1.3节中讨论到的任何一种,而且,根据数据量的大小以及我们选用通讯信道的不同,图表中所示的时间范围可以从几分钟到几天。)
与此同时,小组B也开始同样的练习(3)。在小组B完成练习前,远方的老师完成了对小组A练习的评分,并且老师对小组A的反馈被同时传到小组A和B(4 和5)。当小组B完成他们的练习,系统为小组B播放老师给小组A的反馈(5)。在小组B的一个孩子看来,他看到的其它孩子与老师之间的交互应该与他在常规教室中看到的相似。
此时,小组B的练习被送给老师评分(6)。在他们看到老师针对他们的练习所做的反馈(8)之前,小组B的学生也许将继续听取更多的(事先送出的)授课内容(7)。在一个小组B的孩子看来,他上了一堂连续的精心准备的课。这包括对练习的即时反馈(虽然这反馈是针对其他孩子的),以及针对他的具体反馈(虽然这反馈被延迟了)。最终,一个B组小孩的体验应该与他在常规教室中的体验没有什么不同。对两个方向通讯的管理应该以节5.1.3中所述的方式进行自动化。
我们用一个例子来开始这部分的讨论。netflix.com是一家向用户提供DVD租借服务的公司,被租借的DVD通过邮政系统来传递。在公司运营初期,当用户归还DVD时,他们都要把DVD送到公司位于San Jose的总部。这种方法显然不是很好。例如一个在东海岸的用户A要还一盘DVD,正好A的邻居B也想借这张DVD,但该DVD还是要到西海岸的总部去兜一圈。
现在,netflix在美国各地设有多个转发中心。一张DVD首先被送还到最近的一个转发中心。该中心的雇员再查看是否有本地的用户要借这张DVD,如果有的话,他们可以把这张DVD直接送到那个用户。这样可以大大减少用户的等待时间和公司的运营开销。这个简单的例子和我们远程教学系统中面临的一些问题很相似,但我们的情况要更复杂一些。
让我们来看看图4中的例子。子图a给出了集中式的路由方案。图中,A地学生提交作业,其中一部分被送到教师X处,另一部分被送到教师Y处(假设有2门不同学科的作业)。教师Y把改好的作业送还给B地的学生。教师Z把改好的作业送还给分布在B地和C地的学生。其中,通讯的过程(图中箭头所示)可以使用上文提及的各种通讯渠道,包括互联网和邮寄。
尽管集中式路由的不足之处十分明显,但它有一个很重要的优点:那就是,即使教师Z要把作业发还给在多个地方的学生,她也只需要发一个数据包裹给中央服务器。该服务器将自动对收到的数据包裹进行开包分检,然后重新打包送出。如果我们通过邮寄移动存储设备的方式来传递作业,中央服务器需要从收到的存储设备上收集数据然后分发拷贝到将要送出的存储设备,这样每次邮递员到访一个地方,只需送出和取走各一个存储设备。比如,在B地的学生需要接收从教师Y和Z处发来的作业,中央服务器会将这些分别送达的作业拷贝到另外一个存储器上,再送至B地。在这里,数据路由既通过电子方式也通过人工方式来实现:当数据从一个存储设备拷贝到另一个时,这是通过电子方式;当存储设备被邮递员传递时,这是通过人工方式。中央服务器同时还负责安全性措施的执行,例如,服务器将只传递来自授权用户且未被篡改的数据。
图4的子图b给出了相反的一种路由方案。在这里,中央服务器仅仅起到协调路由的作用,它本身不参与数据的传输。比如A地的学生要向中心查询应该把作业交给哪个教师,然后准备好两个存储设备,一个送给教师X,一个送给教师Y。如果netflix采取这个方法的话,当netflix的用户归还DVD时,他们要先访问netflix的网站并得到一个邮寄标签,这个标签上说明了现在哪个用户正在等待该盘DVD。(若采取这种方法,netflix必须考虑到可能发生的错误,或者用户作弊的情况。)
采用这种方式,数据路由将比子图a中的方式更加高效。但另一方面,如果是用移动存储设备来传递数据,并且同时有很多人要参与发送或接受,那么每个地点可能一次要收到或发送多个移动存储设备,这将导致管理和开销上的负担。(某种意义上说,这类似于用多个点对点的传送(unicast)来实现一个点对多的传送(multicast),这样不是很高效。)但是如果参与的人数不是很多的话,这种路由方案还是比较可行的,因为其所需的系统支持最少。
图4的子图c给出了一个折衷的方案。与子图a 中只有一个数据转发中心不同的是,我们采用类似netflix的作法,在各地设立多个转发中心。与子图a 一样的是,每个地方每次只需送一个移动存储设备到最近的转发中心。数据要在转发中心进行拷贝。每个地方可能一次会收到多个存储器,最多时将与转发中心的数目一样。(或者一个地方可以每次送出多个存储器,但只收到一个。或者采用一种混合的方法,每次送出和收到多个存储器。但在以上所有方法中,每次收到或发出的存储器的数目最多等于转发中心的个数。)
与子图b的方式相似,由于各转发中心分布于各地,所以在一定程度上可根据地理位置来决定最佳路由。转发中心之间通过互相通讯来协调路由。与子图b中的方法相比,由于传递过程中会经过一些额外的转发中心,所以这种方法的延迟可能较长。我们也可以同时采用子图b和c中的方法。对于一些需要迅速传递的数据,可以直接送至目的地,而不需经过转发中心。而对于其他的数据,则仍然通过转发中心来减少所需数据包的数目。
图4中(a)-(c)的例子都受启发于今天的DVD租借公司的可能的运作方式。它们都具有以下特征:(1)数据传输只需一到两个步骤:当数据通过转发中心转发时是两步(a 和c)而当数据直接从源送到目的地时是一步(b)。(2)数据转发中心之间不互相传递数据:只有图(c)用到了多个转发中心但他们之间的通讯只限于交换路由信息。(3)我们没有具体指明数据传输所用的通讯信道:图中实箭头可以表示互联网,由邮政系统传送的移动存储设备,或这两种机制的混合(如5.1.3节所述)。
在本小节,我们将放松上述限制来考察经由多个转发中心传输数据的方案。尤其是,我们将考察在数据多步传输过程中对互联网和邮政系统的串联使用。这样做的原因将随着对图5中例子的讨论而变得清楚。
在图5(a)中,S1和S2是由具有充足带宽的互联网连接起来的两个省级数据转发中心。对互联网连接的使用使得某些类型的数据可以更加迅速地跨省传送。A 和B是S1所在省份的两个偏远村庄。由于缺少高带宽的网络连接,他们与外界的联系主要是通过邮政系统来传递移动存储设备。在这里,邮政系统帮助解决了类似于通常所说的最后一英哩的问题---从主干网到一般家庭接入布线的困难。
在图5(b)中,互联网和邮政系统的角色在某种意义上做了对调。在这里,S1是一个村级服务器。由于地处偏远,S1与外界的联系是通过邮政系统来传递移动存储设备。同时,一个廉价的(可能是无线的)本地局域网将覆盖村中的几个点。这种安排使得多个本地用户(如A和B)可以共享一定的通讯和存储基础设施(如S1),包括基于邮政系统的通讯渠道。
在图5(c)中,我们看到图(a)和(b)中方法的混合。S1和S2是两台村级服务器,服务他们各自的地区网络(A和B)。这两台偏远村庄的服务器通过邮政系统传递移动存储设备的方式与一台省级服务器S3联系。而S3,一台具有良好网络连接的服务器,则可以与其它服务器(譬如S4)通过互联网来通讯。我们这里关于混合使用互联网和邮政系统渠道的讨论与我们在前面章节的论述是相互独立的。在5.1.3节中,我们考虑对不同渠道的并联使用:当通讯双方之间存在多种渠道时,我们选择正确的渠道来传递请求及回复消息,或者在多种渠道中同时传送同样内容的不同版本。相反地,在本小节中,我们谈论的是对这些渠道的串联使用:一条通讯路径可以由多个通讯环节连接而成,其中每个环节可以使用不同技术的通讯渠道。
在这个小节中我们讨论数据(如需要批改的作业)是如何在相关人员(学生和作业批改者)之间传送的。本文中的路由问题之所以富有挑战性是由于以下三个原因: (1)远程教学有其特殊的路由选择标准。(2) 某些异步通讯可能有很大的延迟。(3)异步通讯有相对充足的存储容量和传输带宽。在我们深入讨论关于路由问题的优化方法之前,值得注意的是自动化的路由选择并不一定与以人为本的原则相矛盾。比如说,某些学生可能更愿意由特定的作业批改者来批改他的作业,我们的系统也希望维持相对稳定的学生、教员和作业批改者之间关系。我们系统要做的是在尽可能地考虑这些因素的前提下,找到最优化的路由方案。
在传统的路由算法中,人们通常针对诸如延迟这样的目标进行优化。然而,在我们传输作业的例子中,仅仅缩短延迟很可能不是一个好的衡量标准。减小从学生上交作业到教师批改后返回到学生的总时间可能更有意义。在图4的例子中,如果有多个教师都可以接收作业,路由选择机制需要考虑诸如教师预计的批改时间,当前待完成的工作量,以及邮递所需时间等因素。因此,具有挑战性的任务是构建一个通用的系统,从而能够方便地表达各种可能的路由选择标准。
在具有很长延迟的通讯网络中,不恰当的路由造成的后果将格外严重。如果一位教师在收到待批改的作业后生病了,系统可能需要几天时间才能邮递一份作业副本给另一位教师。一种解决方法是从一开始就通过移动存储设备传送作业副本给多个教师。由于存储设备的容量足够大,只要时间允许,传送副本基本上没有额外的开销。首先收到作业并愿意批改的教师可以通过某些低延迟的网络(如互联网)通知其他教师,以免重复批改。(所有这些通知和取消机制都必须自动化) 。
如果没有足够的时间来准备多个副本,一旦发生上述问题,我们就需要重传一份作业给其他教师。在图4(a)和(c)中,数据转发中心可以暂存数据并自动重传,所以不需要数据发送方的介入。教师也可以将作业直接转发给其他同事批改。我们的目标之一是利用异步的通讯方式构建一套通用的基于发布/预订模式(publish/subscribe)的路由机制。这套机制应该能够支持各种类型的应用,而不只是上述例举的远程教学任务。
我们正在开发一种新的输入设备,其工作原理如下:用户可以在黑板上以通常方式书写,同时一个普通数字相机记录一系列反映黑板上内容演变情况的静止图象,最后用一个图象分析软件处理这些图象,以找出用户的笔划信息。我们用笔画信息,而不是原始的图象,来表示用户书写的内容。这种数据更易于传输、编辑、分析以及检索。
上述方法有几个优点,它所需的设备相对廉价,容易使用且不影响用户工作。它可以使用普通的黑板,因此适用于一个组/班的共同教学。这在其它使用专用的小屏幕的系统中是不可能的。如果我们要通过网络传送的话,笔划数据只需要很小的带宽就能表达动态的演变过程。根据传送时可用的带宽,我们还可以动态地压缩编码这种笔划数据。相对于原始图象和视频的编码,针对笔划信息的编码可以更为高效。例如,我们可以利用笔划的特性来更好地对笔划及其演变过程进行压缩,我们还可以用不同的带宽来传送来自黑板上不同区域的笔划信息。
由于笔划数据比图象更容易编辑,教师可以方便地批注和更正学生书写的内容。如果我们有足够的带宽来传送学生书写的和教师批注后的内容(可以用差别编码来减少传输数据量),这种反馈甚至可以是实时的。如果带宽不足,或者是没有网络连接,学生书写的内容可以存于移动存储设备中,通过邮递送到教师手中, 再通过邮递将反馈送还给学生。
笔划数据的另一个优点是易于自动识别。如3.3.3节所述,系统中本地软件可以就有限的一些情况自动给出反馈,而不需要与教师的远程交互。如果学生的书写(包括正确书写和常见错误)只有有限的几种可能性而且局限于黑板上的特定区域,自动识别软件就更有可能成功识别。笔划数据还包含有动态书写顺序的信息,这也能帮助识别。在我们同事最近的研究工作[7] 中,笔划的顺序和方向都是用于识别的特征。这些特征不仅使我们能区分正确和错误的书写,还可以帮助发现错误的性质和原因。这样,自动反馈机制就可以作出预定义的反应。当然,如3.3.3节所述,这种自动反馈机制只适用于一部分情况。对于其他情况的处理仍需要本地或远程教职员的参与。
本小节的目的不在于对所有的相关工作进行全面的综述:我们只是有选择性地讨论一些最相关的工作。
虽然以邮政系统传递移动存储设备的方式来传送数据并不是新的想法,象AOL.com和netflix.com这样的公司已经用这种方法来递送软件和电影有一段时间了, 但是已有的工作都没有将邮政系统作为一个通用的交互性数据通讯渠道。
最近有关容迟网络(Delay-Tolerant Networks)的研究[6,8,15]开始考虑使用具有无线连网能力的移动装置(譬如装备有存储设备的公共汽车)来为今天那些毫无网络连接的地方提供一种虚拟的有延迟的连接。在容迟网络和我们提议的研究工作之间有几个重要区别。虽然[6]中提及邮政类的服务,但就我们所知,邮政系统到目前为止只是作为一个比喻被提到 没有哪个已知系统明确地提议利用邮政系统来作为传统网络连接的扩展与补充。与现有的容迟网络相比, 对邮政系统的利用具有几个重要的不同特征,其中多数是正面的;而这些不同导致了不同的研究课题。
· 更好的可及性 现有容迟网络一般局限于相对较小的区域或特殊的应用环境,而邮政系统则是一个真正地全球性网络,其影响触及世界人口绝大部分。许多有关容迟网络的研究致力于随机路由(ad hoc routing), 而邮政系统则有自己一套被证明是成熟有效的路由机制。现有容迟网络的提案要求对新的移动装置(如配有无线连网和存储设备的公共汽车)的投资,而通过邮政系统来传递移动存储设备在今天就可以很方便地做到并无需对新奇设备的投资。在容迟网络中需要解决如何用传统互联网连接多个容迟网络以提供端到端连接的问题,而且到目前为止似乎仍未找到切实可行的解决方案。而今天的邮政系统已经可以提供端到端递送。虽然对互联网和邮政系统可以以多种方式进行混合使用(如5.2.4节所述),这些策略在很大程度上仅仅是优化,而不是必需的。
· 更丰富的资源 容迟网络也常常被称为受限网络,暗示其中各种资源十分有限,包括随机移动装置之间有限的通讯带宽,这些装置上的有限存储容量,以及能量消耗方面的限制。而通过邮政系统传递的移动存储设备则没有这些限制。事实上,正如我们在5.1节中提到的,采用该通讯渠道在技术方面的主要原因之一就是认识到它巨大的带宽潜力。容迟网络中的移动装置之间通常依靠无线通信进行简短的时断时续的联络。相反地,在邮政系统运输过程中的移动存储设备则处于休眠状态。到达目的地后,它们将被接入系统,并很可能以高带宽连线的方式(如USB2或Firewire)接入。这样的连接一旦建立,可以持续相当长的时间。所以用邮政系统来传递存储设备的方法没有容迟网络中典型的诸如带宽,存储容量或能量消耗这样的问题。
由于这些基本应用环境的不同,我们所要面对的研究课题也不同于容迟网络中的那些。诸如随机路由,流量控制,拥塞控制,缓存空间的管理以及移动设备的能量消耗这样的问题不一定是我们的研究重点。另一方面,我们在前面章节讨论过的一些研究问题则是我们的环境所特有的。例如,由于经邮政系统传递的存储设备上相对充足的存储容量和带宽潜力,我们系统有着不同的优化目标:我们可以试图浪费一些丰富的资源而取得其他方面的好处,而不必象在典型的容迟网络中那样对这些资源精打细算。
例如, 当拷贝数据到即将被邮递往某一目的地的移动存储设备时,我们可以大方地复制一份昨天的数据到新设备上。这样,即使昨天送出的设备在邮递过程中被延迟或意外丢失,随后到达的设备上的备份数据使得用户也只会感觉到一天的延迟。这样,我们就可以避免不必要的冗长的端到端重传延迟。
另外一个利用邮政系统特殊性的例子是对HLHB渠道(邮政系统)和LLLB渠道(互联网)的平行使用。比如,小的请求、确认消息、否认消息以及其他控制消息可以沿互联网传送而大的消息则可以通过移动存储设备来传送。不同分辨率的内容可被同时安置于两个网络,因而多个版本可以互相赛跑使得我们能够在诸如内容质量,可及性以及延迟等因素之间取得平衡。一般来说,象这样同时使用多种连接技术的方法将不同于那些将数据在不同连接技术之间次序转递的方法。
我们描述过的大的研究课题,包括一个基于活动消息的编程模型,一个针对多通讯渠道的异步分布式存储系统,建立在异步通讯机制之上的P2P交互系统以及支持远程教学的应用程序,都与现有容迟网络的研究议程有所不同并起到补充作用。
与我们有关黑板内容智能化获取的工作最为相似的技术是mimio板[13]。 它使用超声波来跟踪特别设计的标志物的位置。它潜在的缺点包括设备相对昂贵和对用户不够自然。
贫困地区的人们也许不需要电脑,但是他们需要基础教育,而且是非常需要。仅仅给他们提供电脑和针对他们需要设计适合他们使用的应用系统之间有着天壤之别。我们同意,仅仅搬来一堆器材是无法满足人们的真正需要或者是给他们以任何实质的帮助。相反,我们的工作旨在提高基础教育的水平,要实现这一目标,需要很多人的才智和辛勤工作,需要运用一系列的工具,而电脑恰巧是其中的一种。
彼得.贝尔,CARE组织的主席曾经把改善人们获得基础教育的途径列作战胜极度贫困的三个首要任务之一[1]。(另两项分别是获得净水和防治爱滋病。)
尽管贫困地区往往信息闭塞,但是当地人们有一个共识,那就是,脱离贫困现状的唯一出路就是让他们的孩子受教育。最近在印度的事实证明,即使是并不富裕的家庭都节衣缩食把孩子送到昂贵的私立学校学习,希望孩子在私立学校能够受到更好的教育[19]。
实际上,这个项目中的资源限制(比如资金和网路带宽的限制)和对可扩展性要求都使得我们提议的系统面临新的挑战并提供了创新的可能。第三节概括了一部分技术创新,第五节对其做了更仔细的阐述。而且毫无疑问,随着我们不断取得经验和更多领域科研人员的加入,更多有研究价值的问题会不断涌现出来。
不。我们认为高科技人员只是实现这个项目的一个部分。我们希望和更广大的人群合作,和普林斯顿校内外更多的团体合作。第四节提及了我们希望联络的合作对象,我们也正在和更多的团体组织一起探讨这个计划。
我们在考虑这个项目的时候就特别注意不依赖于良好的网路设施。详情参见3.3.1节和5.1节。我们期望把学校设置在有电力及其它基本设施的村中心或镇中心。我们的计划并不依赖于所有的参与家庭都有所需要的基础设施。如果在有些特困地区,连村中心都没有电力供应,那我们将会考虑设置小型发电设备和太阳能设备[11]。
我们的计划并不是要用远程教学替代老师(参见2.3节)。恰恰相反,我们希望有了电脑的帮助后老师的作用可以被更充分的利用,更多的学生可以受益于好的老师。
我们将会仔细计算在各个学校投放设施的花费。我们认为添置设备的花费将不会成为这个计划的瓶颈,我们也认为在合理的设计实施下,我们软件系统的负荷能力将不会成为瓶颈(参见3.3.2节和5.2节)。我们预测最终的制约因素将是教员的数目和他们可以贡献的时间。正如我们前面提到的,我们系统的目的就是要放大有限的人力资源所能起到的作用。
我们认为我们的远程教育系统可以使更多的学童受益,原因如下:a)更高的工作效率。具体参见2.3节。对于有志于到贫困地区帮助当地学童的人士,我们的系统使得他们能够更高效地利用他们的时间而不是花大量的时间穿梭于两地之间。b)更适宜的工作环境。对那些有志于改善贫困地区的教育状况的人士,艰难的生活环境往往成为他们的障碍。远程教学就能够解决这个矛盾,从而吸引更多的人来贡献他们的力量。c)更灵活的的教课时间。在我们的系统中,志愿者无需全天工作,他们可以每天提供一小时的时间来完成一些任务。这比传统的体系更能够吸引人们参加。d)更灵活的学习时间。学生可以自己选择学习进度和时间安排。这样就避免了他们的学习时间和家里的农活时间相冲突,使得更多的学童可以得到教育。e)通过职责分工提高效率。参见3.3.2节。在传统系统中,老师需要肩负授课、改作业和答疑等不同工作。虽然这样的系统有它的优越性,但是将多种任务集中在一个人身上难免会降低效率。在我们的远程教学系统中,不同的人士根据他们的专长不同,可以担负适合他们专长的任务从而提高效率。有经验的老师可以专门上课,而有的人可以专门负责批改作业。f)合理运用当地人力资源。参见3.3.2节。当地人员和高年级学生可以负责一部分的任务。g)培训教职员工。我们期望运用这个系统来培训我们需要的人才,从而使教职员工的队伍不断壮大。当然,我们需要有一个质量保证机制。h)合理运用其他师资。见第4节。我们期望吸引师范院校学生的参与。i)自动反馈机制。见5.3节。我们期望自动模式识别系统能处理一些常见的情况下,给出事先准备好的回应。
见3.1节。简单的办法并不能够提供有针对性的及时的交互。发放数字书之类的办法对于有自学能力的成人或许有用,但并不适合于学童。对学童而言,关键的问题是要有与老师及其他学生的良好交互。
我们所编制和使用的教材将采用开放版权(open source)的模式[3]。
参见5.4.1节。虽然[6] 中提到了邮政类服务,但就我们所知,邮政系统到目前为止只是作为一个比喻被提及 --- 没有哪个已知系统明确地提议利用邮政系统来作为传统网络的扩展与补充。邮政系统是一个成熟的真正意义上的全球性 网络,其特征与通常是地方化的资源紧缺的受限网络有很大不同。其结果是,我们所面临的研究问题也是不同的。
不。首先,教育师资匮乏的问题并不仅仅发生在发展中国家。我们预期远程教学模式同样可以有助于发达国家更好地利用师资。其次,我们计划中的计算机技术(参见3.3节和第5节)并不仅仅局限于远程教学,它们同样可以被用于其他商用和民用领域。最后,我们期望参与这个项目的学生在此期间获得有益的解决实际问题的经验。
[1] P. Bell。如何结束世界上的贫困现象。 http://www.princeton.edu/WebMedia/lectures,2003年2月。
[2] 世界事实。http://www.cia.gov/cia/publications/factbook/,2003年。
[3] 创新同盟。http://creativecommons.org。
[4] D. E. Culler,A. Dusseau,S. C. Goldstein,A. Krishnamurthy,S. Lumetta,T. von Eicken,and K. Yelick。Split-C中的并行编程 (Parallel Programming in Split-C)。发表于超级计算会刊 (Supercomputing 93),1993年11月。
[5] 丁兴富。农村远教工程功在当代利在千秋。http://www.chinaonlineedu.com/media/200314/zl3.asp,2003年。
[6] K. Fall。针对受限互联网的容迟网络体系结构 (A delay tolerant networking architecture for challenged internets)。发表于ACM SIGCOMM 2003,2003年8月。
[7] J. Ge and R. Schapire。在线中文手写识别。http://dsh.jeejio.com:8000/Projects/03sIND/submit/jge.doc, 2003年5月。
[8] A. A. Hasson,R. Fletcher,and A. Pentland。DakNet:通往全球宽带连接之路 (DakNet: A Road To Universal Broadband Connectivity)。http://courses.media.mit.edu/2003fall/de/DakNet-Case.pdf,2003年。
[9] P. Juang,H. Oki,Y. Wang,M. Martonosi,L. -S. Peh, and D. Rubenstein。用于追踪野生动物的低能耗的计算技术:斑马网的设计选择和早期经验 (Energy-Efficient Computing for Wildlife Tracking: Design Tradeoffs and Early Experiences with ZebraNet)。发表于第十届程序语言的系统支持和操作系统国际会议 (ASPLOS 02),2002年10月。
[10] K. Keniston。印度基层信息技术:一些初期设想 (Grassroots ICT Projects in India: Some Preliminary Hypotheses)。ASCI管理学报 (ASCI Journal of Management),31(1&2),2002年
[11] P. Kennedy。实际需要是发明创造之母 (Necessity Is the Mother of Invention)。纽约时报,2003年11月30日。
[12] 李天顺。推动中西部农村中小学跨越式发展。http://www.edu.cn/20030424/3083447.shtml,2003年。
[13] mimio虚拟墨水。http://mimio.com。
[14] J. Pomfret and P. P. Pan。中国国家总理关于台湾以及贸易问题的新闻发表会(Chinese Premier Presses U.S. on Taiwan, Trade),华盛顿邮报,2003年11月23日。
[15] R. Shah,S. Roy,S. Jain,and W. Brunette。数字骡:针对稀疏感应器网络的三层体系结构 (Data mules: Modeling a three-tier architecture for sparse sensor networks)。发表于第一届IEEE国际感应器网络协议及应用研讨会 (IEEE SNPA Workshop 2003)。2003年5月。
[16] S. Sobti,N. Garg,C. Zhang,X. Yu,A. Krishnamurthy,and R. Y. Wang。个人存储阵列:为分布式和无连接的计算机设计的移动存储设备 (PersonalRAID: Mobile Storage for Distributed and Disconnected Computers)。发表于第一届文件和存储技术会议 (FAST 02),2002年1月。
[17] S. Sobti,N. Garg,F. Zheng,J. Lai,Y. Shao,C. Zhang,E. Ziskind,A. Krishnamurthy,and R. Wang。Segank:一个分布式移动存储系统 (Segank: A Distributed Mobile Storage System) 。发表于第三届文件和存储技术会议 (FAST 04),2004年3月。
[18] T. von Eicken,D. Culler,S. Goldstein,and K. E. Schauser。活动消息系统:一种结合通讯和计算的手段 (Active Messages: A Mechanism for Integrated Communication and Computation)。发表于第五届程序语言的系统支持和操作系统国际会议会刊 (ASPLOS-V),第256-266页,1992年5月。
[19] A. Waldman。印度贫困阶层注资于私立学校 (Indias Poor Bet Precious Sums on Private Schools),纽约时报,2003年11月15日。
[20] R. Wang,N. Garg,Y. Shao,E. Ziskind,S. Sobti,F. Zheng,J. Lai,and A. Krishnamurthy。P2P的移动存储系统 (A Peer-to-Peer Mobile Storage System)。发表于2002年商业资讯:数据管理和存储技术专题 (Business Briefing: Data Management and Storage Technology 2002),世界市场研究中心 (World Markets Research Centre),2002年10月。
[21] 魏炎。西部地区主要教育信息化工程扫描。http://www.online-edu.org/article/article/3154.html,2003年。
X 普林斯顿大学计算机系教授,{rywang, li}@cs.princeton.edu。
³普林斯顿大学电子工程系教授,mrm@ee.princeton.edu。
l 耶鲁大学计算机系教授,arvind@cs.yale.edu。
*本文由以下普林斯顿大学计算机系博士研究生翻译成中文:郑丰宙、赖隽文、邵怡蕾、张弛和张铭。