原文来自Medium,作者John Brownlee
原文链接:https://modus.medium/what-siri-could-learn-from-thanos-e6a29df16e2d
如果用托尔金(J.R.R.Tolkien)写的《指环王》里边的人物来形容的话,语音助手Siri、Alexa、Cortana和Google都向往着成为魔王索伦(Sauron)。
如果将这些语音助手所采取的不同的发展方式凝练出来,那么可以归纳为,他们最终希望可以:至尊魔戒(One Ring)(或者说是终极AI技术)驭众戒,禁锢众戒黑暗中(来自魔戒上的咒语,原文为“One Ring to rule them all, One Ring to find them, One Ring to bring them all, and in the darkness bind them”。即至尊戒驭众戒,至尊戒寻众戒,至尊戒引众戒,禁锢众戒黑暗中)。
也就是说,每个语音助手都希望在竞争中胜出,成为你唯一的语音助手,而你可以通过这个语音助手提出你所有的请求。
因此,如果你想使用Amazon Echo关闭Philips Hue智能灯,你可以说 :“ Alexa,请关闭我的客厅灯 。” 然后Alexa会在幕后将你的请求翻译成Philips可以理解的格式并将此命令传送到Philips终端。
从iOS 12开始,Siri也在以这种全能的方式工作。你可以通过Siri Shortcuts的强大功能设置一个宏命令(macro,即宏,指计算机的批量处理称谓,其用途在于自动化频繁使用的序列或获得更强大的抽象能力),当你说 “ 嘿Siri,播放《这是如何制作的》(How Did This Get Made)”时,这个播客节目的最新一集将自动开始在你所选的播客应用中播放。
即使没有设置快捷方式,你也可以通过语音命令控制Siri,当你使用 “ 嘿Siri,使用草稿功能,在收件箱中创建一份草稿,内容在剪贴板上”之类的命令时,Siri将在草稿中的新文档中保存你的剪贴板内容。
从表面上看,这种通过语音与设备交互的方式很明智。我们想使用声音来控制手机。但是,为手机起一个像Siri这样的人名,像对待人类那样与它交谈,然后让它按照我们的指令行事。这是我们唯一的方案吗?
我认为,用户界面设计近三十年的发展向我们证明了这种做法并不是最有效的。
语音助手处理事情(除了最简单的任务)的速度相对缓慢,因为我们尚未以正确的方式考虑会话式用户界面(Conversational User Interface,指支持语言的一来一往的人机交互,一种不同于Siri那样只能够单方面对问题一次性作答的方式)。
再做一个类比:我们不必像索伦那样思考,而需要像灭霸那样思考。与其用一个至尊魔戒统治一切,不如像收集漫威电影里的无限原石(Infinity Gems)那样对待语音助手,尽可能多的收集几块。
什么是语音助手?硅谷希望我们将它视为生活在我们手机中的性感AI,但如果抛开硅谷给我们的这种想法,语音助手其实就是计算中最古老、最简单的用户界面的现代迭代。
与语音转录引擎结合使用后,语音助手成为了21世纪版本的命令行(命令行是用户通过键盘输入字符指令后,计算机输出字符结果的一种人机交互的方式):就像我们在Unix和磁盘操作系统(DOS)中使用的纯文本输入字段一样,命令行使我们能够向计算机提供指令。
命令行突然出现于20世纪60年代中期,它第一次让用户能够无需直接编码而向计算机提供指令。命令行的使用是革命性的——我们现在不一定需要用0/1与计算机沟通了,突然间,我们可以使用类似于自然语言的语句结构与计算机对话了。
你想赌什么?硬币正反面,还是Siri能不能在你下达第一次命令后就在Apple Music上正确播放你想听的那张专辑?
语音助手与命令行相似,但不完全相同。在旧的DOS提示符下键入“ delete word.doc”,计算机接下来不会执行任何任务;键入“ del word.doc”,计算机才会理解你想要什么。
而且,你想要完成的动作越复杂,你就越需要用确切的计算机语句结构写出通顺的命令行,否则计算机就会因为错误的语句而卡住。
只要是要求过Siri使用日历功能创建提醒的用户,肯定向Siri提出过类似这样的指令:“提醒我在11月第三个星期二的9:15到9:35之间去某个医院看医生。”这个指令并非是那种浅显易懂的单一任务指示,所以对于Siri而言,这样的指令很难理解。
换句话说,命令行虽然是ASCII码时代(American Standard Code for Information Interchange,即美国信息交换标准代码,基于拉丁字母的一套电脑编码系统)的通用语,但它是我们与计算机交谈最糟糕的一种方法。你键入的命令看起来像是英文,但实则不然。实际上,你需要记住大量的计算机语句并且反复试错才能通顺地利用命令行指引计算机工作。
这也很好地描述了我们使用语音助手的用户体验。实际上,除了最简单的任务之外,我们很少有人真正精通 Siri或Alexa之类的工具所偏好的语言。我们在与这些隐形AI的交互中不断犯错,直到最终弄清楚了它们期望我们使用什么样的语法。
但有时候我们直接就放弃试验了。(如果你并不认为这种情况很糟糕,那么请你问自己一个问题:你想赌什么?硬币正反面,还是Siri能不能在你下达第一次命令后就在Apple Music上正确播放你想听的那张专辑?)
从本质上讲,这就是会话式用户界面的恐怖谷效应(恐怖谷效应指当一个事物与自然的、活生生的人或动物非常相似,但又不完全相似时,一些人会对它产生反感厌恶的情绪)。
语音助手听起来像人类,他们像人类一样说话并且有像人类一样的名字,但我们却无法像人类那样相互理解。这就是为什么命令行最终不再受欢迎,并被基于图形用户界面(Graphical User Interfaces,图形用户界面是指采用图形显示的计算机操作界面,与早期的命令行界面相比,图形用户界面在视觉上更易于被用户接受)的操作系统(例如Windows和macOS)所取代的原因。
在基于图形用户界面的操作系统上,每一个应用程序(App)都有自己专属的界面,这些App可以并行,每个App处理不同的任务:文字处理、电子表格处理、电影播放等。
我们意识到了计算机无法正常理解我们的命令,于是设计了图形用户界面用于交流沟通。用户只需将鼠标指向或单击一个人机相互理解的符号,我们和计算机就可以达成共识。
也许会话式用户界面的设计师们是时候从命令行界面退出舞台这件事中吸取一些教训了,不然我们可能真的会提前放弃对语音助手的使用(或者将它们束之高阁)。
但要实现这一目标,硅谷的公司将不得不克服他们对创建一个全能的语音助手迷恋,而采用一种更加多样化的、类似于发展App的方法发展语音助手。
期望Alexa或Cortana(小娜,Microsoft开发的语音助理)之类的语音助手理解我们人类的问题在于,即使是人类本身也不擅长遵循彼此的指令。
这就是为什么我们不要求邮递员为我们做抵押贷款,为我们修理厕所,为我们设下捕鼠器并诊断我们的身体状况的原因。我们请银行工作人员、水管工、除虫师和医生帮我们处理这些事情,因为我们知道,期望任何一个人在每件事情上都是专家是不合理的。
那么,为什么我们对语音助手会有如此多的期待呢?Siri和Alexa不应成为解决所有问题的AI。他们应该是无形的操控者,将我们的需求送达到某个专门设计与我们互动以完成我们指派的任务的语音助手那里。
因此,当我们需要付房租时,我们并不期待Siri知道如何做——我们说:“ 嘿Venmo,给我房东打2,000美元。” 当我们要在电子邮件中寻找一个电话号码时,我们直接与Gmail进行沟通,而不是通过Alexa转达命令,这是不是看起来更合理?
如果我们不再期望一位语音助手能够百分之百理解我们的要求,那么似乎很多令人失望的语音助手的错误反应问题都可以被解决了。因为在现实生活中,如果考虑到了所交谈的对象这一背景因素,那么人们相互之间就能够更好的理解彼此并及时调整沟通策略。很少有人会像与自己五岁的孩子说话一样与会计师交谈,这就是为什么我们能够使彼此相互理解的原因。为什么语音助手要不一样呢?
语音助手不应该是全能的,Apple、Amazon、Microsoft和Google不应该试图将人们绑在他们的机器上。像Siri或Cortana这样千篇一律的语音助手总是能够在市场上找到一席之地,但是,如果Siri或Cortana可以向更多的专注于特定任务的小型聊天机器人开放他们的语音平台,那么语音助手将会有更多的机遇。就像Mac和第一台IBM 个人电脑从命令行转而向App领域开放一样。
就像Apple首先通过其iOS App Store发现的那样,在由语音助手引领的下一场计算革命中,当一个看门人同样也可以创造很多利润并获得荣耀。当然了,如果语音助手想要领导下一次计算革命,那硅谷及其终端用户必须停止用高于人类的要求去要求语音助手。