Tag Archives: Vui

(译)语音用户界面设计的5则趋势

原文:5 TRENDS OF VOICE UI DESIGN GLEB KUZNETSOV (获得授权)
译文:语音用户界面设计的5则趋势 小气的神

译注

我能想到最早接触的VUI产品,是2000年自己的第一台电脑自带的IBM ViaVoice。
但再一次让你觉得兴奋的是,近年VUI承载的服务开始从单一语音输入/控制/应答器工具,走向更可信赖的通用智能。
以下文章来自GLEB,能看到对VUI的理解,不系统不精准但流露着设计师sense的敏锐。
其中很多思路,也与当前译者实践中的百度地图语音设计理念不谋而合。

正文

重要的是,交互(interaction)的概念从来都是关于交流(communication)。人机交互(Human-Computer Interaction)从来都不是关于图形用户界面(Graphical User Interfaces),这也就是为什么语音用户界面(VUI)是用户交互设计的未来。
Interface(接口)只是一个用户与之交互的系统,GUI、VUI或其它什么。所以为什么VUI非常重要?两个原因:
首先,对话式界面是极好的,因为对话(conversation)的交流是每一个人都可以理解的交流形式。
这是一个自然的互动方式。用户与他人使用语音而不是技术。用户不需要去学习任何符号或新术语(GUI语言),他们可以使用英语(或其它母语)来操作系统。这并不意味着用户不需要学习如何使用一个系统,但学习曲线会明显降低。
其次,用户的预期是不断变化的。根据Statista统计,千禧一代使用语音搜索占有39%。这些受众准备好了成为VUI系统的早期用户。

VUI的TOP5趋势

当谈到VUI设计,语音交互表现出对于设计师最大的UX挑战,自iPhone诞生就开始了。但好消息是我们创建GUI产品时大部分最基本的UI设计原则,对于VUI设计仍然适用。以下你会发现在未来数十年,塑造VUI设计的一些趋势。

1.VUI是关于建立信任(VUI THAT BUILDS TRUST)

信任有助于建立人与机器之间的桥梁。如果没有信任,用户不可能与一个特定的语音用户界面进行交互。
有效的结果是重要的。VUI应该让人们理解,她/他将确切地接收到她/他的请求。通过以下几点来实现这一目标:

提高语音识别的准确性(更先进的NLP算法)。
重点了解用户的意图(最开始交互的理由)。当用户与系统进行交互,他们有一个具体的问题要解决,设计师的目标是理解这个问题是什么。

提供有意义的错误信息。
精确的语境驱动的心流(Crafting contextually driven flows)。
诚然对于用户询问系统的指令不可能全部预测,但设计师需要至少设计一个语境驱动的用户心流。当用户搜索一家餐厅,该系统应在每一个接触点预测用户的意图,系统应该完全匹配用户在找的内容。

用户控制的重要性(依然适用于VUI设计,来自Jakob Nielsen的用户界面设计的10条可用性启发法
该系统应考虑人类大脑的天然的局限性(短期记忆的局限性)。系统提供的信息应该是压倒性的。
当人们听到系统的响应,大多数用户只能记得最后一句话。因此,最好远离冗长的语句或是提供一打不同的选项,因为用户只能在同一时间记住几个。
系统应对用户的请求给出适当反馈。这个反馈应该让用户充分了解,当前系统在立刻执行。例如,视觉反馈让用户知道系统准备好了并在收听;或是在POD(Process of Doing执行过程)。当用户发送一个请求给系统,系统显示一个POD。POD不是加载动画,它不只是当系统执行时用户需要等待的状态,它提供系统在执行什么的有价值信息。例如,对于一个从Dropbox提出文件的指令,可能看起来是在存储器中搜索一个正确的文件。

2.自适应用户界面(ADAPTIVE USER INTERFACE)

一种自适应用户界面(Adaptive User Inferface,也称为AUI)是一个适应用户或情景需求的用户界面(UI)。未来的VUI会适应用户,系统会分析所有有关于用户的信息(包括当前的精神状态和健康状况信息)和他们目前的情况提供给用户更多的更多的相关回应。
例如,如果用户在当下出现高血压,并决定在2小时内有一个会议。一个数字助理会建议避免这件事情发生,或建议在会议开始前通过运动降低血压。

3.VUI传达个性(VUI THAT CONVREY PERSONALITY)

视觉设计师在图形用户界面有很多传达人性化的选择–字体、颜色、插图、动画,这只是被提及选择的一小部分。但VUI呢?设计师可以使用语言本身传达个性,内容、音质以及音调。发声的音质是人格的一部分,它塑造了身份特征。一旦我们提到什么东西的音质,它就会成为其身份的一部分。当我们与一个这样的界面交互我们会去体会情绪,就像我们在与真实的人互动。人们希望听到可理解的语音(Understandable Voices)——不是听起来像人类的语音,而是一个陈述行为一致人类(coherently human)的语音。
译注:音质,根据语境翻译voice一词。音质包含音量(强度)、音高(音频频率)、音色(泛音)。
反面案例:Susan Bennett演绎的Siri语音,语音听起来几乎是人类,但人们仍然知道这是一个机器。你不能真的与Siri进行对话。虽然你可以问Siri说“今天的天气怎么样?“你不能问更复杂的问题,比如,“我今天要穿什么?“因此,你不会对Siri有很深的感情,你知道它只是一个机器人。
正面例子:电影Her中萨曼莎的声音,语音听起来是行为一致人类的语音,所以人们会爱上它。

4.从Narrow AI走向通用智能(FROM NARROW AI TOWARDS GENERAL INTELLIGENCE)

人机交互正在转向对话,但用户期望的更多。目前可用的大多数AI系统仍然局限于Narrow AI,如系统使用机器学习来解决一个明确定义的问题。Narrow AI对他们的训练数据之外的知识一无所知。这意味着当用户想要解决稍微不同的问题,或者问题自身进化了,系统将不能解决它,并且反馈“我不懂”。所以做为用户就会抓狂。
与Narrow AI相比,通用智能并不局限于垂直领域。学习的概念是GI(General Intelligence)系统的基础,是Narrow AI和General AI之间的根本区别,General AI在没有被明确编程的情况下进行学习(机器由自己自学)。GI系统使用两种类型的学习,强化学习(当系统使用所有可用信息来解决特定用户问题时)和监督学习(当系统第一次需要用户帮助来解决问题时)。另一个不同之处在于,Genrnal AI系统可以学习利用其他AI用于一般和特定目的。因此,不同的机器学习模型可以相互依赖、协同工作。先进的NLP GI系统能够通过组合和处理来自多个不同数据源的信息,从初次尝试中学习。

5. 社会影响(IMPACT ON SOCIETY)

VUI系统被广泛接受。提高基于AI系统的VUI,会产生更好的用户参与度。人类与计算机之间的关系将是互动和协作的,人们与计算机将协同工作。这会影响社会,想象一下十年后你走进屋子,只是说话就控制了各类机器。
这个未来将伴随无所不在的人工智能:作为用户,我们将信任人工智能。即使做出如“我应该为我的孩子选择哪所学校?”这样最重要的决定。VUI将提高老年人和残疾人的生活质量。

结论

“The best interface is no interface”是Golden Krishna的一句名言,他是《The Best Interface Is No Interface》一书的作者。他和许多其他设计师认为,人们不想在屏幕占用太多的时间。因此,技术应该停止鼓励基于屏幕的解决方案。而且相对来说很快就会发生,未来的交互不会由按钮组成。

随着计算机处理能力的提高,我们将拥有更多能够在1秒内计算多达1000个步骤的系统。用户和机器将协同工作,从而实现通用智能。