以语音交互为核心功能的智能产品设计建议

我们终将以自然的方式与机器交流

在2012年圣丹斯独立电影节上，影片《机器人与弗兰克》赢得特别奖，该片讲述机器人Robot照顾患有老年痴呆症弗兰克的故事，选取影片中两张图，一张是人与人的交流，另一张是人与机器的交流，在2017年AI大热之年，人们能否像电影里的弗兰克那样，以人对人的方式与机器交流，这在人机交互学科里定义为“人机自然交互”。

何为自然交互？简而言之就是以日常交流方式与计算机进行交互，何为日常交流方式？就是人们通过语音、肢体、手势、眼神、表情等形式进行交流互动。

人机交互正迈上新台阶

人机交互（HCI – Human Computer Interaction）的发展是从人类适应计算机到计算机不断适应人类的过程，划分四个阶段：代码指令交互、图形用户界面交互、人机自然交互和人机情感交互。【引自《人机情感交互》】

每个阶段的发展都是以技术作为基石，以此带来的人机交互更为直观，也更趋近于人与人的自然交互，同时会拓宽更多的使用场景，会覆盖全年龄段的所有人。如下图所示，指令 – 专业技术人员操作早期计算机；鼠标键盘 – 受过教育的普通人使用PC机进行学习工作；触屏 – 更广泛的人群使用智能手机进行社交、资讯、娱乐等；自然交互 – 所有人将以自然的行为方式与智能产品互动。

随着AI技术的发展，智能产品在感知层面的能力正在变强，它能感知人们的语音、肢体语言、手势动作、表情眼神等，实现了人机自然交互的可能性，这是正在发生的事情。

未来智能产品的趋势是将拥有情感计算能力（Affective Computing），通过认知人类的语音信息、人脸表情、肢体动作等，从而调整自身的反馈来适应人们那一刻提出的需求，交互会变得越来越容易，它会更懂你。

智能产品能感知人的自然动作和读懂人的情感，都属于信息输入层面。在信息输出层面，智能产品如何设计才能达到“人与人自然交流”的感觉，为此我们将从六个维度给出设计建议，分别是人物设定、外观造型、语音、动作、界面和光效。正如同人与人交流时对方的脾气性格、外貌印象、声音特点、肢体语言、表情和眼神。

以语音交互为核心功能的智能产品设计建议

1. 人物设定的设计建议

①人设是要为用户服务；

人设是高级的虚拟形象设计，不由设计师的个人喜好来拟定，要充分考虑产品所服务的目标用户，譬如病人希望看见的是专家级医生，旅客希望能获得空姐甜美的服务，食客希望迎宾的店小二是热情好客的，这些形象在我们的脑海里栩栩如生。比如Amazon Echo是成熟职业女性的形象（类似有Google Home、天猫精灵、京东叮咚等），Olly给人潮流的设计感，它们为各自的目标受众群体去设定形象。

②人设可以通过抽象的方法进行传达，并非一定要具象化；

比如小米智能音箱定义的“小爱同学”是二次元形象，在今年11月底做出限量版手办，把形象落地到成具象的实体物品。对此，仁者见仁智者见智，有人说她不是心目中的“小爱”，所以在人设形象的传达上，我们建议可以通过艺术的手法达到目的，比方说用音乐、绘画、文学、电影等艺术进行包装抽象成一套视觉来传达，达到“空山不见人，但闻人语响”的境界。

③人设与产品要融为一体的进行考虑；

以语音交互为核心功能的智能产品，其“人声”会让用户自动的联想与之对应的形象，同时需考虑与外观造型相匹配，才能符合用户预期。有些智能产品有动作输出，例如人设定义为蠢萌的jibo，它的动作就要显得有趣可爱。如果考虑不周全，就会导致认知失调产生落差，比如小鱼在家，当用户问它几岁时，它却用其成熟女性的声音回答“我今年两岁了”，而Amazon Echo的回答是“按照人类的出生年龄计算我今年两岁”，后者更能让人接受与理解，即使是微不足道的一句文本都可能会让用户“出戏”，所以人设要与整个产品的信息输出层面融为一体的去考虑。

2. 外观造型的设计建议

①充分考虑目标用户的审美与喜好；

根据目标客群打造其喜欢的外观造型，比如小朋友会喜欢jibo胜过Echo，追求新潮的人更喜欢raven R，因为能与之载歌载舞。与以屏幕为主的智能手机不同，用户可不能更换主题皮肤找到自己的喜好，而Google Home也只能是通过“换裤子”来迎合用户偏好与家居风格。

②基于使用场景考虑造型设计；

要考虑用户会在哪种现实环境的场景下使用，目前市面上的智能语音产品多数放置在桌面上，体积大小就要认真思考，比如大了点、重了些，就不方便自由移动随处摆放，如果定义为多个使用场景，那便携上得做到位。比如raven H顶部的“点阵触控屏”盖子，用户能轻松取下进行语音和指触交互，于是不受固定位置的限制。

③避免掉进恐怖谷；

避免与人全特征的过度相似，建议采用抽象的方法提取拟人元素进行设计表达，这有助于产品向用户传达情感信息，从而有效的提升用户好感度。例如蔚来ES8搭载的人工智能nomi，还有百度的度秘，都是通过此类设计方法打造智能情感的交互，让一个工业产品，升级成一个有生命，有情感的新伙伴。

但如果与人的特征过度相似，现阶段的技术能力，造型上做不到写实逼真像人，同时语音、表情、动作也无法达到自然完美的匹配，所以这不伦不类的设计会给用户带来糟心的体验，例如Blue Frog Robotics公司推出的Buddy，很容易让用户掉进“恐怖谷”。

“恐怖谷理论”是由日本机器人专家森昌弘提出，他认为，人形玩具或机器人的仿真度越高人们越有好感，但当达到一个临界点时，这种好感度会突然降低，越像人越反感恐惧，直至谷底，称之为恐怖谷。如图所示，谷底处能动的僵尸比静止的尸体更恐怖，虽然尸体已经够恐怖的了。

3. 语音的设计建议

①自然感；

避免单调乏味，做到像人说话一样的自然，语气上听起来积极主动，有意愿的感觉，每一个音素合成的词句清晰可辨，自然流畅。人类语音的信息含有语音声学特征和文本语义，语音声学特征主要是韵律特征（指音素组合成语句的方式），包括声调、重音、停顿、语速等，汉语是一种有调语言，声调携带非常重要的情感信息。语音属于自然交互的一种，它需要达到“自然”的感觉，才能让用户感知可用。

如何让Siri听起来更像人那般自然？

iOS11版本关于Siri的升级目标是“让Siri听起来更像人那般自然”，实现方法是通过深度学习，每一种表达都有略微不同的声波，每一句话都包含几十或者几百个音素，Siri为每一次发声找出完美的声音组合，其中音素是由苹果挑选出的候选人进行发音采集，情感语料的获取是苹果以匿名的方式进行收听，然后用于深度学习进行Siri的训练。

②一旦确定“人声”不宜随意更改；

一旦人设的声音已根植在用户的耳朵里，不宜随意更改，如果说手机界面换背景图就像人换一身新衣裳，而以语音交互为核心功能的智能产品更换“人声”，就像重新认识一位陌生人，古语说“如闻其声，如见其人”，人们会很自然的把声音与某个人进行关联，新的声音是谁，就会重新进行“人物建模”。

③像人和人那样进行对话；

首先是对话流畅，做到及时反馈，如有停顿，不宜过长。话术简短而有效，不要主动终止对话，尽可能的推动持续交流，当然不能以命令的形式让用户去完成某个任务，这不是一个合适的对话，它或许有点像上下级的关系，会导致用户带来反感和抵制。

④在感知用户后尝试主动发起对话；

再过些时日，可能Amazon Echo它能够根据说话者的语音情感进行识别计算，通过韵律学特征（语调、响度、节奏、语音质量等）更懂用户说这句话的此刻心境，就像电影《Her》里的那句台词“你今天听起来有点不开心”，它能感知你，试着主动发起一次对话。