关注每日深度好文分享,正能量经典好文分享!

当前位置:主页 > 好文分享 >

驾驶场景下的语音交互

  • 原创
  • 好文分享
  • 2022-06-28 00:45:01
  • 本文有1911个文字,大小约为8KB,预计阅读时间5分钟

Recognition flow

判断结束点; 提取有效信息; 识别; 自然语言理解; 对话管理。

(1)判断结束点

End point

从发出声音到结束声音,截取声音片段。

(2)提取有效信息

Feature extraction

通过处理技术,将声波识别成为一个个发音单元。

(3)识别

Recognition

根据 Dictionary 中的发音单元和单词的匹配,将发音单元识别成特定的文字。

(4)自然语言理解

Natural language

通过算法对文字就行处理,理解其想表达的含义。

(5)对话管理

Dialog management

针对此轮对话的含义,从而进一步设计下一轮对话,其中最核心的部分是在识别模型这一块。

Recognition model

目前主要有两大识别模型:Rule based grammarStatistical language model (SLM)。

两种语法的目的都是为了充分理解用户说的内容,从而指导用户进行下一轮对话,区别在于其实现的技术手段。

Ru

驾驶场景下的语音交互

le based grammar 即为人工定义,利用 voiceXML language 手动定义语法的 slots 和 filler。slots 即需要识别的内容,filler 用于帮助定位 slots。

//Example 1
.GETDESTINATION (?PREFILLER CITY ?POSTFILLER)
PREFILLER [ (I want to go to) (I am going to) (I need a flight to) (?I’m going to) ]
CITY [ (new york) (the big apple) (san francisco) ]
POSTFILLER

//Example 2
.GETCITIES (?PREFILLER
[(from CITY: orig to CITY: dest)
(to CITY: dest from CITY: orig)
] {<origin-city $orig> <destination-city $dest>}
?POSTFILLER
)

SLM 则是通过机器学习的算法,基于数据训练出来的自动识别语法。在大数据的背景下,可以实现自然语言理解的功能。其优点是可以允许用户按照自己的想法说出内容,不受限于 Rule based grammar 的有限识别范围。

可以理解为基于人工智能(AI)的语音识别技术。国内比较领先的两大技术提供商 科大讯飞 和 DuerOS. 其手机端的识别能力,笔者在第一次体验时深深感受到了人工智能震撼。

理解技术背景有助于设计师更好的与工程师进行合作,辅助工程师设计出更人性化的语音识别技术。

User testing

测试这一环节和 GUI 基本一致,可以内部先按功能流程测试,记录下不完善的地方。然后根据用例,小规模组织实际用户进行测试,记录下反馈。并在测试完成后进行 Group research 收集用户更多主观上的感受。

等产品上线后,有了大规模的产品数据后,采用 hotspot analysis,针对使用率高和退出率高的区域进行监听,然后分析其原因。

不同的地方是我们可以在 VUI 的早期测试环节使用 Wizard Demo——即通过环境设置让用户觉的语音是机器识别并进行反馈的。实际上是通过测试员在幕后模拟机器发出的。

Wizard Demo 开发时间短、成本低,同时又能很好的扮演实际产品的测试功能。可以运用在 Prototype 技术成本较高的项目中。

Tuning

润色。

好的产品都是不断迭代而来的,一口气不可能吃成个胖子。针对 User testing 中发现的问题:repeatedly iterate until the end。

Let’s check a sample application

Albert Einstein made the comment, “Example isn’t another way to teach, it is the only way to teach.”

So, 笔者本章用一个案例来说明上个章节的设计方法。

Requirements

车载系统的三大核心功能层面为导航,娱乐和通信。导航本身作为车辆出行的辅助性工具,其重要性犹胜。针对导航功能,其三大核心功能为:搜索、路线、和 LBS(Location based services)。

考虑到车辆的通勤属性,即上下班的使用场景会更为频繁。在此我选择『路线』功能作为 VUI 设计的范例。

功能定义:用户可以通过语音设置通勤地址(家和公司),支持语音唤起,导航至指定目的地。

Flow

Main flow v1

Step 1 语音唤起:可以使用方向盘 TTS Button 或语音唤起词技术,对语音识别系统进行唤起。比如:『奥迪奥迪』。 Step 2 设置家/公司地址:唤起成功后,此时应该有固定声音提示 earcon,如『叮』。告知系统已触发,请说出内容,可以结合 GUI 共同提示。用户发出设置地址指令,设置环境可能出现错误。 Step 3 语音输入地址:指令发出后,系统识别,然后告知用户语音输入目的地地址。此时需要考虑 prompt 设计,是让用户一次性说出全部地址,还是逐级引导用户输入地址。 Step 4 确认地址:可能存在识别错误,需要用户确认是否是该地址。 Step 5 导航至家/公司:成功设置后,语音提示用户是否要导航至该目的地,若超出 timeout,则用户需要再次唤起并发出导航指定。 Step 6 确认开启导航:系统告知用户大体路况信息,询问用户是否需要开启导航。 Step 7 结束:开始导航,流程结束。

根据以上分析,完善一下流程图:

main flow v2

Promp

Grammar

笔者认为:在技术条件允许的情况下,优先使用SLM进行语音识别,最大可能提升用户操作上的自由度。因此在地址识别上,用户即可以说目的地名称,如:奥迪中国楼;也可以说目的地地址,如:酒仙桥路4号。

但这并不意味着设计师就可以不构思语法部分了,尝试用 rule based grammar 来预判用户操作,对于理解整个交互流程和优化 prmpts 的用户体验都是大有裨益的,即使是用作日后测试 SLM 的样本也是极好的。

笔者写两个基本的案列:

//设置地址POI
.ADDPOI (?PREFILLER 名称 ?POSTFILLER)
PREFILLER [ (设置) (我要设置) (我想设置) (添加) (我要添加) (我想添加)]
名称 [ (家) (公司) ]
POSTFILLER [ (位置) (地址) ]

//输入地址
.GETDESTINATION (?PREFILLER 地址)
PREFILLER [ (地址是) (我想去) (目的地是) (位置是)]
地址 [ (地址名称) (地址详情) ]

User

Tuning

结合 user testing 的结果,结合 GUI 的辅助,第一版完整的流程如下。

(1)路线场景下唤起系统:Eercon “叮”

GUI prompt

用户语音指令输入:设置公司的地址; 系统反馈:您好,您『公司』的地址是。

GUI prompt

用户语音指令输入:奥迪中国楼; 系统识别错误:抱歉,您的公司地址是。

GUI prompt

用户再次语音指令输入:奥迪中国楼; 系统识别正确:您公司的地址是奥迪中国楼,位于798酒仙桥路2号,是否确认。

GUI prompt

用户确认公司地址:是。 用户语音指令输入:导航去公司。 系统识别,开启导航:公司距当前位置3公里,预计行驶时间20分钟,是否开启导航。

GUI prompt

识别错误2次以上,是显示帮助信息:您可以说『帮助』查阅使用手册,『结束』终止操作。

GUI prompt

To be continued

想要设计一个优秀的语音交互功能,以上笔者所述只是最基本的入门知识,每一个模块都还有大量的知识需要学习。

尤其考虑品牌建设,类似于 GUI,你的 VUI 的设计理念和设计特色是什么?如何让用户『一耳就听出』这是你设计的?

地图导航中名人语音包就是一个好的尝试。因此,针对目标用户群体,产品声音的 persona definition 是必不可少的。

若最终想提供用户一种和真人对话场景感,这个说话的人是谁就需要好好琢磨了。年龄、性别、职业、口音、语速、用词…

当用户有一天分不清真人语音和机器语音的那天,除了人工智能带来的细思极恐外,陪聊产业的红红火火,恍恍惚惚似乎也是冥冥注定的吧。

Reference

Voice: user interface design

Alexa skills kit

作者:天晨Joey

原文链接:https://www.jianshu.com/p/204441b82709

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至1450188540@qq.com举报,一经查实,本站将立刻删除。

猜你喜欢

微信公众号