《Dinah Jane Hansen(黛安娜·简)是一位拥有... 来自美国驻广州总...》剧情介绍:这年头明星谈个恋爱都这么低调了吗7月末这些有我本人亲笔签名的书籍会统一快递出去Dinah Jane Hansen(黛安娜·简)是一位拥有... 来自美国驻广州总...招凝上前一步正欲帮他化解伤口上妖力的蚕食却见许峰自行掐了一记医修的治愈法决虽不甚熟练但足以将那剧毒妖力拔除美联储上调2023年PCE通胀预期至3.3%12月份料为3.1%
《Dinah Jane Hansen(黛安娜·简)是一位拥有... 来自美国驻广州总...》视频说明:我会的夏琳起身离开的时候她的神态中竟有一种从容不迫如何评测语音助手的智能程度(1):从意图理解模块入手2020-03-11 10:46·人人都是产物经理本文重点定义和讨论第一大模块【意图理解】即是否能够理解/识别用户表述的意图笔者以为这个模块是衡量AI智能与否的核心维度并将为大家揭晓评测维度与指标从事AI-NLP领域已经一年半了一直潜心学习平日里研究各种各样的语音助手输出各种类型的调研分析报告以培养自己的业务敏锐度同时也研究各种框架型知识以丰富自己的知识库在仔细、反复研读完了《Google对话式交互规范指南》、《阿里语音交互设计指南》、《亚马逊语音交互设计规范》三大交互规范后累积过往的工作过程中所遇见的问题自己努力尝试着提炼出一个知识框架并期望把这些规范类的东西内化成为自己的被动技能继而为自己以后做出更好用的产物做出积累一、我心中的超级人工智能私以为最理想的人工智能就像:《Her》里面的萨曼莎;《钢铁侠》里面的贾维斯;《超能陆战队》里面的大白;《多啦A梦》里面的机器猫;这些超级英雄总能解决我们生活中的各种各样的问题虽然我们的世界距离这种超级人工智能还非常遥远也许永远达不到但是不妨以一种非常高的标准对AI去做出苛求继而去倒逼自己做出更好的产物文章开始前请先短暂忘记自己是AI从业者这个身份让我们变成一个小白用户尽管提要求吧简单而言就是一句话——我就想要一个聪明且好用的智能助理能够满足我生活中的各种需求好用如何定义各种需求如何满足难就难在没有边界真正意义能符合上面要求的是可以无限许愿的神灯所以我们干脆模块化一些笔者就智能语音助理这一产物有如下四个大的评判维度它们依次是【意图理解】、【服务提供】、【交互流畅】、【人格特质】亦或者是说这些指标如果能够得到全部满足距离我们想要的超级人工智能也就不远了谁能够提供谁就可以获得用户的亲睐每个评判维度还有对应的细分指标让我们一步步拆解二、【意图理解】维度的5个指标本文重点定义和讨论第一大模块【意图理解】即是否能够理解/识别用户表述的意图私以为这个模块是衡量AI智能与否的核心维度(1)中控分配意图能力当前市面上的AI智能助手往往包含着各种各样的能力从业者角度而言本质是各个技能的集合而每一项能力都是服务和满足特定领域类的需求比如听音乐导航事项提醒电影票机票火车票什么的很多的技能在固定域里面能够表现得非常好但是集中到一起表现就未必好了核心考量点:准确识别用户需求并分配到指定技能服务的能力用户提出的每个需求计算机都会做出反馈(文本、语音、图片、功能卡片、多媒体事件等等)在反馈之前是先要做到识别并理解然后成功分配到指定的技能上最后由指定的技能完成反馈即服务行为而人类的语言表达千奇百怪我们期望计算机自然能够通过人的自然表达成功理解人类的意图并使用对应的回复衔接业务例子:我想听我想去拉萨>>>意图应该分配给音乐然后由【音乐】完成反馈我想去拉萨>>>意图分配导航然后由【导航】完成反馈例子:提醒我一下我明天帮女朋友买一束花花>>>意图可以分配给【事项提醒】技能我想明天帮女朋友订一张到上海的火车票你早上8点半提醒我下抢票>>>意图如果分配给【订火车票】技能就错了这个就是中控分配意图的能力也是所有AI智能助手集合各项能力的一个核心能力做不好中控的意图识别智能化无从谈起市面上例如腾讯叮当、小爱同学小度助手这类大生态的集合的处理方案属于最大的开放域相当多的技能只能是采用命令词跳转的方式启动这种对话行动无疑是要等待而且对话流程冗长面对着输入的不确定性所以用户为什么不用GUI(图形交互界面)去完成目标呢而一些细分领域的比如说出行、餐饮、客服、游戏领域的智能助手这些相对的封闭固定的领域还用关键词的方式进入指定技能再寻求服务就显得非常笨了如果做不到全开放域的中控至少也得在固定域里面做好意图需求识别以及分配的能力这样方便发挥语音输出便捷直达目标的能力才不至于像个玩具(2)句式/话术/词槽泛化度用大白话来讲:同一个意思当用户采用不同的表达的时候AI是否能够正确理解业内的专业说法是可识别话术/词槽的泛化程度解决方案是增加更多的语义覆盖泛化有两种一种是句式另一种是词槽先说句式的例子:笔者经常观察用户的对话日志后台发现用户在播放音乐的时候表述各种各样我想听音乐>>>随便放首歌>>>音乐响起来>>>music走起>>>有些能够能理解【音乐】正确回复随机歌单有些话术的表述无法理解则被【兜底】给接走了这种反馈就是助手的失误了列举词槽例子:我想吃711/想吃七十一/想吃seven eleven/想吃关东煮/想吃好炖>>>我想吃肯德基/想吃KFC/想吃开封菜>>>笔者的所开发的智能助手有一个【电影票】技能观察用户对话日志时的一些发现:《速度与激情8》刚刚上映用户会表述是我想看速度与激情、速激、速8等等;《魔童哪咤》上映的时候用户的表述是我想看哪咤的电影;《叶问3》上映的时候用户的表述会是叶问甚至是甄子丹的那个电影;而AI先提取对应的影片名然后交给接口方去完成查询行为只有正确填充指定电影的全称才能够可查询成功所以此处就需要做映射关系的特殊处理在定电影票例子中是十分考虑场景和时效性也就是说用户在不同的时间点说我要看《某》系列电影的时候口语上大概率是绝对不会带上第几部的这些要求其实都是生活中的一些例子既然人类可以做到理解自然AI也理所应当做得更好作为从业者一定要多看自己的公司业务的对话日志后台观察用户在对话过程中究竟是如何去使用我们的产物这个是我们的迭代产物的重要依据随时根据用户实际使用情况做出完善就过往的泛化经验而言结构性的句子变化相对较小而词语的变化就很多像分析数据一样经常看用户的对话日志会有很多的积累比如阿里巴巴的天猫精灵是具备线上语音购物的能力的那么眼下的2020春节相当多的用户会在我想买口罩这种话术之外直接表述我想买3M的口罩甚至会直接问有没有N95卖毕竟在眼下的这个语境N95几乎就是口罩的代名词了如果这类没有覆盖那你也只能通过版本迭代去训练各位AI从业者基于自家产物的版本迭代效率思考一下差距所以一开始就做好相比通过各种渠道反馈发现不好然后通过迭代去做好从产物设计基本功上来看根本是两种境界所以解决方案是此处应该是有一个动态热词的词库产物设计和运营方式不展开不在本篇讨论范围内在实际的业务中很多词汇和句式会被不断地造出来至于优先级如何选择如何泛化覆盖词槽和句式鉴于文章定位此处不适合展开(3)反馈准确度/容错率考量AI的反馈给用户的内容是否能够准确匹配需求是否具备显性确认以提升容错性各个语音交互设计规范都提及了这一点例子:我想听林志炫的《烟花易冷》>>>如果AI推送的是周杰伦的就不对如果没有资源也应该处理成未找到XXX让我们来听YYY方为合理而当接口方真(因为版权)没有资源时明确没有是一种我听懂了但是实在没有给你提供替代方案的处理而如果你不明示没有我可能会再追问一句然后你还是不明示到底是我没说明白还是你没听懂呢例子:假设现在是1月1日的晚上23点钟用户说帮我订一个明天早上7点的闹钟假设现在是1月2日的凌晨1点钟用户说帮我订一个明天早上7点的闹钟第二种情况如果按照计算机的逻辑去理解那1月2日的明天早上则是1月3日的早上了这种定闹钟的方式意味着悲剧而基于日常逻辑两种情况都应该提供1月2日早上7点钟的闹钟方为合理逻辑处理完毕后然后就是话术的处理回复方式有几种选择:回复1:已经为您设置闹钟回复2:已为您设置明天早上7点钟的闹钟回复3:已经为您设置明天早上7点的闹钟我将会在6个小时后叫醒你如果没有显性确认就没有容错性用户就会心中不安一旦被【闹钟】服务坑过用户一回那么就会恶评如潮本来用户就用的低频一旦不信任被打入冷宫再也没什么机会了只要你仔细体验观察相当多的AI语音助手在给于反馈的时候此类细节处理得不好容错率实在是太低了好的容错性设计其实应该是每个AI从业者体内的基因成为被动技能天赋一样的能力(4)模糊/歧义表述处理GUI的交互意味着输入可控CUI/VUI的交互意味着输入不可控这中间相当一部分是人类的表达问题但是一旦造成的回复不满意意味着用户将花费巨大的成本去再来一次最后被用户批评或者被定性为人工智障、就是个能对话的玩具往往很让人沮丧核心考量点:当用户使用模糊歧义表述的时候AI的处理方式例子:我明天下午4点要去上海出差注意此时至少存在两处模糊歧义表述:用户并没有指定交通工具明天下午4点指的是4点出发还是4点到那里例子:(假设现在是周一)帮我定下周三去上海的机票注意:ASR的转化是无法翻译停顿的到底是帮我订下周三的还是帮我定下周三的呢在真实的对话中人们是能够根据停顿节奏以及具体的场景猜测到底是如何断句的以上两个例子是我们业务中反馈的真实案例说说我自己处理这类问题的思路即提前交付结果等待用户反馈第一个例子根据用户的GPS坐标出行便捷程度以及商业诉求进行推荐火车飞机或者是打车均是正确的选择例如可以做出如下回复基于天气情况建议火车出行为你找到从XX到上海的火车票1月3日出发高铁二等座价格……第二个例子根据用户提出需求的时间就近选择结果反馈并给予显性确认当面对模糊/歧义意图的时候一定要有一个处理逻辑去管理用户的期望值和服务面对模糊/歧义表述的处理方式在行业内通通都是大难题好的处理方案能够判断用户的歧义表述并引导纠错至于处理逻辑是直接给于结果还是通过追问的形式二次判断就是具体业务具体场景的选择了不过多举例但是有无处理方案应该纳入进评测点(5)任务目标达成表现核心考量点:帮助用户达成目标中间所花费的成本当前市面上几乎所有的服务类技能都是AI通过提取用户表述中的具体信息填充到指定槽位完成服务的推荐而当用户没有给予主要槽位的时候是需要引导用户完成的市面上有两种做法一种是固定路径不可改变的填槽比如说【火车票】技能正常的对话是这样的先问出发地和目的地然后问出发日期然后确定车次中间不能改不能乱然后方可完成查询行为用户第一句话:我想买火车票AI回复:好的你想从哪里到哪里用户第二句话:从北京到上海AI回复:您想什么时候出发用户第三句话:明天下午出发AI回复:为你找到如下车次请问你想要第几个用户第四句话:那就第一个吧AI回复:好的正在为你下单这种我称之为固定序不可逆填槽简直笨到了极致如果你颠倒顺序填充槽位AI很可能就智障掉了生活中我们这边一个70岁以上的老人可以在窗口完成火车票购买(抛开口音的问题)但是无法通过AI助手完成火车票的购买为什么呢很多比较笨的AI跟图形界面一样要求用户适应它的逻辑去完成填充这种处理方案简直违背自然语言处理的这一初衷而好的智能助手是可以做到乱序填槽并且随意改槽位条件的例子:用户第一句话:我想买一张明天从北京到上海的火车票我要下午四点出发的我想要一等座我们可以根据结果着AI提取槽位以及反馈的能力用户第二句话:再帮我看看后天上午十点出发的二等座也行如果AI能够搞定那证明可以达到一定的智能化程度了以上是应对用户的表述而在对话服务过程中还有一个反向管理完善槽位的引导我们可以做一个简单的练习例如在买电影票的场景从需求到下单至少需要4个核心槽位A电影名B电影院C场次D几张票(选座可以提供默认规则)想要完成订单的确认则成功引导用户填充ABCD四个槽位即可好的完善和引导则是:如果用户填充了ABAI应该追问CD的例子:我想看《魔童哪咤》帮我在附近找个最近的电影院此时AI需要展示哪几个场次可以选择然后追问要买几张票如果填充了ABC应该追问D的例子:我想看《魔童哪咤》附近找个最近的电影院8点钟左右开场的此时AI只需要追问要买几张票即可ABCD四个主槽位无论用户的先后顺序先填充哪个槽位后续能够完善填充即可人类的表述千奇百怪无论多少个槽位人类都可以组织语言联合起来表述乱序填充槽位才是智能化自然表述的的基本要求三、篇幅所限的阶段性结尾笔者刚进入AI行业NLP领域工作的时候梦想着有一天能够做出伟大的产物什么算伟大的产物每个人定义不同从业以来就我们目前技术发展的前提下能做的真的有限科幻影视作品里面的超级人工智能目前来看似乎遥不可及遂化为小白用户提出一个最为直白的需求——我就想要一个聪明且好用的智能助理能够满足我生活中的各种需求所以在当前的技术实现下输出了过往在工作中一些评测产物以及处理问题的具体表现实际上原本在意图理解这个单元模块有更多评测点去列举但是受限于篇幅以及能力所限删掉的一些内容用提问的方式列举一下我删除掉的指标:上述我提到的种种问题其实都可以设计考核指标笔者可以讲清楚是什么解决方案以及思考后续会以独立文章的形式分享既然是评测指标自然是有权重之分有些是可以努力做好的部分比如前文中就【意图理解】这个维度提及的5个模块各个例子的列举都是基于用户的对话日志后台是实际业务中非常高频的而另外的有些是重点加分项有些是附加加分项来评定【意图理解】越深越到位都是让我们极尽所能在【意图理解】这个维度无限逼近超级人工智能的种种思考而笔者的思路是用户尽管提要求余下的尽量去想办法去实现如此才能够尽量去逼近伟大的产物以上对于本文第一大模块【意图理解】的部分就此完结后续文章会补充余下的部分并以相同的形式去进行补充解释和完善【服务提供】——当用户提出需求时有无高质量的反馈重点是对于服务价值提供的多样性反馈表现价值大小来设计评测指标【交互流畅】——当用户与AI进行交互的时候重点就交互反馈过程中的性能指标体验是否流畅来设计评测指标【人格特质】——智能助手是否具备足够的魅力/人格化特质就情绪表现情商共情、个性化、拟人化程度来设计评测指标作者:饭大官人不折腾会死星人微信公众号:fanfan19860403《游戏运营:高手进阶之路》作者熟悉游戏领域、人工智能-自然语言处理领域本文由 @饭大官人 原创发布于人人都是产物经理未经许可禁止转载题图来自 Unsplash基于 CC0 协议安以轩消失2年现身陈乔恩婚礼真实状况曝光远胜大S
让慕容复颇为意外的是整个华山派只有岳不群一人十分平静的盘膝而坐脸‘色’虽然说不好但却一副风轻云淡的样子在右边西班牙队员的一个快速前传
2024-12-22 14:39:25