随着亚马逊智能音箱Echo的销量接近千万,Alexa无疑成为迄今为止世界上最成功的消费级人工智能产品。这也是人工智能领域的电子商务公司亚马逊的跨境奇迹,极大地刺激了国内各科技公司进入语音交互领域。根据阿里、百度、腾讯、华为、小米、联想、海尔、柯达迅飞等业内人士提供的数据,国内已有200多家公司正在开发类似Echo的智能音箱。但我们真的考虑过亚马逊的Alexa吗?或者我们真的知道评估回声吗?尽管亚马逊多年来一直在这一领域投资,但亚马逊对公关的宣传和审计一直很严格。事实上,亚马逊在中国对技术细节的思考鲜为人知。在最近的Emtech数字人工智能峰会上,麻省理工学院技术部的主编Jason Pontin与亚马逊Alexa的主管Toni Reid进行了交谈,并透露了Toni Reid对消费者语音交互系统的一些想法。托尼里德从无到有地经历了亚历克萨出现的整个过程。在这次谈话中,托尼里德还解释了为什么亚历克萨不使用屏幕和很多回合的谈话。托尼里德认为,声音是最简单、最自然的互动方式,也是人类最基本的沟通方式。所以当亚马逊为Alexa设计Echo时,它没有添加屏幕。这种方法实际上增加了困难:用户只能通过纯语音使用设备,而无需屏幕反馈作为补充。当然,亚马逊也在尝试在Fire TV和Kindle平板电脑等设备上部署Alexa,但这涉及到Alexa的巨大变化。ToniReid坚持说,Alexa实际上只有一次机会在用户发出语音指令时部署相应的操作,而不是与用户进行多轮对话。一般来说,只有两个对话。如果第三次对话没有阐明用户的需求,那将是一个完全的失败。这种重复的对话对用户来说是一种糟糕的体验。这两点值得国内用户思考。从这两点出发,我们可以开始思考更多的问题。我们希望国内产品能超过Echo,至少相当于Echo的销售和影响力。为什么亚马逊脱颖而出?这是一个奇怪的问题,的确亚马逊更像一个企业而不是一个高科技公司。事实上,在亚马逊谈论Echo的销售之前,亚马逊并没有被业界和媒体注意到,也没有被归类为人工智能公司。因为与中国的谷歌、微软、苹果、Facebook甚至百度、阿里、腾讯等公司相比,亚马逊不能真正生产出一个像样的PPT,这通常是由其他公司的人工智能研究机构提供的。此外,126实验室是一家重型产品公司,是通过收购建立的产品大杂烩。更尴尬的是,Echo最初是一家产品公司。项目优先级也是最后一个。为什么会出现这种情况?这是偶然的,也是不可避免的。从科学实验的角度来看,偶然性真的很大。成功的实验往往是偶然的闪现,但这种闪现也是亚马逊长期投资的必然结果。首先,亚马逊的优势在于它没有太多的技术负担。亚马逊显然对建立研究机构不感兴趣。正是因为没有太多的历史约束,产品和技术才能够更紧密地集成,而不是由工程师约束产品思维。尤其重要的是亚马逊Echo的市场症结,这使得谷歌、微软和苹果长期积累的近场语音交互优势几乎毫无意义。显然,Alexa更了解用户对远程语音交互的需求。其次,亚马逊对技术细节的耐心实际上超过了像谷歌和微软这样的人工智能巨头。在这里,我们需要把苹果带出去,因为苹果制造产品的想法和亚马逊的一致。亚马逊和苹果显然对技术公关和论文兴趣不大,但对产品和专利非常感兴趣。从公司的角度来看,公关和论文确实消耗了公司的巨大精力,这可能是提高初创企业知名度的重要途径,但对于成熟的公司来说,知识产权、产品和营销能力显然更为重要,这也决定了公司对技术的耐心。因为太多的公关和论文会使研究人员忽视对技术细节的控制。当公司技术人员谈论技术趋势和架构时,公司处于危险之中。技术落地后,谁来控制无数的细节?如果没有持续的细节润色,哪位用户会付钱?经验总是第一位的。最后,技术人员往往陷入科学幻想,总是喜欢提前做很多事情。这在技术领域是必要的,但也非常重要,不允许工程师甚至科学家对产品定义进行过多的干扰。它始终是满足市场当前需求的产品,以获得用户,而不是您的技术有多先进。显然,亚马逊更轻。灵活的产品思维是Echo定义的一个关键因素,因此用户更容易理解。2。语音交互技术是否成熟?在这个问题之前,我们可以回忆起我们周围有多少人在平时可以和声音互动?事实上,这是非常罕见的。除了汽车导航,也许大多数时候它只是偶尔的表演,也会对着手机大喊大叫。这表明语音交互根本不成熟。这是不对的,因为几乎所有的人工智能公司都声称语音识别接近或超越人类。不要相信,更不用说远场语音识别了,即使近场语音识别也做不到。这些所谓的指标都是纸面指标,只有在一组特定的测试下测量的结果,可以理解为你想要什么样的指标几乎可以被优化。那又怎么样?有什么意义?因为我们人类从来不是实验室老鼠,我们不需要在实验环境中应用技术。语音交互包括语音识别和语义理解。从语音识别的角度来看,有许多问题需要解决。真实场景中的语音识别是语音交互着陆中首先要解决的问题。这需要考虑扬声器和机器之间的距离,以便机器可以在房间的任何位置识别扬声器的语音命令。这涉及到噪音、混响、回声和其他干扰声音的处理,这些都不能单独通过所谓的深度学习来解决。显然,所有人工智能相关技术的登陆都会遇到场景问题,这是物理学的一个范畴,而物理学的进步并不像经常召开的人工智能会议所宣称的那样突飞猛进。但是对于计算机科学来说,在不解决物理问题的情况下谈论人工智能改变人类还为时过早。开玩笑吧,没有电源的电脑还能工作吗?3语音助理是否需要屏幕的问题?ToniReid提到为了让用户适应语音交互的方式,Alexa故意移除了屏幕。但这并不意味着屏幕并不重要。虽然语音是最简单和最自然的交互方式,但我们80%的信息仍然依赖于视觉采集。即使声音相互作用,我们也依赖许多身体表情来确认我们是否收到了有效的反馈。回声也是如此。
«
Facebook、Dropbox、HubSpot都是如何计算获客成本的?
|
麦峰专注于行业内的软件服务,将“服务”转化为核心竞争力
»