Total Pageviews

Wednesday, 21 November 2012

Siri和谷歌语音搜索的对比

Siri:一场游戏一场梦
摘自 slate.com 原作者:曼奇 法哈德
Siri面世已有一年有余,而如今,她却成了一个众所周知的失败范例。就像昙花一现的水晶百事可乐,亦或里克·佩里那匆匆谢幕的总统竞选一样,苹果 对其数字助理工具大肆炒作,Siri仿佛乘魔毯而来,承诺将改变一切的一切。去年十月,苹果公司的首席营销官菲尔·席勒(Phil Schiller)向全世界展示了这款全新的工具:“我们有一个梦想,那就是让我们的科技产品可以听得懂对话,为我们做事。几十年来,这一梦想在技术专家 眼中一直是一段笑谈。”而如今,他认为,这个梦想终于走进了现实。Siri终于可以让你以与人交谈的方式进行人机对话,而且她可以像一个真实的助手那样帮 你完成工作。对话的方式是自然的,你无需记忆命令和语法。
然而,Siri在一开始就给我们泼了一盆冷水。她问题多多,而综合考虑这些问题,使得其更像一个花瓶:Siri及其的不可靠。的确,在一些时 候,Siri也可以精确的听得懂你在说什么,并给出正确的答案,但这取决于你讲话的方式和内容。此时Siri还是令人振奋的,可惜振奋的时刻实在少得可 怜。
大多数时候,你向Siri提问会成为对牛弹琴,对话进行下去将越来越风马牛不相及。我同事六岁的小儿子对Siri说:“我要去新疆。”她给听成了:“我要去嫖娼。”然后,非常热心的为他列出了14家成人娱乐场所……
即使Siri表面上听懂了你说的话,她也不是真的明白。以下是我刚刚与她的对话:
“1942什么时候放映?”
Siri很快做出了相应,为我列出了一个电影播出时间表。还算不错。
“赤壁什么时候放映?”我继续问。
“今天1942播放的地点距离 湖北省赤壁市 很远,”她回答,然后为我列出了周边的一些院线信息,那些地名我都没听说过。
我再次尝试,这回我几乎是喊出“赤壁”这两个字,仿佛置身影片与小乔%&*一样。
可能我对Siri的态度触及了她的底线,回答这个问题都口吐白沫了:

虽然这样的事情并不是每次都发生,但是只要发生就足以使Siri不可用。考虑到Siri极低的命中率,她也只能得到佐伊·丹斯切尔[Siri电视广 告的官方代言人,美国著名偶像剧演员—— 译注]的青睐。如果你有“气象识别障碍”,窗外雷电交加,大雨倾盆,你还要问“下雨了吗”这样风骚的问题那么Siri完全适合你。对于正常的人,Siri 更像是作秀的噱头。
但是,正如我所说,这些内容之前已经有大湿讨论过了。(参见马贺南的权威文章:Siri:苹果破碎的承诺)而如今,终于半路杀出了程咬金。上个月, 谷歌发布了自家的语音搜索服务的iOS版本。(此功能在安卓平台上已发布一年有余。)在看过两者的对比评测后,我决定亲自尝试一下这款应用。
可惜的是,谷歌的语音识别功能也没有想象中的的神奇,它尽管可以比Siri能听懂更多我讲的话,但它也会犯错误,而且它有时也会提供一些无用的答 案。甚至有几次,Siri给出了出色的答案而谷歌却出错了。我在第一次问Google:“《1942》什么时候放映?”它以为我说:“1942年放映了什 么电影?”我又问了一遍,它又回答了同样的答案。过了几个小时,我再次问了一遍《1942》的问题。而这一次却鬼使神差的成功了。
但是,即使谷歌语音搜索并不完美,但它却是真正可用的。在大多数情况下,它能理解我的问题并且给出令人满意的答案。这样看来,它这是具有开创性的。 谷歌语音搜索不仅优于Siri,而且优于我用过的所有其它语音识别系统。它也几乎将语音识别工具由童话故事变成了我们日常生活中可以依赖的帮手。苹果公司 在语音搜索服务上破碎的承诺,谷歌已经在用自己的方式改善这一问题。
谷歌正在以下几个方面作出努力:首先,它为自己降低了成功的门槛。谷歌的语音功能之所以称作“语音搜索”,不像Siri,它并没有承诺能成为你的机 器人秘书。谷歌语音搜索不会为你安排约会。对于你可以在谷歌网页上搜索得来的信息,谷歌语音搜索仅可以在这一范围内做到有问必答有问必答。这些并不完全是 设计层面的限制,在iPhone平台,苹果对于第三方应用程序有严格的限制,使得谷歌在技术层面很难做到Siri的高度。但是开发者另辟蹊径,使得谷歌语音搜索超乎你的想象。
其次,谷歌的用户界面更加卓越。它快得令人惊讶,我刚刚开始讲述,软件就已经开始对问题解码了,于是在我刚刚讲完后,它就已迅雷不及掩耳盗铃之势如 破竹,给出了满意的答复。相比之下,Siri的一至两秒来理解我的问题,从而找到答案。更令人惊讶的是,对于深谙表面功夫的苹果公司而言,他们的Siri 并不具备良好的发声。她她所讲的每一句话都带有含混不清的机器人口音。谷歌的声音听起来更像是一个真正的人。(谷歌并没有为她命名,但我想象这个声音来自 一个年轻的姑娘,她冰雪聪明,梳着棕色短发,戴着黑框眼睛,而且厌烦佐伊·丹斯切尔的剧集)。
谷歌语音搜索最为优秀的一点就是其渊博的知识储备。大多数情况她都会对你的问题作出精确的解答。在面临回答不了的问题时,她会保持沉默,但至少给你 满满一页的搜索结果,几乎可以肯定总是正确的。Siri在处理这一情况时就相形见绌了,她或者满怀歉意的跟你说她不知道,或者问你:如果你需要,她帮你去 网上搜,好可笑的问题。(你不知道的话,尽管去搜索好了。)
以下是一个提问列表中谷歌语音搜索都可以给出正确答案,而和Siri却答得一团糟:
 苹果公司的CEO是谁?
 谷歌的CEO是谁?
 米特·罗姆尼的妻子是谁?
 谁是洋基队的经理?
 金门大桥有多长?
 迪士尼乐园什么时候开放?
 谁创立了Twitter?
你也许会注意到这些问题都有一个共同点,它们都在寻求某些具体问题答案。Siri也可以回答这样的问题,但其专业知识是有限的。两者之间的差距取决 于两个系统工作原理的本质区别。Siri是的体验是按部就班的,它只从苹果公司指定的信息来源查找问题的答案。举例来说,如果你问Siri奥巴马的年龄, 她会给你一个来自Wolfram Alpha搜索引擎的答案。
谷歌语音搜索在这方面更加灵活。它的专业知识源于自家技术“ 知识图谱(Knowledge Graph) ”,该数据库存储了5亿条以上的知识信息。谷歌的数据库是动态的,在不断壮大中的。这就是为什么当我问谷歌,“谁创立了Instagram? ”它也能够听得懂,即使Instagram的是一个比较新的公司,它的创始人也是名不见经传,知识图谱足以了解“Instagram”是一家公司,它的创 始人是凯文 西斯拓姆(Kevin Systrom)。(而Siri会问你是否需要上网搜索)
上周,我会见了谷歌搜索小组研发主管之一斯考特·霍夫曼(Scott Huffman)先生。他解释说,知识图谱仅仅是支持语音搜索的四大技术之一。其他三项分别是:“自然语言查询”、 语音识别系统 ,以及“核心排名”算法(用于决定搜索结果的排列顺序)。四者都是谷歌搜索引擎重要技术分支。他们依赖于收集和分析大规模的数据,从而教会计算机人类理解 世界的方式。从信息中提取智慧的过程是谷歌作为一家公司的使命。苹果公司则没有这一负担。这也就解释了为什么谷歌语音应用注定要成为你的日常助理。它与谷 歌的搜索引擎一样值得你选用:一切尽在掌握。
我请霍夫曼来形容谷歌语音搜索的长远目标:它试图构建一个怎样的远景呢?他援引了《星际迷航》电影中的一台计算机,你可以把他当作一个普通人与他交 谈,而不仅仅是通过通过一些选项来提供帮助。霍夫曼讲道,“你可能会说:‘嘿Google,今儿晚上哪儿吃啊?’,它可能会说:‘嗯,据说你喜欢吃烤鸭, 那么全聚德怎么样?’,然后你会说:‘哦,有点儿腻了,有没有什么新鲜地方?’”,语音搜索会列举出:便宜坊、大董等烤鸭店。如果你使用谷歌网页搜索,最 后你还是会搜索到同样的结果,但是语音界面使得搜索体验更加人性化,你就像和一个善解人意的美女面对面的交谈一样。
谷歌语音搜索距其远景目标还有很长的路要走,但前进的方向并不盲目。霍夫曼指出,这款应用已经可以支持小范围的交谈。它已经可以理解代词的含义,比 如你问:“习近平是谁?”然后问:“他的妻子是谁?”,它就知道这里”他“指的是习近平。而最重要的是,它为您提供了正确的答案——彭丽媛。
我用同样的一组问题向Siri提问。首先,她正确地确认了总书记。但是当我问,“他的妻子是谁?”她却反问我,“你妻子的名字是什么?”这与我的问 题毫不相干。事实上,跑题跑得很远了。目前还没有任何迹象表明,苹果公司的语音助手软件何时可以步入正轨。目前我们只能说,Siri你还是一场游戏一场 梦。。。