如果Google重返中国,能够击倒百度吗?

jopen 10年前

f1.jpg

  最近正值《变形金刚4》热映,笔者用百度搜索“变形金刚”,发现结果页瞬间变成一个 “擎天柱”,并最终演化成一句文字:“变形金刚三十周年,百度搜索为你而变”。显然,这是一款为广大“刚丝”定制的另类创意,只不过,掀开技术之上的“人 文关怀”面纱,百度搜索近年真的在上演“变形记”吗?

f2.png

  上个月,一则 Google 支持西部教育的新闻引发“重返中国”的猜想,在知乎上,更是出现一个热门话题,“百度和 Google 的搜索技术是一个量级吗?”作为一名 Google 粉,我一直在思考一个问题:如果 Google 重返中国,还能够击倒百度吗?

  不一样的进化理念

  在 Google 退出中国之后,笔者被迫逐步减少了 Google 的使用,既有稳定性的原因,也有搜索体验潜移默化的影响。但在我看来,即使 Google 重返中国,不只没有机会击倒百度,追赶百度恐怕都是难以完成的任务了——因为百度中文搜索进化了 4 年,Google 却止步不前。

  除了文头提到的“变形金刚’之外,在前几天我用手机百度搜索“越位”结果则直接是关于越位解释的示意动画。用单个 CASE 来对比百度和 Google 并无意义,因为 CASE 无法穷举,搜索又主要在做长尾需求与长尾内容的对接。但不妨对比回溯一下 Google 百度近年来的进化理念。

  从百度历史看,一次具备里程碑意义的创新始于 09 年的框计算和阿拉丁计划。“所见即所得”,是框计算的核心理念,如今已经成为搜索引擎的标配,在最早却也是 Google 效仿的对象,也正是自 09 年以来,百度在一站式生活搜索方面,开始超越 Google。

  2013 年,自百度发布寓意着下一代搜索引擎的“知心搜索”之后,阿拉丁被再次升级,同时,更加强调“即搜即得”,它通过对大数据的挖掘,从数以亿万级的知识库数 据中挖掘出各种知识碎片、形成答案,直接将高质量搜索结果在大搜索中进行聚合和展现优化,以知识图谱的方式把答案直接呈现给用户,还可以和用户实现智能交 互,有问必答。比如,在搜索框中输入母婴相关关键词,如“怀孕”,左侧搜索页面即会显示“怀孕”相关的百度百科内容,会为用户推荐相关“怀孕手册”,聚合 展示孕妇在备孕、孕早期、孕中期、孕晚期、分娩、月子个阶段注意事项,同时,在搜索页面右侧将显示相关信息如“育儿指南时间线”,这被百度在内部称为“母 婴知心”。

  类似基于用户体验的知心搜索,涵盖了人物、小说、影视、音乐等等十余种,这种搜索结果页,有图片、地图、表单、贴吧、知道、百科等内容的直达, 左侧智能交互,右侧推荐更丰富。而在商业层面,百度靠传统搜索推广这“一招鲜”已吃了十几年,但是,在引领下一代搜索引擎进程中,百度也引入中间页的新理 念来自我颠覆,尤其在最近一两年,在去哪儿的典型案例之外,医疗、教育、游戏等每个大行业的垂直搜索中间页都在暗自发力。相对的,这种整合垂直搜索领域, 建立最庞大生态链的信号,在 Google,乃至任何一家中文搜索引擎,都不可见。

  纵向比搜索同样的结果今日的结果页与 5 年前、10 年前都相差甚远;横着比,与 Google 搜索对比一组关键词会发现百度结果丰满、好用很多。这是为什么我说 Google 重返中国已无法超越百度的原因,其搜索体验甚至都赶不上搜狗。

  百度和 Google 技术谁最强?

  近日的热门话题“百度和 Google 的搜索技术是一个量级吗?”,这是一个不算专业的问题,因为技术发展并不是线性的,往往是理念改变引发革命性的进步。

  其实,回到搜索引擎的技术原点,Google 今日引以为荣的网页评级机制 pagerank 技术,直到 2001 年才被授予美国专利,比李彦宏的 1996 年申请的超链分析专利技术晚了 5 年。

  于是,当下来讨论技术问题更是饶有趣味,不少非专业的回答大多是一边倒认为 Google 更牛逼,最典型的说法便是,Google 有无人驾驶汽车、Google Glass、Android,有甩开 Hidoop 几条街的 Caffeine、Pregel、Dremel,还有 GFS 文件系统和全球数据库 Spanner,百度却只有搜索。

  这很可能是关于搜索引擎技术非常大的误区,我个人感觉,Google 的创新能力毋庸置疑,但在搜索引擎技术和用户体验上,最近4-5 年并没有明显进步。

  对于今天的 Google 究竟是什么,将走向何方?近日 Google CEO 拉里-佩奇的公开信中似乎也曝出“回归搜索”端倪——他强调搜索和信息是 Google 的核心,也坦言“从许多方面来看,目前距离创造我梦想中的搜索引擎还有十分遥远的距离。”

  相对的,百度搜索引擎技术近年来的创新是否有干货呢?

  过去,在底层架构上,外界容易视 Google 比百度先进,不过,近几年却不能忽略百度在基础架构上的默默创新。年初,百度被曝光正在秘密研发“极速搜索”,它可以通过大数据计算能力,比普通搜索节省 80% 时间,打开瞬间最快只用 0.04 秒,其实,这项技术的意义并不止于用户感知,背后蕴含的实际是架构的重构、优化,在性价比、响应速度等各方面都在加分。

  如今,在对于搜索引擎技术发展走势上的判断,Google 和百度似乎也走到了分水岭。个人认为,“自然语言人机对话+智能化逻辑思考”,也就是,让搜索更能理解你的问题,给你更准确的答案,是百度正在践行的方 向。7 月 7 日,在 37 届信息检索领域世界顶尖学术会议 SIGIR 会议上 ,百度副总裁王海峰做了题为 “Chinese SearchEngine - Baidu's Practice”报告,这场演讲引起了广泛关注,很多人问及关于深度问答、知识抽取、智能交互等这些技术百度是如何实现、如何应用的,即使是 Google,也尚且未将这类前沿技术大规模应用于搜索产品,外界惊讶于百度在搜索引擎产品中的应用,并已提升了用户体验。

  曾经有一个颇为争议的案例,在百度搜索“谢霆锋儿子的母亲的前夫的父亲”是不是人工干预的。因为百度可以直接显示”谢贤“,但 Google 不行。Google 也提出知识图谱概念,但是,凭借对中文的理解以及百度拥有的自主知识库,对知道、贴吧和百科现成的 SNS 知识可以有机整合,通过逻辑思考,a推出b,b推出c,c推出d的结论,将答案d直接回答给你。但 Google 就做不到,他只能给你答案b,c之后的结论就只能由你自己去寻找了。

  当然,搜索“谢霆锋儿子的母亲的前夫的父亲”是个极端案例,不过,以知识库为基础的逻辑推理等会让搜索越发智能。比如,最近汤唯结婚消息一出, 百度搜索结果右侧出现了一组“那些年汤唯爱过的男人们”智能推荐,有意思的是,连“16 岁花季相识短暂初恋”等人物关系都能标注出来。另外,值得关注的是,百度在知识库上探索的样式已经比 Google 更宽广,比如,搜索“北京的景点”,左侧结果页有多种类型的景点推荐,包括亲子、情侣和家庭游,乃至毕业旅行的景点推荐,右侧推荐中,包括北京度假热卖排 行榜,以及相关地名。其他基于知识库的创新例子也并不鲜见,搜索“不掉毛的狗”、“开黄花的树”,用户都能发现今日的搜索已大不同,而这种长尾效应必将体 现在百度搜索流量增长乃至营收拉升上。

  从 2010 年初百度成立了自然语言处理部至今,词法分析、语法分析、语义分析、机器翻译、query 理解等一大批技术已经处于世界领先水平,并在深度问答、情感分析、智能交互、知识挖掘与推理等前沿方向上迅速进步。6 月底,在全球自然语言处理顶级学术会议 ACL 上,6 位百度人赴美参加。2013 年初,王海峰更是出任 ACL 五十年历史上第一位华人主席。无疑,如今的百度已经走在 NLP 最前沿。再看,对技术的投入上,百度与 Google 更是大相径庭。自 2008 年左右,当 Google 将研发重点投向其他领域的时,百度仍将资金和人才聚焦在如何让搜索更智能。

  未来,用户对这些技术的感知将愈发明显,好比之前不断走红的:百度翻译实物拍照卖萌又高级黑,人脸识别“明星脸”,百度语音助手的拍花识花……

  除此之外,去年,在离苹果总部不远的加州库比蒂诺,百度发布了专注于深度学习研究的前沿实验室。在全球范围内,目前除斯坦福大学等高校研究机构 外,唯有百度、IBM、Google、微软四家企业设立了 DeepLearning 专门研究机构。而且,在跻身深度学习研究的第一阵营之后,今年,百度更是将“Google 大脑”的负责人、人工智能行业的资深科学家吴恩达挖至新建立的美国研发中心,主抓“百度大脑”项目,这势必将为百度在技术和人才上保持领先埋下伏笔。

  最后,再次声明笔者是 Google 粉丝,但我不得不承认的是,百度在中文搜索技术上已经甩开 Google 一大截,就算 Google 重返中国,也已不再是百度的对手,时间不等人。