首页 公司简介 功能说明 财富论坛 增值广告 视频集锦 会员注册 会员登陆 关于我们
今天是:  您现在位于: 首页 > 商情·商机 > 电子商务 > 电子商务技术 > Google抢先研发第三代搜索技术
[公告]热烈祝贺由武汉市环保局宣传教育中心主办 武汉市盛景广告传播有限公司承办 企业增值网协办的环保公益活动全面展开!
 
  栏目导航
 
 
电子商务技术
 

Google抢先研发第三代搜索技术

 世界商业报道(biz.icxo.com)消息:继百度企业搜索部门裁员30人之后,另一家搜索引擎厂商中国搜索也传出裁员的消息。有消息称,中搜此番裁员将主要集中在非IG(个人门户)部门,整体裁员比例可能高达40%。一年前,为了给个人门户业务让路,中搜已停掉了企业搜索业务。

在接受媒体采访时,中搜总裁陈沛确认了将有人员调整的消息,但对具体裁员数字则顾左右而言他。

戏剧性的是,在中搜裁员传闻尚未尘埃落定之际,百度被裁员工的去向却有了着落。消息人士透露,百度ES部门的多名离职员工日前已投奔企业搜索巨头Autonomy中国公司,其中既有市场销售人员,也有技术人员。

据了解,尽管百度在此次裁员行动前曾与ES部门员工签署竞业限制协议(也称同业禁止协议),规定员工离职1年内不得进入竞争对手的公司工作,但在7月10日的裁员行动中,百度并未按照劳动法相关规定向离职员工支付竞业限制补偿金,而只是按N+1标准补发了相应工资,对部分有期权的员工也只补发了一个月的期权。这意味着百度当初与员工签订的竞业限制协议已自动失效。同时,由于百度已经关闭了企业搜索软件和相关服务部门,因此百度与Autonomy之间已不存在同业竞争关系。

围城效应

形成对照的是,在中搜、百度纷纷从企业搜索领域战略撤退的同时,Google、微软、IBM等却摩拳擦掌,相继在该领域投入重兵,而企业搜索的老牌劲旅Autonomy、Fast等则拥兵自重,一路稳扎稳打,张弛有致地扩充着势力范围。

hspace=0

Google方面,其企业软件目前虽然仅占总收入的极小比例,但已将企业搜索引擎视为“解决利益问题的战略据点”( Google首席执行官埃里克.舒米特语)。从2002年迄今,Google先后推出了企业搜索设备GSA、OneBox、Google Mini等多款产品,并通过在其中捆绑Gmail、企业级桌面搜索工具等产品模块,以整合的产品模块、颇具诱惑力的低格、极为简便的许可模式,在企业搜索领域连连攻城拔寨。2005年,Google从企业搜索业务中获取的收入达到了7500万美元。虽然相比于Autonomy同期2.7亿美元的销售收入仍有距离,而且其桌面搜索工具的推出要晚于Autonomy整整10年,但凭借其强大的品牌优势,Google此番来势之凶猛,依然令人瞠目。

将企业搜索市场视为禁脔之地的不只是Google,微软COO凯文·特纳(Kevin Turner)就曾放话说:“企业搜索是我们的地盘,Google不应该插手。”

Autonomy也没闲着。继去年斥资5亿美元购并Verity之后,Autonomy一面在国内秘密部署视频搜索门户,一面则极力拼抢企业级市场。据悉,近期该公司将同时发布三大系列专门针对中国市场的应用产品,分别是面向企业的“企业竞争情报智能分析系统”、面向政府部门的“互联网舆情监控分析系统”和面向中小企业的一款名为“ultraseek”的低端搜索产品。

算法优劣论

以Google的PageRank算法和百度的超链分析为代表的关键词搜索引擎技术在大型的、结构化的网络搜索中取得了空前成功,但是在结构更为紧密的企业管理系统中,该算法在索引、安全以及关联操作上,仍存在若干局限。

如所周知,PageRank算法基于如下假设:指向一个网页的链接越多,这个被指向的网页的相关性及权重就越高,从而也就会排在更靠前的位置。百度的超链分析与此稍有不同。除了文件本身对关键词的引用外,超链分析还考虑了反向链接中的关键词。当一个关键词被搜索时,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。

上述算法在网页搜索方面很有效,特别是凭借布尔表达式查询的时候,但在搜索结果的呈现方式如自动关联、自动分类、自动聚类、个性化建档等方面,则可说建树不多。

不妨来看看Autonomy的做法。Autonomy的算法基于一种专有的模式匹配技术,可根据单词或词语的出现频率来识别不同文本在上下文环境中的语义,并以此判断一篇文档与某个主题的相关度。通过这种方法,Autonomy可抽取文档中的文本要素,自动识别文本的概念。也因此,该算法 本身兼具了某种程度的语义搜索功能,同时也克服了PageRank算法中关键词之间没有重要性差别、也不支持语义搜索和自然语言搜索的缺陷。

也是因为基于模式匹配和概念搜索的算法,Autonomy可抽取文档中包含的重要概念自动进行聚类,将相似的文档聚类到一起并自动生成类别的标题。该算法还可以自动对信息进行分类,自动标引,并基于用户兴趣自动匹配出个性化、多侧面的直接档案和隐含档案(通过点击和提交)。固然,传统关键词搜索也支持自动分类,但由于使用的是传统SVM和KNN算法进行分类,在分类效率和准确率上仅可做到差强人意。

模式识别算法还可以对文档中最主要的概念进行动态摘要,依据用户的兴趣所在和相关性权重值的不同,每次摘要的内容可以是不同的,而关键词搜索只能生成固定的摘要信息,且摘要信息往往不连贯,甚至无法卒读。

此外,模式识别算法也可以分析信息间的主要关系,从而实现内容间的交叉索引对照和自动关联,并实时生成超链接。当文档被查阅时,这些链接可以自动一次性插入到文档中,因此可以将以前写的文档作为当前文档的参考,档案资料也可以链接到最新的新闻或相关资料。而关键词算法则是基于矩阵模型的相关文件分析,处理效率取决于文章大小和文章数量。基本上,文章数一超过10万量级,搜索响应速度就会受到影响。

不过有迹象表明,Google、百度、微软等关键词搜索厂商正在着力修补自身的搜索模型,为之增加更多的变量,并在探索更个性化、更具有相关性的呈现方式。一个例子是百度指数和Google趋势中文版的先后上线。作为一种显示关键词搜索量随时间走势变化的应用,二者可视为百度和Google在个性化搜索领域的初步尝试。有意思的是,此前数年Autonomy推出的二维岛图、三维信息图等图形化搜索结果聚类呈现方式,与此颇多神似之处。

更多的信息显示,Google、IBM已在研发自然语言搜索、语义搜索等第三代搜索技术,微软MSN部门已在研发智能问答式搜索、个性化搜索、个性化用户界面等技术领域,而雅虎和百度则在社会化搜索、社区搜索领域走在了前面。

浏览[231]
【首页】  【返回】
 
 

联系我们 ┋  网站留言 ┋  友情链接 ┋  与我在线 ┋  管理 ┋  TOP

页面执行时间:<font class=red>31.250</font> 毫秒<font class=gray>(4次)</font><br>
本站当前有 <font class=red>1</font> 人同时在线<br>
最高峰有 <font class=red title=>2</font> 人同时在线<br>
最高峰发生在:2002-6-7 21:03:07<br>
本站总访问量:<font class=red>55</font> 人次<br>
本站统计时间:从 <font class=red>2003年6月</font> 至今<br>
  http://www.qyzzw.net/
mailto:qyzzw888@163.com
Copyright (c) 2005 www.qyzzw.net. All Rights Reserved.