专家谈谈有关网站搜索引擎中模糊搜索理论研究分析
信息录入:深圳博盈网络技术 录入时间:2012-08-08 浏览次数:49454 次
深圳网络营销专家有关的研究中的IR模型(搜索引擎)使用模糊集合理论(Lotfi Zadeh博士于1969年创建的模糊逻辑分支)来发现两个词之间的语义关系。IR系统并非使用同义词典或字典来找出两个词之间是否有关系,而是使用自己的海量内容数据库来推测出词之间的关系。
这个过程虽然听起来复杂,但原理很简单。网络营销专家指出搜索引擎需要依靠机器逻辑(对/错、是/非等)判断,机器逻辑相对人类有它的优势,但机器逻辑不能像人类一样思考。对人类来说很直观的事情,对计算机来说可能非常难以理解。例如橘子和香蕉都是水果,但橘子和香蕉并不都是圆的。对人来说这是很直观的事情。
机器要理解这一点以及其他与此类似的概念,语义联系是关键。网上大量的人类知识可以被收录进索引库,并且从中分析出人类已经建立起来的联系。所以机器扫描索引库中“香蕉”和“橘子”这两个词出现的地方,注意到“圆形”和“香蕉”很少同时出现,而“橘子”和“园形”经常同时出现,机器就知道橘子是圆的,而香蕉不是圆的。
这就是模糊逻辑发挥作用的地方。只要分析词语以何种频率一起出现,在什么情况下一起出现,模糊集合理论就可以帮助计算机理解词语之间是怎样相关的。
一个在此基础上有所扩展的相关概念是潜在语义分析(LSA,Latent Semantic Analysis)。通过研究亿万网页的海量索引,搜索引擎可以“学习”哪些词之间有联系,哪些概念之间有联系。例如,运用LSA,搜索引擎能够分辨前往动物园的旅途活动,经常包括观看野生生物和动物,可能是一次(旅行)的一部分。
Google将相关词显示为黑体,并且能够辨认出哪些词在它们的索引库中经常同时出现(连在一起,在同一页或比较靠近的位置)。
在SEO培训优化中某些形式的LSA计算成本太高。这些应用使我们认识到搜索引擎怎样分辨网上词汇、词组以及概念之间的联系。随着语义联系成为搜索引擎算法越来越重要的部分,可以预期,页面、网站和链接的主题将会越来越受重视。未来搜索引擎将更有能力理解概念和主题,分辨哪些内容、链接、页面与整个网站的主题不太吻合。