热搜:6KBBS6kbbs V8.0 官方论坛
当前位置: 6kbbs V8.0 官方论坛 » 站长交流 » 两种搜索引擎分词算法
帖子状态  
本帖子共有 685 位阅读者, 0 个回复.
  • 回复
1条记录

百度助手

幼儿园
帖子
金钱
魅力
威望
注册
2013-08-05 
百度助手 发表于 2013-08-05 16:58   
两种搜索引擎分词算法
21互联网的快速进展让人们生计越来越便利,当日益剧增的海量信息让我们目眩缭乱时,搜引得擎的出现可以让我们快速找到自个儿想要的谜底。故此多理解搜引得擎的分词算法,可以让网站在搜引得擎上得到更好的展出机缘。小脑袋百度助手在讲解分词技术之前,先来理解下全文检索技术。

全文检索技术

顾名思义是指引得手续扫描文章中的每个词并开办对应引得,记录该词出现的位置和次数。当经过搜引得擎查询时,检索手续就在记录的引得施行查寻并回返给用户。全文检索又分为基于字的全文引得和基于词的全文引得。基于字的全文引得会对内容中的每个字开办引得并记录,此办法查全率高,但查准率低,出奇是对于华文,有时搜索马克,会列出马克思的结果。基于词的全文引得是把一个词语作为一个单位施行引得记录,并小聪明理同义词。搜引得擎有自个儿的词库,当用户搜索时,搜引得擎会从词库中抽取网站关键词作为引得项,这么可以大大增长检索的正确率。

中文分词技术

一直以来大家都比较谙熟百度,百度有自个儿的华文分词技术。普通采用的涵盖正向最大般配,反向最大般配,最佳般配法,专家系统办法等。其中最大正向般配是最常用的分词解决方案,它采用 机械式算法,经过开办词典并施行正向最大般配对华文施行分词。举个简单的例子譬如搜索;竞价软件;,则回返结果众多都是包含小脑袋竞价软件,竞价软件等词语的网页,搜引得擎就是采用正向最大般配去判断,把竞价软件看做一个词语来引得记录并回返。当然,正向最大般配也有残缺性,譬如长度过长的词语,搜引得擎有时无法正确的分词,还是对前后都相互关涉的词无法正确分词。例如小脑袋竞价软件;,会被回返小脑袋、竞价、软件时,而有时我们想要的网站关键词是竞价。
众多时分百度都会依据自个儿词库中词语的权重施行拆分,权重的计算基于生计 方方面面,比较复杂,搜引得擎要做的就是回返用户最想要的结果,有时站长们做网站要站在用户的角度去考量问题,实则这也是站在搜引得擎的角度考量问题,不 管在确认目标网站关键词还是是长尾网站关键词时,都可以依据华文分词的原理来取舍,这么可以最大化的减损无用功。
本文由小脑袋百度助手整理提供www.xndjingjia.com
  • 回复
1条记录