长期致力于网站制作和关键词自然排名 点击拨号 400-850-1200 |
当前位置:网络营销 |
太原网站建设公司实例分析中文分词技术 |
时间:2011-06-03 18:25:24 浏览量:7581 |
最近有客户问飞扬动力的站点除了把“太原网站制作、太原网站建设”等词做上首页,如何也把“山西网站建设、山西网络公司”也排在百度首页或第二页的。所以借着这个契机,跟大家聊聊百度的中文分词技术,也都是自己的一些理解,有更多的想法欢迎交流。 做优化的都知道,搜索引擎工作原理中有一步预处理,将抓取的页面进行几道工序处理下,为之后的排名机制做好初步准备。在预处理过程中,就有分词这一道技术工序。英文是以一个单词作为基本单位,单词之间用空格分割连成一句话,中文是以字为单位中间没有连接符成为一句话。所以,中文分词与英文分词差别很大。而从现有的搜索引擎特别是百度的中文分词研究表明,主要是基于词典匹配和基于统计。 1、基于词典匹配是指将目标词或句与已有的词典中的词条进行匹配处理,扫描之后匹配成句、词、字形式。 (1)按照扫描方向不同,可分为正向匹配和逆向匹配。 (2)按照匹配长度优先级不同,可分为最大匹配和最小匹配。 (3)按照扫描方向和长度优先混合匹配,可分为正向最大匹配和逆向最大匹配等。 2、基于统计是指分析大量数据样本,扫描计算出字或词或句出现的统计概率,几个字乡邻出现越多,就越能形成一个词,同样的可以形成句。 基于词典匹配准确性是取决于词典的完整性和时效性,速度很快。基于统计的分词方法更为灵活,同时有利于消除歧义,但速度较慢。搜索引擎的中文分词往往是将这两种分词技术糅合在一起使用,以提高速度和准确性。这是我们所说的中文分词技术,那么同样的基于这些中文分词技术,我们要最大化利用,回归太原网站建设上,谈谈飞扬动力对中文分词技术的应用和揣测。 1、举例:从关键词“太原建站”会被拆分为“太原”+“建站”,“太原网站推广”会被拆分“太原”+“网站”+“推广”或者“太原”+“网站推广”或者“太原网站”+“推广”等形式。这种分词可以很好的理解,并在我们的站点中得到广泛的应用。百度搜索“太原建站”前20个结果页中只有一个不是完全匹配,“太原网站推广”前20个结果只有四个不是完全匹配 2、从关键词“山西SEO”可以拆分为“山西”+“太原”+“SEO”或“山西太原”+“SEO”或“山西”+“太原SEO”,但是这里可以基于统计拆分为“山西SEO”+“太原”。依此,飞扬动力的标题就能拆分为“山西”+“网站推广”、“山西”+“网站优化”。从效果上看,有这几点因素: (1)有个主次之分,将竞争力大的词放一起,竞争力小的词进行组合拆分。飞扬动力主做“太原SEO”,分词“山西SEO” (2)站点中要出现拆分过的词,如“山西SEO”等,这是在提醒搜索引擎是这样的分词,还可以将它们加粗、反显、锚文本等突出分词效果。 (3)在外部链接或友情链接建设过程中,除了主做关键词外,还要做拆分的词。 3、现在还有一种观点就是搜索引擎逐渐做到去模拟中文语法,去理解句子。“山西太原SEO-太原网站推广-太原网站优化”完全可以拆分为“山西SEO”+“太原SEO”+“山西网站推广”+“太原网站推广”+“山西网站优化”+“太原网站优化”。当然汉语的博大精深,目前的机器语言还是很难做到基于理解的分词技术。 |
太原网站建设:山西美炫互动科技有限公司 |
地址:太原市长风西街62号长风世纪广场C-1603 |