Posts Tagged ‘ 倒排 ’

seo工作者会经常提到分词技术,那么高级的分词技术及原理,今天我给大家讲解一下。
对于分词技术可以想象,我们把一句话或一段文章分成若干的词语,我们常用的汉字量大约有7000-8000左右,但词汇量会达到几万个关键词。
一篇文章中会出现几万个词,到底搜索引擎是如何进行分词、切词、组词的?这里有点扩张的讲一下,每个关键词是4个字节,那么可以想象一下,出现好几万个词,会形成多大的信息量,如果进行数据压缩,搜索引擎又是怎么做到的?带着种种疑问,我们开始探索分词及倒排技术,这里我提到了一个新的名词,【倒排】使用倒排技术有一个非常大的不足就是存在大量的垃圾数据,这就是非常多的人为了研究倒排索引中的数据压缩和之一引的原因之一。基本的信息检索我在之前的文章中已经提到了,请大家看“中文分词初级技术”我们在搜索引擎中进行搜索关键词的时候有些时候会找不到我们想要的东西,或者根本就搜索不到,那就是不符合查找者的意愿。在此之后搜索引擎为了屏蔽这些有害于用户体验的行为,创建了关键词表。这是个重大的发明,有了关键词表,我们可以根据不同的词汇让搜索引擎引擎更准确的去检索有价值的信息内容。关键词表里面还有加入临时关键词,这样的组合就会实时更新关键词的丰富性,它会判断这个词的试用频率及广泛的代表应用,并逐一的加入关键词表中,这个算法,是根据它设置的初始值来取决。
分词的一些高级应用只是用于创建关键词表单,来对用户进行索引时发出的指令,下次的文章我会讲有关于网页特征的算法极其规律,让更多探索seo的朋友充分的去了解搜索引擎的工作原理,只有了解其内部构造及原理,才能充分的展现你的才能,为seo做出贡献。

Locations of visitors to this page