搜索引擎原理-隐含语义索引LSI-搜索引擎原理

一 : 隐含语义索引LSI-搜索引擎原理

  有些事情我们一直在思考,比如搜索引擎是如何来判断文章的原创?文章是否有关键词堆积?那么搜索引擎又是如何来判断文章和关键词的相关性的呢?还有很多朋友都很疑惑的一个问题,因为大家都知道Google的排名算法PR,好像现在不起作用了,因为很多SEOER都跟我说,很多PR高的在某些关键词排名反而落后于PR值很低的站点。所以大部分的朋友认为是不是PR现在已经不起作用呢?

  很多朋友对上面的问题都很疑惑,到底为什么通过什么原理或者是什么机制来判断这些问题的呢?其实就是我们今天要讲的一个原理,叫做LSI(Latent Semantic Index)翻译成中文的意思就是隐含语义索引。

  隐含语义索引工作原理:

  当蜘蛛爬取并下载站点页面后,隐藏语义索引(以下我们检查LSI)把下载网页的所有单词制作成一个列表,然后就是将一些没有语义的单词过滤(比如停用词,过滤词等),然后再将站点所有的页面都做出单词列表。然后利用这些列表就可以做一个以页面(文档)为X轴,单词为Y轴的巨型矩阵。如果一个单词出现在某个页面,那么对于的页面位置我们标为1,反之就为0。这样就可以很清晰的看到每个单词在整站页面出现的频率。

  当然仅仅是靠这样是不能准确的技术的,那么LSI将引入一个关键词权重。1.关键词在页面出现的频率越高这个关键词在这个页面的权重就越高。2.就是整站关键词频率高的权重越低。

  LSI最重要的是可以算出站点某个关键词的相关关键词在其他内页的出现的频率。这样的好处就是即使你的某个站点页面未出现你搜索的关键词,也可能将相关的页面搜索出来。所以如果你做某个关键词排名还是把你所有的反向链接都用该关键词作为锚文本的话,那么你的反向链接的质量度会下降,就是LSI的作用。还有就是你站点页面做相关的长尾关键词相互提升其竞争力,就是因为他们的相关性。所以如果你还是用以前的方法来做优化,不做长尾关键词,不做相关性的话,那么你的站点关键词是很难获得很好的排名的。

  从上面的叙述的原理我们不难看出,为什么搜索引擎能够表现出这么好的智能,虽然LSI并不是理解某个单词的意思,但是他通过计算一个页面包含的关键词,并且参考其他网页所包含的关键词组成。所以LSI会得出一个结论,具有很多关键词相同的网页,他们的页面内容也是接近的。所以这就是为什么搜索引擎能够很多的判断伪原创和采集的页面的文章,所以你不要因为你改改标题,改改某些段落搜索引擎就不知道了。其实LSI就能够很好的判断。

  这就是LSI的智能结果。

  那么我们链接LSI以后我们再来回答文章开通的一些问题,前几个问题就不用回答了,关于PR值现在是否起作用的问题,我的回答是否定的。PR算法现在还是Google的核心算法,现在没有变,以后也只是不断改进,也不会变。那为什么会出现PR低的站点关键词排名还比PR高的排前面呢?你要知道PR的算法,Google计算一个页面的PR值是计算其所有的导入链接,包括内链。但是Google更加看重那些具有相关性网站和页面过来的链接,而对不相关的反向链接在最后计算网页关键词排名的时候不会起作用。但是这些不想关的反向链接在计算PageRank是还是有用的,所以就会出现这种现状。PR高的关键词排名排在PR低的下面。

  那么如何来分析反向链接的相关性呢?就是前面我们说的LSI。

  PS:搜索引擎并不是那么不可接近,他的想法也和站长是一样的,目的就是为了让用户有更好的体验。我们研究它并不是要去迎合他的口味。而是和搜索引擎一起去赢得用户的青睐。所以无论何时你都不要忘记站点用户体验 (UEO)转载请注明来源http://www.gangguanhb.com,谢谢

二 : 各大搜索引擎搜索原理及名称

搜索引擎蜘蛛是一个自动抓取互联网上网页内容的程序,每个搜索引擎都有自己的蜘蛛。(www.loach.net.cn)

搜索引擎蜘蛛也叫搜索引擎爬虫、搜索引擎robot。

国内各大搜索引擎蜘蛛名称:

百度:百度spider

谷歌:googlebot

搜狗:sogou spider

搜搜:Sosospider

360搜索:360Spider

有道:YodaoBot

雅虎:Yahoo Slurp

必应:msnbot

Msn:msnbot

以上是常见的搜索引擎蜘蛛(爬虫),如果你的网站不想让让某些蜘蛛抓取,那么可以通过robots.txt来限制爬虫的抓取。

重庆APP开发:www.appkaifa9.com

三 : 搜索引擎更新原理分析

在这之前咧,也有好些朋友通过QQ或者留言的形式问过我这个问题!所以我想每个人都解释,还不如把我知道的总结一下写出来供大家参考。
首先了解搜索引擎收录网站的原理,搜索引擎一般通过以下几步来收录我们的网站;
1、抓取
这就相当于我们的网站在其他网站有一些链接。不管是百度还是google他们的探测器都是不断的发现新的内容,并进行实时更新。也可以理解一个成功的高质量外链。
2、保存
搜索引擎蜘蛛将收集来的网站集中到指定数据库进行储存,然后等待索引的处理。
3、整理
索引会将收集来的网页进行分类的整理、压缩,分类和压缩完成以后然后进行索引的编类,而未被压缩的原始网页资料将会被删除。
4、索引状态
搜索引擎会将压缩好的内容分别放在不同的索引栏目下面。
5、咨询状态
当用户在搜索引擎框输入搜索指令时,计算机会将用户问询的白话转化成搜索引擎能识别的计算机语言,然后从索引中找到相应更加符合的答案。
6、排名状态
搜索引擎会将相关的答案根据一定的标准进行排列给用户,同时搜索引擎也会将认为最好的答案被推荐到首位,较次的排列其后,以此类推。所以在这要强调一点,就是我们做站的是终目的是用户,而不是搜索引擎,要明白一点,搜索引擎也是在为用户服务。

以上六点中,最要强调的是第一点,也是最重要的,因为当搜索引擎在你网站抓取的内容越多,网站获得的权重越高。因为搜索引擎收录一般会认为的收到的第一篇文章就是原创,当这个网站来源是本身的时候,在搜索引擎自然就会有不错的表现。

其次如何让网站收录更快也是让人头痛的事,其实不然,只要我们在以下几点细节上稍加注意既可:
1、网站页面小,更容易抓取。
2、网站内部链接合理,更容易被抓取收录。
3、方便浏览者阅读。又是用户体验。
4、节省服务器的带宽

以上只是个人总结,仅供大家交流!

四 : 搜索引擎链接相关性原理浅析

  又说到了搜索引擎与网站制作优化方面的问题了,今天专门说说搜索引擎关于链接原理方面的东西,希望能对广大新手朋友有帮助.

  链接与搜索引擎的发展

  在很早之前,大概也就是在谷歌等大型专业的搜索引擎诞生的时候,那时候的搜索引擎往往是根据页面里面的关键词的匹配,根据关键词的相关性来进行排名的,大家应该可以想象到那个时候,大家看到的排名肯定是漏洞百出了。只要会做网站,在网页里面添加些关键词,堆砌一下,或者加入一些和网页内容完全没有关系的热门词,就能获得比较好的排名,而且还不是很难。所以,那个时候的网站制作对于排名方面很容易,完全没有现在的这么复杂的优化问题。现在,随着搜索引擎的算法越来越完善智能,搜索引擎排名就变得没有那么容易。现在的搜索引擎在链接上,增加了很完善的链接分析的功能,通过计算判断链接的相关性,这样就能减少很多垃圾的不相关的链接。主要也是为了提高用户的体验。

  链接对于图片视频搜索排名的应用

  现在的搜索引擎,在排名中计入链接的因素,增加相关性计算,这样也能够让传统的关键词没有办法进行匹配无法排名的文件能够被处理。比如图片,视频文件之前不容易进行关键词匹配,但可以通过链接进行分析,通过链接的信息,搜索引擎就可以对图片以及视频的内容进行排名了。所以,大家就能很方面的搜索图片视频方面的内容。大家在百度里面能看到,有一阵对不同内容搜索的分类,视频,图片,音乐,等等,这些在优化的时候,往往也是通过链接分析这些内容的相关性来进行的。很多网站制作公司目前已经通过针对视频,图片的优化获得了不少的流量。

  认识链接的相关性

  这里说起到了链接的相关性,因为搜索引擎的这个算法比较复杂,所以,这里不能以很具体的一个量来进行说明,只能以很抽象的文字来让大家了解链接相关性方面的问题,让广大新手朋友容易理解。搜索技术通过对链接大规模的内容分析,包括页面MATE标题,关键词,内容页面关键词密度,锚文本等进行分析,来判断链接内容是否相关。这也是为什么我们在一直强调找外链要找同行业的网站,内部链接的模块化等。

  很多朋友恐怕一直很想知道更多的链接相关性的问题,这个对排名的影响实在是没有办法进行直观的了解,不大容易通过数据统计等手段进行分许,因为没有人能够获得引擎关于链接的数据库,不能量化,很多时候,需要我们网站制作优化技术人员多观察积累经验了.

  本文来自:http://www.zwzsh.net

下页更精彩: 1 2 3 4
上一篇: 精油的正确使用方法-甘油是什么 甘油的作用和正确的使用方法介绍 下一篇: 一听就会爱上的英文歌-听歌学英语:听一遍就会爱上的歌 Light Your Fire

优秀文章