Archive for the ‘ 搜索引擎原理 ’ Category

十二
21

首先,了解一下什么是爬虫?
爬虫(被称为网页蜘蛛或网络中的机器人)是搜索引擎最核心的一部分,是搜索引擎利用爬虫进行页面收集与分析的重要工作。

这下我就给大家讲解一下我对爬虫的了解及假象和近期的实验总结。

爬虫的任务:

1,收集URL并给出反馈值。
2,抓取页面信息。
3,归拢、归类URL地址池,保存到搜索引擎库,待预处理。
4,地址池的归类。
5,进行计算及分析处理。
6,循环地址池并更新查找出最新的URL,直至没有出现新的URL。
7,对页面url的重要程序进行排序。

这里基本都是我本人的个人理解与发现,其实这只是很笼统的讲解,还需细分化,那我对爬虫的假象也有几点,如:爬虫可以跳出循环、爬虫可以计算字节、爬虫可以把抓到的URL归大项等等。

近期小黑做的SEO实验就说到这,如果有需要更深入的了解和分析,不妨加入我们的QQ群一并讨论,让搜搜引擎不在神秘,让大家更了解搜索引擎。

最后一句话是给在做SEO朋友的,SEO并非容易掌握,只有深入研究探索与发现才能使你进步,否则都是无用功。

22

这次主要梳理一下搜索引擎的结构与它的系统流程,相信这次的分享会对更多的朋友加深对搜索引擎流程化的认知和理解,这篇文章完全由我小黑这两年的摸索、实践和阅读所整理出来的,希望大家能够喜欢。

我忠于搜索引擎的技术,也非常喜欢它丰富的传奇色彩,更广为人知的庞大数据,和用户对互联网上数据量的分解。据了解,中国目前的互联网数据量已经超过5EB也就是5的9次方TB,如此庞大的数据,搜索引擎是如何进行准确而又快速的展现给用户,这就是本篇文章的由来,让我们一起摸索搜索引擎浩瀚的海洋。

我个人比较喜欢Yhaoo!的目录索引结构,目录清晰,分类明确,而且能够快速的进行查询,大家可以看下图:

yahoo目录结构

 那么每天几亿次对搜索引擎频繁压力的操作,而搜索引擎会如此坚固,所以今天我们来绘画一张搜索引擎架构的示意图给大家看下,如下图:

搜索引擎系统架构示意图

  Read the rest of this entry »

让搜索引擎收录更多的页面,保持增加的趋势,确实是让人非常头痛的一件事。这几乎是一件不可完成的,但是我们可以乐观的去面对,贵在坚持。
这里我要讲几点重要的搜索引擎收录原则,当然也会举例子给大家看,我是如何做到的。我不得不说这是非大规模的seo探索工程,因为我运用了很多方法,才足以证明现在的结果。
首先,我要弄清楚robots文件中的陷阱,目前很多开源程序里面带有robots.txt文件,不知大家是否去看过,是否是直接禁止了bot爬行。什么是robos
其次,内容的连贯,与重点的突出来带动全局,这点也是新的突破,只有内容的不断完善与增添,才能持续收录你的站。搜索引擎服务商会编制索引规则,再次进行爬取数据。
再者,建立有效的蜘蛛爬行通道,只有顺利的通过,才能保证收录的稳定。

Read the rest of this entry »

搜索引擎工作原理

Author : admin
十一
23

相信了解seo的朋友未必都了解搜索引擎的工作原理,但关于其原理的技术文章我已经写了不少了,正是大家对它工作原理的渴望,今天给大家初略的讲一些,在这里特别感谢关注沈阳seo的朋友。
搜索引擎工作原理基本分为几个阶段,如下:
第一阶段:首先是spider(蜘蛛),大家也管它叫机器人,完成第一步,爬行并跟踪链接页面,得到文本页面(如:html、txt、pdf、word等)并保存这些重要的数据,整理成数据库,这就是收集数据的阶段。
这里讲一下spider爬行的基本方式,互联网形成了一个网,这个网就想蜘蛛织出来的网一样,每跟丝都会连载在一起,组成一个庞大的网络。而搜索引擎派发蜘蛛的同时,会进行跟踪spider爬取url的路线,并记录处理重复的路线。只要时间允许,蜘蛛机器人可以爬到任何页面。对于新站,一般大家会进行提交url或交换链接等,等待搜索引擎的收录。
第二阶段:文件处理,称为预处理。搜索引擎会根据蜘蛛爬取来的数据进行预处理,首先要过滤掉代码(html、div、javascript等),提取重要的文字信息,但会保存重要的有利于排名的标签(meta、title、alt等)。并对文章里面的文字进行中文分词、指纹特征验证、删掉文章内不需要的字词(比如:的、地、得)。然后进行正排、倒排处理,链接网处理(pr)等。
第三阶段:用户阶段,用户进行搜索关键词,这也是我们能看到的最后步骤,在输入框里面写入关键词,进行搜索并展现给我们。
这里包含一个重要的技术,也就是文字匹配触发技术。当我们输入错误字词的时候,搜索引擎会根据此词的搜索频率或字词的相关性进行重新整合,也就是所谓的纠错功能。 Read the rest of this entry »

Locations of visitors to this page