更新时间:2010-10-29 17:38:10 浏览次数:2976
搜索引擎机器人
新站点不需要“提交”到搜寻引擎才能登记上市。一个来自于以建立好的、其他站点的简单链结就会让搜寻引擎拜访新站点,并且开始‘爬’过该站内容。它可能得花几天甚或几周从这样一个已建立站点取得连结,并使所有主要搜索引擎开始拜访并索引新站点。
一旦搜索引擎发现了新站点,它一般将拜访和开始索引该站,直到所有标准的超连结被链结的页索引到为止。只能透过Flash或JavaScript才能拜访的链结可能不会被蜘蛛机器人找到。
当搜索引擎的蜘蛛机器人爬过一个站点时会取决相当数量的不同因子,并且该站的许多页可能不会被索引到除非它们网页级别、连结、或流量增加到一个程度。从站点的根目录到该页的距离,以及其它比重考量,也许也是决定是否该页得到检索的因素。Cho et al.(Cho et al. 1998) [6] 描述了哪些页会被拜访、哪些会收入搜寻引擎索引的决定标准。
网站员可透过在网域根目录里标准robots.txt档案指示蜘蛛机器人不索引某些文件或目录。标准的实现要求是搜索引擎在拜访这个网域时参考这个文件,虽然搜索引擎的蜘蛛机器人当它拜访某站点网页时将保留这个文件的快取拷贝,并且更新速度没像网站员那么快。网站发展人员可能使用这个特性防止某些页,譬如购物车或其它动态、特定使用者的内容出现在搜索引擎结果中,并且防止机器人进入死循环和其它机器人陷阱。
对于某些有偿提交的查寻引擎(像雅虎),支付象征性费用提交也许会节省一些时间,虽然雅虎有偿提交方案不保证提交人/公司包括在他们的查寻结果中。
云南网站建设|云南网站推广首选品牌服务机构—昆明58同城网
编辑:红烧鱼