对于网站收录的概念,互联网中或者搜索引擎中已经有大量的相关定义。网站收录,指的是爬虫爬取了网页,并将页面内容数据放入搜索引擎数据库中这一结果。
页面好,内容也原创,为什么百度就是不收录?怎么加快网站收录?为什么网站收录很慢?伪原创内容能不能被收录?
大家对于网站收录的诸多疑问,只需看这这篇文章就够了!
因为大家问的比较细,所以我们对咨询的问题进行了简单地总结,大家可以对号入座看看自己有没有遇到这方面的问题。
●网站做了好几个月了,但网站内容一直都不收录;
●网站文章收录速度参差不齐,有些当天就收录有些好几天才收录;
●为什么开始有收录,后来又不收录了?网站收录慢的原因是什么?
●网站内容怎样才能被百度快速收录?如何提升网站收录率?
我们说的网站收录,其实也拆分成两种情况:网站收录和网站内容收录。
1、网站收录
网站收录一般指的是新网站收录,涉及的因素有很多包括服务器、网站页面、网站架构等等。
对于网站收录的概念,互联网中或者搜索引擎中已经有大量的相关定义。网站收录,指的是爬虫爬取了网页,并将页面内容数据放入搜索引擎数据库中这一结果。
2、网站内容收录
网站内容的收录,这个针对的主要就是网站文章内容本身而言,虽然范围相对来说比较小,但也同样重要。
还是按之前的惯例,先用一张思维导图让大家快速了解本文的内容。
一、为什么网站没收录?
1、蜘蛛抓取频率决定网站收录情况
我们首先来了解一下网站收录的问题,很多小伙伴可能觉得自己的网站不错,网站页面好布局得当,内容也是原创,但网站收录就是不行。这一点要跟大家说一下,虽然网站页面确实会影响收录,但真正对网站收录有一锤定音的是蜘蛛抓取频率。
蜘蛛能爬取任何页面的前提,是要有入口。假设一个页面没有入口,就是我们俗称的孤岛页面,那么蜘蛛是无法爬取到的。我们在建设网站之初,就要考虑为蜘蛛留有足够的入口。具体包括:网站导航,网站地图,百度站长主动推送,外链发布,面包屑导航,站内相关推荐,上一篇下一篇,内容页内链锚文本等。
当蜘蛛抓取的频率越高,意味着网站的收录更多更快。举个很简单的例子,你发现一家很好的店铺,有事没事就想去逛逛,逛得越多就发现更多实惠的商品,然后来的次数就更多,这是一个正相关的递进效果。反之,如果网站的蜘蛛抓取频率过低,就会像一家无人问津的超市,即使东西再好再便宜,也卖不出去。
2、蜘蛛抓取原则
那么,如何提升提高蜘蛛抓取频率呢?这就需要知道,蜘蛛抓取的原则,以及哪些因素会对网站收录有影响。百度蜘蛛,相信大家对它不陌生,蜘蛛是通过索引抓取网站信息,然后对内容进行筛选判断是否符合规则索引入库或排名,最后对优质和合格的内容进行收录。那么,百度蜘蛛抓取的原则是什么?
可以从蜘蛛访问的路径入手分析。
(1)访问robots
robots是蜘蛛访问网站的第一位置,如果robots文件禁止了百度蜘蛛抓取,那么蜘蛛会头也不回地离开网站,更别谈抓取了。
(2)网站地图
如果ROBOT文件有网站地图的话,蜘蛛会抓取网站地图文件。
(3)访问首页
当网站没有robots文件,或者没有禁止蜘蛛抓取的话,它就继续逛网站,这一次就来到网站首页,同时会对网站的URL进行分析,然后再进行抓取。
(4)链接引导访问
我们网站的链接就像一条条四通八达的公路,可以引起蜘蛛访问下一个页面并进行抓取,这也是为什么网站及内容都要设置链接的原因,蜘蛛就是通过以上路径访问页面进行抓取,我们需要对以上因素进行优化,才能提高网站收录。
二、如何提高网站收录?
1、网站及页面权重
高权重网站就相当于是VIP优质客户,经过层层筛选过滤出来,门槛和条件本身就比较高,对于这类网站,很多时候会直接收录而且访问抓取层级也会更深,因为东西好嘛,所以原因多花点时间。
这也是前面小伙伴咨询的关于网站的内容收录比较快的问题答案,想要提高网站权重,关键词、优质内容、外链这些都是需要去做好的,但这个不是今天分享的重点,就不多说,感兴趣的小伙伴可以私聊。
2、检查robots文件
刚刚我们也说了当蜘蛛首次爬行网站时,会优先爬行这个文件,一般来说robots文件是放在站点的根目录位置的,如果不是在这个位置,蜘蛛需要爬行所有文件,就会增加很多工作量。
所以如果收录有问题的话,需要我们检查一下,文件位置以及网站首页和其他页面栏目有没有设置屏蔽抓取。
3、网站服务器
用户对网站的第一印象就是网站的打开速度和体验程度,而百度蜘蛛其实也是一个访客,如果你的服务器经常都不稳定,蜘蛛过来要么打不开,要么加载很慢,一个页面需要花更多的时间去抓取,时间长了,对你的网站印象不好,肯定会影响抓取,进而影响收录。
关于网站服务器的问题,我们在上一期网站排名下降分析中也有提到,(对网站排名有疑问的小伙伴可以看看:网站排名又下降了?教你快速分析重获排名!)。
网站服务器的问题大家一定要重视,不然你可能发现自己投入了大量的时间和精力去做网站优化和内容创作,最后却败在服务器这种硬件设备上,这也太亏了。
4、网站结构
网站架构如同网站的路标,一定要清晰明了且指向明确,不管是对于用户还是蜘蛛而言,如果网站结构过于复杂,都是非常不好的体验,网站架构太过复杂,用户搜索信息难度过高,体验不好,蜘蛛进来像走迷宫,抓取不到太深层的页面。所以,网站结构不能太过复杂,层次架构简单清晰很重要,以扁平化的结构为佳。
5、网站程序
有些网站程序会制造大量的重复页面,这可能是一个页面对应很多URL造成的,网站重复内容过多,就相当于产生了很多无意义的页面,可能会造成网站降权,降权肯定会降低蜘蛛的抓取的,所以需要保证一个页面对应一个URL。
6、网站地图
网站地图不是我们平时说的公司地址导航地图,但意义一样,网站地图可以加快收录速度,不过如果是新网站没什么内容,就不需要做,另外还要避免产生死链接、404页面。网站地图的制作方法有在线生成和软件生成、插件三种方式,相对来说在线和软件会稍微麻烦一些,插件比较简单,比如选择织梦XML、百度XMAP,生成后然后再去百度站长平台提交就可以了。
7、首页建设
网站首页是整个网站权重最高的页面,也是蜘蛛来的最勤快的页面,所以在网站首页设置更新版块很重要,不仅有利于蜘蛛快速抓取新页面,也能用户快速了解到更新的内容,比如增加最新文章版块,或者文章更新后直接在首页展示。
8、网站内容
网站内容包括内容的原创性、价值度、更新频率这几个方面,蜘蛛是很喜欢原创度高的优质内容的,而且经常更新而且稳定更新,那么,蜘蛛就会根据你的更新规律及时抓取,这样文章可以被快速抓取,蜘蛛也不会白跑一趟,每次都有收获,那蜘蛛来的频率就更高了。
9、外链建设
外链在SEO优化中一直都有很重要的作用,而且对于新网站来说,外链不仅能吸引蜘蛛还能为蜘蛛指路,防止找不到页面。但是需要质疑外链的质量,如果不好的外链只会适得其反。
10、内链建设
链接是蜘蛛在网站的指路牌,所以合理的内链设置可以让蜘蛛访问抓取更多的页面,增加网站的收录量,比如文章内容中增加内链,不过需要注意与文章内容的相关性,需要和文章的关键词高度符合,建议选择排名较高的链接,可以带动排名。
另外也可以在内容底部设置相关推荐,在页面设置热门文章等不同的版块,让内链更加丰富多样化。
当我们把影响蜘蛛抓取的因素全都优化好,网站收录就高枕无忧了吗?不是的,我们在开篇中也提到了两种收录,网站收录和内容收录,蜘蛛抓取频率可以很好地解决网站收录的难题,但说到内容收录的问题,还需要大家再多花一点心思。
网站内容是需要我们长期维护更新的一个方面,4月百度也发布了《百度搜索优质内容指南》,可见优质内容是需要各位小伙伴重视的一环。优质内容其实还可以拆分成原创和伪原创,虽然我们一直说百度蜘蛛喜欢原创的内容,但研究发现如果原创度有超过80%且具有高价值的伪原创内容,百度蜘蛛同样是会收录的,因为内容的价值比内容是否原创更重要。
原创内容相对来说创作成本和门槛都比较高,需要长时间的打磨和专业的积累,但伪原创还是有一定的技巧和方法可言的,所以重点来说一下伪原创内容应该怎么创作。
三、如何通过伪原创提升网站内容收录?
1、降低文章相似度
建议先确定文章立意及角度、分析侧重点等方面去提炼修改,再增添其他论点论据,同时还可以加入自己网站及产品的相关元素,让文章产生差异化。
2、修改具体内容
(1)文章标题
标题出现关键词要比在文章正文中出现的效果强很多,所以在明确素材之后,可以先可以提炼出关键词,然后在拟定标题时,放在合适的位置,搜索引擎抓取是从左往右的,所以可以将关键词前置,比如“网站优化怎么做”会比“怎么做网站优化”效果更好。
对于标题的优化,之前在百度优质内容中有进行详细的分享,想了解的小伙伴可以看看:【干货】如何写出百度搜索喜欢的内容?这3大方法,你知道几个?
(2)关键词
可以在文章关键词设置内外链,建议选择排名好的链接,这样可以带动新文章的排名,加快收录。
(3)摘要
在摘要中可以植入文章的核心关键词,当用户搜索目标关键词时,在摘要要出现的关键词会飘红,可以引起用户的注意,增加用户的点击,加大被收录的概率。
四、善用工具,提升网站收录量
不少小伙伴吐槽过,为什么有些网站看起来似乎没有逻辑可言,内容胡乱堆砌也被收录,甚至有些明显是采集的,而且文不对题居然都能被收录,说的义愤填膺,愤愤不平。对此,只能说任何平台都不可能十全十美,加上百度平台的信息量是海量指数级的,肯定会有一些特殊案例,但是不用担心,百度迟早会将这些“有心之人”统一处理,不然也不会一直增添新算法。