伪原创也能受到百度的青睐,只要做到这一点!

我现在每天业余时间的1/5在维护自己的好几个新网站,其中一个是元旦后上线的小网球 tennis.kuashou.com 。并不是有特别明显的目的,主要是想测试一下现在的seo功力还剩几成并且沉淀一些有权重的网站,以后有想法时可以跳过百度的观察期。

从花了几个小时开发完上线到今天大概是一个半月,从目前的成绩来说超乎我想象。

最近的两三天,百度开始比较频繁的收录我每天新转的文章,平均一天能有10篇左右,占了每天更新文章的1/2到1/3。

通常如果是新站,对百度来说会有一开始提到的一到三个月的观察期,但是很高兴的是我一个二级域名的新站居然能在一个半月后正常收录(而且事实上并不是说过了观察期就能收录)。

小小总结这一个半月的开发迭代的工作。

上线

一开始挑选2、30个垂直行业里的头部微信公众号,爬下总计约3万篇历史文章。找了个模版修改下就上线,这个时候仅有首页和文章详情。

首页是文章聚合页,展示最新的文章,利于爬虫抓取。

文章详情页完全照搬公众号的文章详情,甚至连html都90%相似。

每日的维护工作是当几个公众号有新推送的文章,我就争取尽早抓下来。说是尽早而不是第一时间,是因为抓取工作不得不需要人工介入(手机简单点击)我只能看到更新时才去操作。

当然也少不了提交百度,提交网站地图。

这个阶段的大约三天,百度就收录首页,开始了漫长的观察期。

增加频道页和文章详情页,以及锚文本链接

单纯的文章详情页并不能支撑起一个站,我于是加了两类频道页。一个是每个公众号提炼出来做一个页面,二个是利用3万多篇文章的标题做分词统计,挑选出权重高的关键词作为tag页(数量100左右)。

增加了tag页,很自然的就可以自动在文章详情里用正则匹配做上大量的锚文本链接,让整个网站形成一个错综复杂的网络给爬虫四处遨游。

不过目前看频道页到今天还没有收录,并且直到一个星期百度都没收录任何内页。

增加关联文章

利用上一步的tag加算法,在每篇文章下方都带上相似的文章,类似于“你也喜欢”,同样是给爬虫的访问提供了便利。

做这次迭代发生在大约上线第3周,而在第2周开始百度以极缓慢的速度在收录文章(并非新的文章),大约是一到两天收录一篇,且这时候直接把标题复制到搜索框并不能在前几页看到,证明是给了很低很低的权重。

增加友情链接

一方面做了相关的若干个副网站(不同的域名)链到这个主站,二方面去了两个站长平台交换了几个友情链接。

这个时候才做友情链接是因为已经有了10条以上的收录量,可以换一些比纯新站(不收录或收录1)的友情链接。

改标题

如果是完全使用微信公众号的文章标题,极容易判断是低质量转载,于是我做了个工作:每次爬下来的文章,自己去设置一个自定义的标题再展示。

改标题是比较初级的“伪原创”,事实上5,6年前我还会做些譬如更改段落、重写首段和尾段的工作,然而因为我每天业余时间要写一篇文章,做些外包单,自己长期维护的项目,实在也不可能再分配时间在这些略为耗时繁琐单个收益不高的操作上,索性点到为止。

虽然仅仅是标题的更换,还只是部分更换,但是慢慢的整站的权重有了提高。百度每天的收录逐步到了3-5篇,很是欣慰。

说到这里,除了以上讲的迭代,我还对该站做了不少的web性能优化,提高用户体验的工作。当然了,仍然也还是个很不完美的产品需要持续维护优化。

总结:应该说我是很满意这个站的实操过程和结果,相比起同时维护的我的个人博客网站 sxg.kuashou.com ,效果好太多,我之后也会介绍那个站的实操经历和总结。

经过一个半月以来的操作,我大概能判断出这是培养垂直行业网站的路子。

虽然我是直接转载(最多更改标题),不过由于微信使用robots禁止百度的抓取,以致并没有真正的“原创”,第一梯队的高权重来源是公众号同步更新在其他自媒体,包括百度自己的百家号、搜狐号、头条号等,而第二梯队也是和我同样抓取信息到自己网站的信息网站,有一些运营时间久远权重很高,但是同样会有抓取不及时的情况。

所以我这个站的目标就是争取全面提升收录量(万级),使每篇文章的长尾都能挤进第一页第二页,在海量的收录下也能保证获得一些流量。