返回列表 发新帖

技术爱好者带你改善网站收录的质量

[复制链接]
灌水成绩
735
主题
754
帖子
5077
积分
等级头衔
积分成就
  • 威望: 0
  • 贡献: 4323
  • 金钱: 0
  • 违规:
  • 在线时间:255 小时
  • 注册时间:2019-3-9
  • 最后登录:2019-10-20
个人勋章

官方

联系方式
QQ
发表于 2019-10-5 22:19:51 | 显示全部楼层 | 阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?注册

x
怎样改善网站收录,首先要肯定一个网页能否收录与什么要素有关系。

第一、网页能否被爬虫爬过
第二、网页的内容质量能否过关

肯定了这个我们就要看一下网站的收录率,也就是你发了几篇文章收录了几篇,收录比例是怎样样的,很多网站都懒得去做这个指标,“我看看site的数据不就行了!”,事实上没有这个指标,很多工作就无从下手。从数据中找出问题,应用数据指导处置方案,分析数据考证工作成果。 《深化浅出数据分析》这个本个人觉得非常不错,把数据分析的方法讲得很生动,建议有兴味从事数据分析的同窗可以买来看看。

任何数据分析都是由 目的->分析->评价->决策,四个环节组成。
目的:我们想看一下网站的收录情况如何,在SEO方面能否还有进步的机遇。
分析:收录情况什么算好什么算坏,是不是用一些指标来权衡?网站的收录情况是不是过于笼统,是不是应该细分下各个页面的收录情况?
评价:于是我们需求下面一些数据,网站的页面层级关系


各个层级页面带来的SEO流量
各个层级页面的收录情况如何
SEO流量的占比可以从Google Analytics中过滤出来。页面数量可以从数据库获得,或者经过火车头or自制小脚本抓取统计。
收录率可以将获取的页面经过工具中止搜索,火车头也可以。 问题立马凸显!
1+2级目录页带来了大量的流量,收录率不是很好,优化收录的流量提升突破口在此!产品页面数量很多,收录也不是很理想,但是带来的流量有限,除了收录问题,还有页面内容的问题,本文中先不管它了。

决策:我们的结论是立刻展开行动对目录页面中止收录的优化。
看到这边,似乎刚开端的目的:“经过优化收录提升流量”,演化成了新的目的:“如何进步目录页面的收录量”
这边能不能再次经过数据分析的方法中止SEO呢?
答案是肯定的!
我们再来重新走一遍 目的->分析->评价->决策 的过程
目的:进步目录页面的收录量

分析:经过本文开端的有关收录的两个要素,我们需求检查一下,网页能否被爬虫爬行过,网页的质量是不是过关。
1. 关于爬虫的情况,我们需求分析日志,才干肯定。于是我们从日志中拆分一系列数据看看页面能否真的被爬行过。
2. 由于页面质量似乎是一个很难权衡的值,于是我们可以用相同模板下的:
已被爬行的页面数量/已被爬行并且被收录页面数量来评价该模板页面质量对收录的影响大小。假设被爬的页面都被收录了,那至少说明这套页面的内容搜索引擎还算认可。(理论情况远比这个复杂,而且收录后也有可能由于质量问题被删除,但总比什么参照都没有要好,对吧!)

评价:(敏感信息用编号替代,均为真实数据)
先看一下爬虫日志的情况,经过Shell脚本,我们可以分析出。
目录合计被爬行的次数为13000次左右
不重复的目录爬行次数为5500次左右
频道A下的目录几乎被100%抓取过至少1次,频道B的目录抓取也不错,有70%被至少抓过一次。
其他频道下的目录被抓取的掩盖率不到30%
不要觉得这个结果很神奇,其实很多网站都会面对这样的糟糕问题,只需你把数据不时的细分,细分,再细分,总会观察出一些端倪的。

关于日志分析,不要迷信任何的日志分析软件,那都是给懒人用的,自制脚本+Excel才是霸道,可以拆分显现出任何你想要的数据,当然,以致可以连Excel都不要。
然后,我们统计了一下被抓得最频繁的频道A和频道B,的收录情况就让人比较担忧了。
决策:经过上面的数据评价,我们曾经得到了如下结论。
页面质量并不是影响收录的缘由, 频道A,B的抓取量异常的高,经过调查了解,原来是首页上的目录页,显现的全是频道A下的目录页,首页又具有全站最高的权重。频道B具有比其他频道强大的外链资源,权重也非常高。
除了A, B频道,其他频道的抓取情况不容悲观,抓取入口太少,太深,进而影响了收录情况。
很明显,往常频道A从站内的角度来说太强大了,必需中止一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需求给爬虫提供更多的入口抓取频道页。

往常问题变得明晰起来,我们开端把工作分红两部分:1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。
提供入口工作:
1.把目录页的URL制形成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权重。
2.完善面包屑导航,将面包屑导航划分得愈加细致,以提供更多入口
3.在其他产品中举荐目录页

  资源平分工作:(一些概念:恣意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面相对入口越浅,被抓取的概率越高。)
1.原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,经过频道页再进入目录页(其实这个不算太重要)
2.原先频道页指向自身的产品页,将其全部nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页)
3.从目录页返回到首页的链接,将其全部nofollow。
4.减少一些页面上无关链接。(什么情况下这么做都是非常有效的。)

往常可以开端动手了……
成果
这么做到底有什么效果呢,我们来看看修正后1个月后的数据。
目录页的收录率进步了100%!产品页的收录率也有一定程度的进步,这是归功于目录页关于产品的良好展现。
目录页的SEO表现:SEO流量占比上升了15%,增长10%的到访关键词数量(新页面的收录)
SEO流量增长了50%以上。(包含一些时节要素)
备注:
1.除了收录,排名也是问题,可以同步关注。目录页的收录率
频道A和B是很让人放心的,说明页面质量没问题,但是余下的收录情况就让人比较担忧了。
决策:经过上面的数据评价,我们曾经得到了如下结论。
页面质量并不是影响收录的缘由, 频道A,B的抓取量异常的高,经过调查了解,原来是首页上的目录页,显现的全是频道A下的目录页,首页又具有全站最高的权重。频道B具有比其他频道强大的外链资源,权重也非常高。
除了A, B频道,其他频道的抓取情况不容悲观,抓取入口太少,太深,进而影响了收录情况。
很明显,往常频道A从站内的角度来说太强大了,必需中止一些“劫富济贫”的运动来降低频道A的抓取量,转移到其他频道中去。同时,需求给爬虫提供更多的入口抓取频道页。

往常问题变得明晰起来,我们开端把工作分红两部分:1.提供更多的入口 2.将资源平分给各频道而不是集中在少数几个频道上。
提供入口工作:
1.把目录页的URL制形成sitemap。提交给搜索引擎,并且将其设置为比较高的抓取权重。
2.完善面包屑导航,将面包屑导航划分得愈加细致,以提供更多入口
3.在其他产品中举荐目录页

  资源平分工作:(一些概念:恣意页面都有可能成为爬虫入口,百度爬虫抓取深度有限,页面相对入口越浅,被抓取的概率越高。)
1.原先首页指向的都是频道A的目录页+产品页,将其全部nofollow,确保从首页进入的爬虫,全部抓取到频道页,经过频道页再进入目录页(其实这个不算太重要)
2.原先频道页指向自身的产品页,将其全部nofollow(确保从频道页入口的爬虫,最大程度的抓取目录页)
3.从目录页返回到首页的链接,将其全部nofollow。
4.减少一些页面上无关链接。(什么情况下这么做都是非常有效的。)

往常可以开端动手了……
成果
这么做到底有什么效果呢,我们来看看修正后1个月后的数据。
目录页的收录率进步了100%!产品页的收录率也有一定程度的进步,这是归功于目录页关于产品的良好展现。
目录页的SEO表现:SEO流量占比上升了15%,增长10%的到访关键词数量(新页面的收录)
SEO流量增长了50%以上。(包含一些时节要素)
备注:
1.除了收录,排名也是问题,可以同步关注。
2.关于频道A这样特殊情况,以致可以对其中止全屏蔽,但是技术上完成起来会略微省事。

温馨提示:
1、在论坛里发表的文章仅代表作者本人的观点,与本网站立场无关。
2、论坛的所有内容都不保证其准确性,有效性,时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
3、当政府机关依照法定程序要求披露信息时,论坛均得免责。
4、若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失,论坛不负任何责任。
5、注册会员通过任何手段和方法针对论坛进行破坏,我们有权对其行为作出处理。并保留进一步追究其责任的权利。
6.添加QQ群随时获取新消息QQ群号:831240632

帖子地址: 

回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表