防止抓取html代码,robots.txt只允许抓取html页面,防止抓取垃圾信息!

建站交流2年前 (2023-04-12)4171

今天我们代代SEO为大家详细的讲解下“robots.txt只允许抓取html页面,防止抓取垃圾信息!”代代SEO在做网站这么多年中,经常会遇到客户的网站被挂马的情况,原因是自己维护网站不利,或者用的是市面上开源的CMS,直接下载源码安装使用,也不管里面有没有漏洞和后门,所以造成了,后期被挂马入侵,产生大量垃圾违法页面被百度抓取。

被挂马的一些人很奇怪,为什么自己的网站正常发布的内容不被收录,但是垃圾页面违法内容却被百度大量收录,其实很简单,哪些挂马人员直接在哪些违法页面上,挂了蜘蛛池,所以就会造成这个问题,就算我们尽管解决了网站被挂马的问题,网站上的垃圾页面,还是不断会被百度抓取,死链生效也是需要很长时间,这个时候怎么办那?我们可以使用robots.txt来解决这个问题。

实现原理:

我们可以使用robots.txt限制用户只能抓取HTMl页面文件,并且可以限制指定目录的HTML,和屏蔽指定目录的HTML文件,下面做一个robots.txt的写法,大家可以自己研究下,实际应用到自己的网站上面去。

可以解决的挂马形式:

这个robots编写规则,就是主要针对上传类的挂马,比如增加xxx.php?=dddd.html;xxxx.php;上传也不会被百度抓取,降低网监风险。

#适用于所有搜索引擎

User-agent:*

#允许首页根目录/和不带斜杠、例如www.retao5.com/www.retao5.com

Allow:/$

Allow:$

#文件属性设置为禁止修改(固定属性,入口只能是index.html/index.php)

Allow:/index.php

Allow:/index.html

#允许静态生成目录的抓取,此处是允许抓取页面中所有的html文件

Allow:/*.html$

#禁止所有带参数的html页面(禁止抓取挂马html页面)规则可以自己定义

Disallow:/*?*.html$

Disallow:/*=*.html$

#允许单一入口,只允许,带?号的index,其他的html,带符号,一律不允许。

Allow:/index.php?*

#允许资源文件,允许网站上,图片的抓取。

Allow:/*.jpg$

Allow:/*.png$

Allow:/*.gif$

#除了以上的,禁止抓取网站内任何文件,或者页面。

Disallow:/

比如我们的网站被挂马,后戳一般都是。php?unmgg.html、或者dds=123.html。这类,只要URL中带有?、=这类符号,当然你可以往里面加更多格式,比如带下划线“_”你可以用“Disallow:/_*.html$”这种方式进行防御。

再比如:挂马的是一个目录,正常的URL,比如“seozt/1233.html”,大家可以加一条禁止规则“Disallow:/seozt/*.html$”,这条规则是告诉搜索引擎,只要是seozt目录下的html文件,全部不能被抓取,大家懂了么,其实很简单,自己多熟悉下就行了。

这种写作优势在于:

首先,蜘蛛会抓取你很多核心目录,php目录,模板目录,会浪费很多目录资源,对吧,我们如果屏蔽目录,就会在robots.txt暴露我们的目录,别人也能分析出我们使用的是什么程序对吧,这个时候,我们用反向模式操作,直接允许html,拒绝其他所有,则可以有效的避开了,暴露目录的风险,对吧,好了,今天就讲解到这里,希望大家可以明白。


“防止抓取html代码,robots.txt只允许抓取html页面,防止抓取垃圾信息!” 的相关文章

评论列表

etsy
2年前 (2023-06-09)

不错,我喜欢,收藏了、、、

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。