防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！

建站交流2年前 (2023-04-12)4171

今天我们代代SEO为大家详细的讲解下“robots.txt只允许抓取html页面，防止抓取垃圾信息！”代代SEO在做网站这么多年中，经常会遇到客户的网站被挂马的情况，原因是自己维护网站不利，或者用的是市面上开源的CMS，直接下载源码安装使用，也不管里面有没有漏洞和后门，所以造成了，后期被挂马入侵，产生大量垃圾违法页面被百度抓取。

被挂马的一些人很奇怪，为什么自己的网站正常发布的内容不被收录，但是垃圾页面违法内容却被百度大量收录，其实很简单，哪些挂马人员直接在哪些违法页面上，挂了蜘蛛池，所以就会造成这个问题，就算我们尽管解决了网站被挂马的问题，网站上的垃圾页面，还是不断会被百度抓取，死链生效也是需要很长时间，这个时候怎么办那？我们可以使用robots.txt来解决这个问题。

实现原理：

我们可以使用robots.txt限制用户只能抓取HTMl页面文件，并且可以限制指定目录的HTML，和屏蔽指定目录的HTML文件，下面做一个robots.txt的写法，大家可以自己研究下，实际应用到自己的网站上面去。

可以解决的挂马形式：

这个robots编写规则，就是主要针对上传类的挂马，比如增加xxx.php?=dddd.html;xxxx.php;上传也不会被百度抓取，降低网监风险。

#适用于所有搜索引擎

User-agent:*

#允许首页根目录/和不带斜杠、例如www.retao5.com/www.retao5.com

Allow:/$

Allow:$

#文件属性设置为禁止修改(固定属性，入口只能是index.html/index.php)

Allow:/index.php

Allow:/index.html

#允许静态生成目录的抓取，此处是允许抓取页面中所有的html文件

Allow:/*.html$

#禁止所有带参数的html页面(禁止抓取挂马html页面)规则可以自己定义

Disallow:/*?*.html$

Disallow:/*=*.html$

#允许单一入口，只允许，带？号的index，其他的html，带符号，一律不允许。

Allow:/index.php?*

#允许资源文件，允许网站上，图片的抓取。

Allow:/*.jpg$

Allow:/*.png$

Allow:/*.gif$

#除了以上的，禁止抓取网站内任何文件，或者页面。

Disallow:/

比如我们的网站被挂马，后戳一般都是。php?unmgg.html、或者dds=123.html。这类，只要URL中带有？、=这类符号，当然你可以往里面加更多格式，比如带下划线“_”你可以用“Disallow:/_*.html$”这种方式进行防御。

再比如：挂马的是一个目录，正常的URL，比如“seozt/1233.html”，大家可以加一条禁止规则“Disallow:/seozt/*.html$”，这条规则是告诉搜索引擎，只要是seozt目录下的html文件，全部不能被抓取，大家懂了么，其实很简单，自己多熟悉下就行了。

这种写作优势在于：

首先，蜘蛛会抓取你很多核心目录，php目录，模板目录，会浪费很多目录资源，对吧，我们如果屏蔽目录，就会在robots.txt暴露我们的目录，别人也能分析出我们使用的是什么程序对吧，这个时候，我们用反向模式操作，直接允许html，拒绝其他所有，则可以有效的避开了，暴露目录的风险，对吧，好了，今天就讲解到这里，希望大家可以明白。

本文链接：https://blog.retao5.com/jianzhan/1597.html

标签: robots 解决木马收录页面

分享给朋友：

返回列表

上一篇：屏蔽浏览器对网页JS脚本错误提示

下一篇：超详细robots.txt写法大全和禁止目录收录及指定页面

“防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！” 的相关文章

给大家分享2个把普通资讯论坛帖子转为门户文章的SQL56年前 (1970-05-10)

19天全新网站如何突围2900万索引量热门词到首页56年前 (1970-06-05)

seo评分标准56年前 (1970-06-09)

傻瓜式把飞飞影视系统的官方资源库变成自己的53年前 (1973-07-12)

MySQL为什么会有一大堆在Sleep的进程53年前 (1973-07-13)

关于PHP配置环境全步骤(及支持shtml委静态的方法)52年前 (1974-01-25)

评论列表

etsy

2年前 (2023-06-09)

不错，我喜欢，收藏了、、、

回复该评论

发表评论

热门阅读

最近评论

爱思助手评论文章：

debian10 服务器的时间和本地不一样

内容很有深度！https://i4-pc.com
纸飞机手机版网站评论文章：

PHP 10个最具影响力的新功能

我对楼主的敬仰犹如滔滔江水绵延不绝！https://www.telegram-org.com
telegram中文版评论文章：

PHP 10个最具影响力的新功能

有内涵！https://www.telegramck.com/
telegram官网评论文章：

在Debian 10服务器上对数据盘进行分区和格式化

白富美？高富帅？https://www.telegramis.com/
电报安装包下载评论文章：

2023年度最佳的小电影番号【转载】

看帖、回帖、拿分、走人https://t.me/s/zh_cncssakjas

防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！

“防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！” 的相关文章

评论列表

发表评论

热淘博客 blog.retao5.com 版权所有

Powered By Z-BlogPHP. Theme by TOYEAN.

防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！

“防止抓取html代码,robots.txt只允许抓取html页面，防止抓取垃圾信息！” 的相关文章

评论列表

发表评论取消回复

热淘博客 blog.retao5.com 版权所有 var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?9359c5e4a454d2c91edea405c708eab6"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })();

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论

热淘博客 blog.retao5.com 版权所有