如何禁止搜索引擎爬虫（Spider）抓取网站页面（网站禁止蜘蛛爬取）-FinClip官网

如何禁止搜索引擎爬虫（Spider）抓取网站页面（网站禁止蜘蛛爬取）

网友投稿 6870 2022-08-02

一般情况，大家都是希望搜索引擎爬虫尽可能多的抓取自己的网站，但有时也需要告诉爬虫不要抓取，比如，不要抓取镜像页面等。

如何禁止搜索引擎爬虫（Spider）抓取网站页面（网站禁止蜘蛛爬取）

以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话）。我通过分析我自己博客的服务器日志文件，给出以下建议（同时欢迎网友补充）：

User-agent: Baiduspider

Disallow: /

User-agent: 360Spider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow: /

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent: Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：

3、通过服务器（如：Linux/nginx ）配置文件设置

直接过滤 spider/robots 的IP 段。

小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

这里有一个 badbot ip 数据库：http://spam-whackers.com/bad.bots.htm

4、通过搜索引擎提供的站长工具，删除网页快照

比如，有的时候百度不严格遵守 robots.txt 协议，可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心：http://tousu.baidu.com/webmaster/add

如下图是我的一个网页投诉：

大概3天左右的时间过去，这个网页的百度快照也被删除，说明此种方法也能起效，当然这是不得而为之，属于亡羊补牢。

5、补充更新

可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问，然后直接返回403 状态码屏蔽之。比如：由于api 权限与微博信息隐私保护原因，Xweibo 2.0 版本后禁止搜索引擎收录。

补充禁用IP方法：

# 拒绝访问（奇虎蜘蛛）

order allow,deny

deny from 221.194.136.

deny from 220.181.33.

# 拒绝访问（有道蜘蛛）

deny from 61.135.249.

allow from all

刚才是屏蔽的整个镜像网站，再举个例子屏蔽网站的某个页面：

举例

User-agent: Baiduspider

Disallow: /1.htm

这个是屏蔽百度抓取1.htm文件

常见Robots名字

名称搜索引擎

google蜘蛛： googlebot

百度蜘蛛：baiduspider

yahoo蜘蛛：slurp

alexa蜘蛛：ia_archiver

msn蜘蛛：msnbot

altavista蜘蛛：scooter

lycos蜘蛛： lycos_spider_(t-rex)

alltheweb蜘蛛： fast-webcrawler/

inktomi蜘蛛： slurp

一些在线robots.txt的工具：

在线生成网站地图 http://xml-sitemaps.com/

写robots.txt 文件 http://mcanerin.com/EN/search-engine/robots-txt.asp

站长工具箱 http://tool.chinaz.com/

最后需要注意，robots.txt文件名必须是小写，而且放在网站根目录！

robots.txt作用和写法（robots.txt文件写法）

6870 2022-08-02

如何禁止搜索引擎爬虫（Spider）抓取网站页面（网站禁止蜘蛛爬取）

robots.txt作用和写法（robots.txt的作用）

robots.txt作用和写法（robots.txt文件写法）

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计