robots.txt文件 - 代码天地

robots.txt文件

其他 2019-07-27 17:01:34 阅读次数: 0

网站通过一个符合Robots协议的robots.txt文件来告诉搜索引擎哪些页面可以爬取。Robots.txt协议全称“网络爬虫排除标准”。一般情况下，该文件以一行或多行User-agent记录开始，后面再跟若干行Disallow记录。

User-agent：该项的值用于描述搜索引擎robot的名字，robots.txt中至少有一条User-agent记录，如果该项的值为“ * ”，则该协议对任何搜索引擎有效。

Disallow：robots.txt中至少有一条User-agent记录。该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分路径。任何一条Disallow记录为空，则说明所有内容允许被访问。

Allow：描述希望被访问的一组URL，一个网站所有URL默认是Allow的

猜你喜欢

转载自www.cnblogs.com/lwfiwo/p/11255717.html

robots.txt文件

robots.txt文件解读

robots.txt文件的格式

robots.txt文件详解

robots.txt文件示例

关于robots.txt

robots.txt

robots.txt与SEO

“robots.txt”简介

使用robots.txt

robots.txt协议

网站robots.txt文件说明（2）

网站robots.txt文件说明

禁爬虫robots.txt文件

nuxt 如何添加robots.txt文件

如何使用robots.txt

笔记-爬虫-robots.txt

robots.txt防爬虫

爬虫之robots.txt

关于robots.txt的实例

【转】Robots.txt和Robots META

robots.txt写法_怎么写robots

robots.txt文件使用方法的详细介绍

用PHP的fopen函数读写robots.txt文件

WordPress默认自带的robots.txt文件设置在哪里

网站根目录 robots.txt 文件写法

robots.txt在SEO中作用

Robots.txt 协议标准介绍

[转]如何写robots.txt？

爬虫出现Forbidden by robots.txt

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)