SEO教程 > SEO博客 > Robots.txt的价值:它是什么以及它如何帮助我的SEO?

Robots.txt的价值:它是什么以及它如何帮助我的SEO?

2018-08-20

robots.txt或“机器人排除协议”的起源可以追溯到20世纪90年代中期,在网络蜘蛛网络浏览网站的早期阶段。一些网站管理员开始担心哪些蜘蛛正在访问他们的网站。一个文件,其中包含应该对哪些网站部分进行爬网的说明,以及哪些网站所有者无法更好地控制哪些抓取工具可以访问其网址以及允许他们使用多少容量。

从那时起,robots.txt已经发展壮大,以满足现代网页设计师和网站所有者的需求。当前版本的命令将被主要搜索引擎发出的蜘蛛接受,以收集各自排名算法的信息。因此,不同搜索引擎之间的这种共同协议使robots.txt成为SEO中品牌的潜在有价值但往往被忽视的工具。

robots.txt监视器与命令行图形

什么是robots.txt?
Robots.txt是一系列命令,用于告知Web机器人(通常是搜索引擎)要抓取哪些页面而不进行爬网。当搜索引擎登陆网站时,它会查看robots.txt以获取相关说明。

想要指示搜索引擎不抓取其网页的网站似乎违反直觉,但它也可以让网站管理员有力控制他们的抓取预算,我们将在下面详细解释。

在写出robots.txt文件时,您将使用简单的双行命令。第一行是“user-agent”。命令的这一部分指示指令适用的对象,星号“ * ”(通常称为通配符)表示该命令适用于所有Web机器人。

在“用户代理”下,它会说“不允许”。这告诉机器人他们不能做什么。如果有“ \ ”,则表示蜘蛛不应抓取网站上的任何内容。如果此部分保持空白,则蜘蛛可以爬行整个站点。

我为什么要使用robots.txt?
了解Google如何抓取网站将有助于您了解使用robots.txt的价值。

谷歌有一个爬行预算。这描述了他们专门用于抓取特定网站的时间。Google根据抓取速度限制和抓取需求计算此预算。如果Google发现他们对网站的抓取会降低该网址的速度,从而损害任何有机浏览器的用户体验,他们就会降低抓取速度。这意味着,如果您向网站添加新内容,Google就不会很快看到它,可能会损害您的搜索引擎优化。

预算计算的第二部分(需求)表明,受欢迎程度较高的网址将获得Google蜘蛛的更多访问权限。

换句话说,正如谷歌所说,“你不希望你的服务器被谷歌的抓取工具所淹没,或者浪费抓取预算来抓取你网站上不重要或类似的页面。”Robots.txt将允许你更好地控制搜索引擎的位置爬行器去,什么时候,帮助您避免这个问题。

除了帮助您将搜索引擎抓取工具从您网站上不太重要或重复的网页上移开之外,robots.txt还可以用于其他重要目的:

它可以帮助防止出现重复内容。有时,您的网站可能故意需要一份内容的多个副本。例如,如果您创建一段内容的可打印版本,则可能有两个不同的版本。谷歌有一个众所周知的重复内容惩罚。这样可以避免这种情况。
如果您正在重新设计网站的某些部分,则可以使用robots.txt隐藏未完成的页面,使其在准备之前不被编入索引。
您也可能在您的网站上有不想向公众显示的页面。例如,在某人购买或提交登录页面后,这可能包括感谢页面。这些页面不应出现在搜索引擎上,这使得谷歌或其他搜索引擎对它们进行索引毫无价值。
根据谷歌的说法,这里有一些最常见的robots.txt规则集:

表列出常见的robots.txt使用

重要的是,虽然注意到robots.txt的各种有用功能,但您不要尝试使用该命令将敏感信息保密。将robots.txt视为请求,但不是命令。虽然“好”的蜘蛛,由知名组织(如Google或Bing)运营的蜘蛛会听取robots.txt命令,但那些有更多邪恶意图的人设计的抓取工具仍然很可能忽略robots.txt并抓取页面无论指定的代码如何。

页面也可以通过其他方式编入索引。例如,如果您自己网站上的其他网站或其他网页链接到该网页,则您的隐藏网页最终可能会被编入索引。

在规划您的站点基础架构时,区分您的私有页面非常重要。这些页面是否仅为了SEO原因需要是私有且不可发现的,或者是否使这些页面上的内容远离爬行程序而出现安全问题 – 例如敏感客户数据的暴露?robots.txt的价值来自SEO策略,不保密机密信息。

如何配置robots.txt?
设置robots.txt可以很简单,但首先让我们回顾一下命令的两个部分是什么意思:

User-agent:引用文本引用的爬虫
Disallow:表示要阻止的内容,爬网程序不应读取的内容
除了这两个主要部分,您还可以使用第三部分,如果需要,可以标记为“允许”。如果您的子目录位于被阻止的目录中,则将使用此部分。例如,如果您想阻止大多数目录但只有一个小子目录,那么设置它的最快方法可能是:

user-agent:*(请记住,星号表示该命令适用于所有蜘蛛)

不允许:/目录

允许:/子目录1

这将告诉抓取工具查看此单个子目录,即使它属于较大的被阻止目录。

SEO教程小编了解到,如果您想让抓取工具查看整个网站,那么您将把“禁止”部分留空。

如果您想设置robots.txt以阻止特定网页(例如您的登录页面或感谢页面),那么在robots.txt的“禁止”部分中,您将放置您之后的网址部分’.com’ 之间。

当您考虑可能要阻止的页面时,请考虑这些类型的内容,看看您的网站上是否有任何内容。

登录页面
在有人下载或购买了某些东西之后,感谢您的页面
需要重复的内容,例如PDF或网页的可打印版本
您已开始开发的新页面,但您不希望搜索引擎将它们编入索引
尽管robots.txt看起来很简单,但必须遵循一些规则以确保正确解释代码。

使用所有小写字母作为文件名“robots.txt”
这些命令必须位于Web服务器的顶级目录中
对于网站上的每个网址,您只能有一个“禁止”
具有公共根域的子域需要不同的robots.txt文件
设置robots.txt后,您应该使用Google网站管理员帐户测试您的网站。在菜单下将有一个“抓取”选项。单击此按钮将打开一个下拉菜单,其中包含robots.txt Tester选项。

在Google搜索控制台中测试您的robots.txt

如果Google说允许使用该文本,则表示您的文字写得正确。

Robots.txt可以成为SEO的有用工具,他们了解控制蜘蛛抓取网站的方式和时间的价值。考虑一下它如何使您的网站受益并采取SEO的下一步。

原文:https://www.brightedge.com/blog/value-robotstxt-seo/

免责声明:文章翻译转载,若侵犯了您的权益,请联系我及时删除

推荐阅读:
SEO怎么做
SEO常用术语有哪些
什么是域名
什么样的域名有利于SEO
如何购买网站空间
网站程序有哪些

点击这里给我发消息