[[SEO技术]] robots文件的书写及规范案例,只有5%的人懂得这个方法

[复制链接]
查看: 112|回复: 0
发表于 2023-6-23 16:26:26 | 显示全部楼层 | 阅读模式
易博V9下载

什么是robots?

简单说,robots就是你和蜘蛛签订的一份文件,就是告诉爬虫网站上哪些内容可以收录,哪些内容不需要收录。

robots文件的书写及规范案例,只有5%的人懂得这个方法

robots的作用

1:设置访问权限保护网站安全。

2:禁止搜索引擎爬取无效页面,集中权值到主要页面(对SEO方面重要原因)。

robots文件放在哪

robots.txt可以通过FTP工具直接放置在网站根目录。

放置后可通过:①域名/robote.txt 方式查看。②通过百度站长工具查看检测。

robots的文件格式

User-agent:该项的值用于描述搜索引擎robot的名字

Disallow:该项的值用于描述不希望被抓取的URL链接

Allow:该项的值用于描述希望被抓取的URL链接

$ 通配符:匹配URL结尾的字符

* 通配符:匹配0个或多个任意字符

通过以上命令可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。

百度官方文件:https://ziyuan.bAIdu.com/college/articleinfo?id=1516

robots示例

1、禁止搜索引擎抓取特定目录

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。

User-agent: *Disallow: /admin/Disallow: /tmp/Disallow: /abc/

2、禁止admin目录,但允许抓取admin目录下的seo子目录

User-agent: *Allow: /admin/seo/Disallow: /admin/

3、禁止抓取/abc/目录下的所有以”.htm”为后缀的URL(包含子目录)

User-agent: *Disallow: /abc/*.htm$

4、禁止抓取网站中所有的动态页面

User-agent: *Disallow: /*?*

屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。

5、禁止百度蜘蛛抓取网站所有的图片:

User-agent: BaiduspiderDisallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$

6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告

User-agent: *Disallow: /folder1/

User-agent: Mediapartners-GoogleAllow: /folder1/

什么时候需要robots协议

1:无用页面:如联系我们、用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时可以使用Disallow命令禁止这些页面被搜索引擎抓取。

2:动态页面:企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。

3:网站后台页面:网站后台也可以归类于无用页面,禁止收录有百益而无一害。

robots补充-关于sitemap

把sitemap的位置信息放在robots.txt里,利用sitemap里的信息搜索引擎可以更加智能地抓取网站内容。

易博软件介绍
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1、请认真发帖,禁止回复纯表情,纯数字等无意义的内容!帖子内容不要太简单!
2、提倡文明上网,净化网络环境!抵制低俗不良违法有害信息。
3、如果你对主帖作者的帖子不屑一顾的话,请勿回帖。谢谢合作!
3、问答求助区发帖求助后,如有其他用户热心帮您解决问题后,请自觉点击设为最佳答案按钮。

 
 
QQ在线客服
QQ技术支持
工作时间:
8:00-18:00
软著登字:
1361266号
官方微信扫一扫
weixin

QQ|小黑屋|慈众营销 ( 粤ICP备15049986号 )|网站地图

自动发帖软件 | 自动发帖器 | 营销推广软件 | 网络营销工具 | 网络营销软件 | 网站推广工具 | 网络推广软件 | 网络推广工具 | 网页推广软件 | 信息发布软件 | 网站推广工具 | 网页推广软件

Powered by Discuz! X3.4   © 2012-2020 Comsenz Inc.  慈众科技 - Collect from 深圳吉宝泰佛文化有限公司 公司地址:罗湖区黄贝街道深南东路集浩大厦A1403

返回顶部 返回列表