X(原推特)已经屏蔽除谷歌以外的所有搜索引擎以阻止数据被抓取 – 蓝点网

7 月初埃隆马斯克带领的原已经有搜 X 曾屏蔽谷歌搜索爬虫抓取内容,这导致谷歌搜索无法在用户搜索 X 用户名时展示最新的推特推文摘要,不过后面 X 对谷歌解封了。屏蔽温岭新河天气
但其他搜索引擎就没那么幸运了,除谷如果使用 site:twitter.com 指令在必应搜索上查询的歌外话,你会发现必应收录的索引 X 内容只有 12.1 万条,而谷歌搜索则是擎阻 4.22 亿条。
发生了什么?止数抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬虫,至于原因嘛也很简单,据被温岭新河天气埃隆马斯克不想 X 的蓝点数据被其他人抓取拿去训练 AI,所有屏蔽了诸如 Bingbot、原已经有搜MSNbot、推特Yandex 等搜索引擎爬虫。屏蔽
那谷歌为什么是例外的呢?估计马斯克都要骂街了,因为之前有传闻称杰克多西时代的歌外推特与谷歌达成了相关协议,允许谷歌抓取内容,目前这一协议尚未到期。
蓝点网通过互联网档案馆排查发现,X 是在 2023 年 7 月 24 日执行屏蔽操作的,更新后的 robots.txt 文件仅允许 Googlebot 抓取内容,其他所有爬虫均被封禁。
所以现在诸如必应搜索上的推特内容极少也就是这个原因,后面估计索引数量会进一步降低,如果谷歌的协议到期了估计内容也都会消失。
不过 robots.txt 毕竟只是君子协定 (这不是法律规定,之前某大数字被某度起诉抓取某度百科内容时,就辩称这是 robots.txt 只是行业管理而非法律规定),所以仍然有各种来路不明的爬虫试图抓取推特上的内容拿去卖数据。
对于这种情况埃隆马斯克也早有准备,在协议规定未经同意获取内容属于违反协议的行为,马斯克对这些未经同意的抓取行为直接起诉。
附 X robots.txt 的最新内容:
# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬虫抓取内容# ========================================================User-agent: *Disallow: /
相关文章
- 2月27日上午,市政协副主席、区委书记杨昌文到泉港一中调查调度教育。苏纯益、郭雅婷等地区领导参加了调查。泉港一中早春萌动着生机和希望,孕育着无尽的可能和梦想。杨昌文一行来到学校,边走边看,边听边问,实2025-03-13
新《诛仙足游》3月21日开启倾慕公测 新职业灵契CG预报暴光
新《诛仙足游》3月21日开启倾慕公测,新职业灵契CG预报暴光。新《诛仙足游》将于3月21日迎去倾慕公测,本日尾部奥秘新职“灵契”下浑游戏CG预报暴光,一起去看看吧!【天然为引以妖为陪 灵契一门出世】妖2025-03-13- 来日诰日是《终究胡念7》25周年记念日,民圆公开了齐新logo,我们一起赏识一下。民圆正在推文中表示,更多闭于《终究胡念7》战《终究胡念7重制版》的疑息将正在将去公开,请延绝存眷最新静态。《终究胡念72025-03-13
- 为《开金设备》系列演唱了多尾主题直的Donna Burke此前正在推特上分享了一段视频,引去了很多网友对系列是没有是有新动做的猜念。古晨看起去Burke当时指的真正在没有是新做,更多是指《开金设备》电2025-03-13
- 欧美时尚服装名称图片女装(欧美时尚服装品牌有哪些)。资料来源:时尚服装网阅读:3080。女性美国服装品牌是一个完整的品牌名称收集。1、白领女装、瑶姬美女服装、伊人李颖女装、雅艺女装、伊蕾屠女s服装、B2025-03-13
- 天下气象构造2月1日陈述,一讲超越好国三个州、程度间隔少768千米的闪电是迄古探测到的单次最少闪电,比先前记载少远60千米。据天下气象构造的声明,创下新记载的闪电2020年4月29日产逝世,超越好国稀2025-03-13
最新评论