唯一网站被阻止

TG Data Set: A collection for training AI models.
Post Reply
rakibhasan
Posts: 203
Joined: Tue Dec 24, 2024 4:57 am

唯一网站被阻止

Post by rakibhasan »

大多数针对 Moz、Majestic 和 Ahrefs 的 robots.txt 禁止只是对所有不代表主要搜索引擎的机器人的全面阻止。但是,我们可以隔离故意指定特定机器人以排除而竞争对手保留的时间。例如,Moz 被阻止了多少次而 Ahrefs 和 Majestic 被允许?哪个机器人被单独挑出最多?越低越好。


Ahrefs 被 1201 个网 VNpay 数据库 站选中,Majestic 被 7152 个网站选中,Moz 被 904 个网站选中。Majestic 被选中是可以理解的,因为他们多年来(甚至十多年)一直在运营非常大的链接索引。Moz 花了10 年时间才积累了904 个单独的 robots.txt 块,而 Ahrefs 花了 7 年时间才积累了 1204 个。但让我举几个例子来说明为什么这很重要。


结论
虽然 Moz 的爬虫 DotBot 在三大链接索引中显然拥有与 Google 最接近的 robots.txt 配置文件,但仍有许多工作要做。我们非常努力地提高爬虫的礼貌性,以确保我们不会成为网站管理员的负担,这使我们能够以更像 Google 的方式抓取网络。我们将继续更加努力地提高我们在整个网络上的性能,并为您带来尽可能最好的反向链接索引。
Post Reply