这不是很容易吗

TG Data Set: A collection for training AI models.
Post Reply
rakibhasanbd4723
Posts: 558
Joined: Sun Dec 22, 2024 5:09 am

这不是很容易吗

Post by rakibhasanbd4723 »

然后过滤 URI 列以显示 Googlebot 抓取此示例网站主页的次数:

这是一种快速查看单个用户代理的 URI 词干是否存在问题区域的方法。您可以更进一步查看 URI 词干列的过滤选项,在本例中为 cs-uri-stem:


从这个基本菜单中,我们可以看到正在抓取哪些 URL(包括资源文件),以便快速识别任何问题 URL(例如不应该抓取的参数化 URL)。

您还可以使用数据透视表进行 副总裁合规电子邮件列表 更广泛的分析。要获取特定用户代理抓取特定 URL 的次数,请选择整个表 (Ctrl/cmd + A),转到“插入”>“数据透视表”,然后使用以下选项:


我们所做的就是按用户代理进行过滤,以 URL 词干作为行,然后计算每个用户代理出现的次数。

通过我的示例日志文件,我得到了以下内容:

然后,为了按特定的 User-Agent 进行过滤,我点击了包含“(全部)”的单元格上的下拉图标,并选择了 Googlebot:

了解不同的机器人正在抓取什么内容、移动机器人与桌面机器人的抓取方式有何不同以及抓取最多的地方,可以帮助您立即看到哪里存在抓取预算浪费以及网站哪些区域需要改进。

查找低附加值的 URL
抓取预算不应该浪费在低附加值的 URL 上,这通常是由会话 ID、无限抓取空间和分面导航造成的。

为此,请返回日志文件,并从 URL 列(包含 URL 词干)中筛选包含“?”或问号符号的 URL。要在 Excel 中执行此操作,请记住使用“~?”或波浪符号问号,如下所示:
Post Reply