步骤 抓取所有可索引的

TG Data Set: A collection for training AI models.
Post Reply
rakibhasanbd4723
Posts: 558
Joined: Sun Dec 22, 2024 5:09 am

步骤 抓取所有可索引的

Post by rakibhasanbd4723 »

到那时为止,下面的流程应该可以处理大多数情况。

对于大多数网站来说,一个好的开始就是使用Screaming Frog进行全面抓取。但是,这种方式可能会遗漏一些可索引的内容。不建议您依赖抓取工具作为所有可索引 URL 的来源。

除了爬虫之外,还可以从 Google Analytics、Google 网站管理员工具、XML 站点地图以及(如果可能)内部数据库(例如电子商务网站上所有产品和类别的 URL 导出)收集 URL。然后可以单独以“列表模式”抓取这些 URL,然后将其添加到您的主 URL 列表中并删除重复项,以生成更全面的可索引 URL 列表。

通过 GA、XML 站点地图和其 iOS 数据库 他非抓取源找到的某些 URL 可能实际上不是“可索引的”。这些应该被排除。这里有效的一个策略是合并和删除所有 URL“列表”的重复项,然后以列表模式执行抓取。抓取后,删除所有带有 robots meta 或 X-Robots noindex 标签的 URL,以及任何返回错误代码的 URL 和被 robots.txt 文件阻止的 URL 等。此时,您可以安全地将这些 URL 添加到包含抓取的可索引 URL 的文件中。再次删除列表的重复项。

爬行障碍和新技术
抓取非常大的网站
首先,您不需要抓取网站上的每个 URL。关注可索引的内容。这不是技术 SEO 审核。

{展开以了解有关抓取超大型网站的更多信息}

抓取动态移动网站
这是指一种特定类型的移动设置,其中有两个代码库——一个用于移动设备,一个用于桌面设备——但只有一个 URL。因此,单个 URL 的内容可能会因访问该 URL 的设备类型而有很大差异。在这种情况下,您实际上将执行两次单独的内容审核。桌面版本照常进行。以下是抓取移动版本的说明。
Post Reply