屏幕截图显示了如何从

TG Data Set: A collection for training AI models.
Post Reply
rakibhasan
Posts: 203
Joined: Tue Dec 24, 2024 4:57 am

屏幕截图显示了如何从

Post by rakibhasan »

我首先从 Screaming Frog 导出“所有内部链接”数据。此文件包含网站上的每个内部链接,可能非常大。例如,我的文件 all_inlinks.csv 大约有 52 MB,代表 1,428 个 URL。

Screaming Frog 导出“所有内链”数据
从 Screaming Frog 导出矢量嵌入
接下来,我将向量嵌入导出为 file.csv 并保存以供日后使用。
此时,我在关闭工具之前 阿根廷电话号码库 再次保存了 Screaming Frog 项目。现在,是时候进入下一阶段了。

屏幕截图显示了从“all_inlinks.csv”文件导入 Google 表格的数据
步骤 4:创建电子表格
我在本教程中使用了 Google 表格,但您也可以在 Excel 中遵循相同的流程。如果需要,您可以参考 ChatGPT 调整公式。

导入从 Screaming Frog 导出的两个文件
将 all_inlinks.csv 文件导入一张工作表,将 file.csv 导入另一张工作表。
您可以使用相同的工作簿,但请记住,CSV 文件在导出时仅保存单个数据选项卡。
清理数据
这部分至关重要。我必须从向量嵌入中删除错误,将内部链接数据简化为基本要素,并重命名一些列。

清理自定义 JS(即矢量嵌入)并保存在 file.csv 上

将“(ChatGPT)从页面内容中提取嵌入”列从 Z 到 A 进行排序
删除该列不是数字字符串的任何行(例如,标有“超时”或“错误”的单元格)
确认所有 URL 的状态代码均为 200,然后删除“状态代码”和“状态”列。删除所有不符合此条件的行。
将剩余的列重命名为“URL”和“Embeddings”(大写很重要)。
导出此选项卡并将其保存为“file.csv”。
清理所有内部链接
这一步有点复杂,但值得付出努力。
Post Reply