该专利扩展了低质量网页的示例

TG Data Set: A collection for training AI models.
Post Reply
rakibhasanbd4723
Posts: 558
Joined: Sun Dec 22, 2024 5:09 am

该专利扩展了低质量网页的示例

Post by rakibhasanbd4723 »

停放网页
内容农场网页
链接农场网页
默认页面
不提供有用内容的页面,和/或仅包含广告且几乎没有其他内容的页面
邀请众包高质量模式
这是我上面提到的部分,我在这 哈萨克斯坦电报筛选 里请求您的帮助。您不必发表关于如何识别质量的想法,但我将以一些例子开始。

根据该专利,系统会根据已知低质量页面的模式来计算网站上每个页面的内容质量值分数,“例如停放的网页、内容农场网页和/或链接农场网页”。

对于页面上识别出的每种模式,该页面的内容质量值可能会根据该特定模式的存在而降低,并且每种模式的权重可能会不同。

可能应用于低质量网页的一些简单模式可能是对以下内容的一个或多个引用:

知名广告网络,
网页停放服务,和/或
内容农场提供商
这些引用之一可能是目标主机名解析到的 IP 地址、目标域名指向的域名服务器(“DNS 服务器”)、目标页面上的“a href”属性和/或目标页面上的“img src”属性的形式。

这是一个非常简单的模式,但如果一个网页解析到某个已知专门为特定互联网域名注册商提供的停放网页提供的 IP 地址,则可视为停放网页,因此它非常有效。
Post Reply