第二个奇怪的现象是,一些元描述标签似乎已被预先截断(可能是由 CMS 系统截断)。因此,这些情况下的“...”是不可靠的指示。以这个代码片段为例:
这段文字的长度为 150 个字符,与旧限制差不多。现在,我们来看看元描述:
此 Goodreads 片段已被预 欧洲华人华侨数据 先截断。我们数据集中的几乎所有 Goodreads 元描述都是如此,这可能是 CMS 设置或他们的SEO 团队有意为之。无论如何,这对我们当前的分析来说都不是很有用。
因此,我们尝试收集所有原始元描述标签,以检查是否存在截断前的数据。我们无法收集所有网站的数据,有些网站根本不使用元描述标签,但我们仍然能够消除一些干扰。
我们再试一次吧 (...)
因此,让我们提取所有带有视频缩略图的剪切片段以及我们知道元描述以“...”结尾的片段。这样我们就将片段数量减少到 26,766 个(约占原始 89,909 个的 30%)。现在长度的频率分布如下:
我们清理了一些较低的部分,但差别并不大。我们仍然看到一些片段被截断在 200 个字符以下。其中一些可能是我们无法检索原始元描述标签的情况,但其他一些似乎是合法的删减。