TG Data Set

Posted: **Thu Jan 23, 2025 8:57 am**

对-等模型使用的训练语料库进行仔细检查后发现各语种存在明显的不平衡英语占主导地位-的训练语料绝大多数是英语占数据的。基于 -等后续模型延续了这趋势。有限代表的语言(分析仅限于-语料库) 只有两种语言占-语料库的以上即法语 () 和德语 ()。

另外种语言落在到的范围内包括西班牙语意大利语葡萄牙语荷兰语俄语罗马尼亚语波兰语芬兰语丹麦语瑞典语日语挪威语。值得注意的是像中文和印地语这样的语言总共有超过亿人使用甚至没有达到语料库的门槛。

训练数据集中度-训练语料库中排名前位的语言有明显的头部效应加起来共占。单词覆盖范围有限-训练语料库中只有种语言的单词数超过万其中第种语言是高棉语。虽然在柬埔寨有万人使用高棉语但它在-的训练语料库中只有区区万个词。

对英语和精选高资源语言的偏向并非的母公芬兰 whatspp 数据司有意为之；因为语料大部分来自互联网而互联网反映的是个国家和语种的富裕开放和活跃程度。大语言模型在很大程度上忽了世界上, 种现存语言中的大多数。

例如以下使用人数众多的语言贡献了不到％专门针对这门语言的大语言模型印地语亿使用者阿拉伯语亿使用者孟加拉语亿使用者乌尔都语亿使用者语言使用者和可用文本数据之间的差异导致了语言多样性之间的不平衡。

这个问题的源头更多的是个国家的发展情况和投资力度我们会在下篇博文中详述。对于旨在支持更广泛语言的大语言模型来说这也是个根本性的挑战如果种语言在网络上只有少量文本那就没有适合这门语言的大语言模型。

如果种语言在网络有大量文本也需要其代表国家加大投资力度才能发展出有本身语言特色的大语言模型。于是我根据的支持力度对世界语言进行了分类 - 对高资源和低资源语种的支持情况英语是大语言模型最有效的“编程语言大语言模型有个输入和输出的限制以k数目表示。

如果k数太少比如只有区区个那能做的事情就很有限。这有点像早期的个人电脑只有K的内存跑不了“大程序。而如今有些智能手机都有了的内存是以前的倍。至于个k是多少个英文单词或者汉字我们在后文解释。

TG Data Set

的互联网文本内容因此很难收集足够的数据来训练个

的互联网文本内容因此很难收集足够的数据来训练个