TG Data Set

Posted: **Sat Feb 08, 2025 3:40 am**

今天，与文本相关的古代科学（古代历史、古典语言文学、碑文学、纸草学）全都依赖于数字化文本语料库，这些语料库有多种形式（互联网上的数字化图书馆、CD ROM 上的数据库）和格式（各种变体的 beta 代码、UTF-8、ASCII）。但随着来自文本和物品、碑文、古代文献版本、考古发掘、博物馆和私人收藏的数字数据的指数级增长，古代研究比其他人文学科更加强大，人们开始对通过新的数字方法进行研究以获得知识和创新的潜力提出根本性的问题。

从方法论的角度来看，这属于所谓的“数据驱动转向” [1]的背景，其中方法不再假设使用数据进行测试的已定义和理论上合理的假设，而是采用归纳分析的视角：数据的算法化旨在指出以前未知的关系。据称，这可以引发新的假设。[2]方法的应用，尤其是信息检索和可视化中的表示，绝不是标准，但主要在机构结构资助框架内运作的项目和研究项目中实践。[3]与其他人文学科一样，古代科学也正处于一个基本问题的阶段，即通过新的数字方法进行研究，获取知识和创新的潜力。这在结构化数字信息中创建了新的聚合形式，尤其是数据库中可以自动提取的文本。

实践中有很多实验，但当涉及到根本问题时，数字人文学科的理论缺陷就一再被指出。[4]目前正在讨论的是，人文学科中凝练成稳定实践的认识论过程是否能在数字化时代继续不变地存在，即基于算法的分析方法在多大程度上可以与真正的解释学解释相结合。

由于不同的分析方法都伴随着需要形式化、结构化的知识理论构建，所以这是一项仍需满足的要求。对于古代研究中的文本源分析领域，可以从数字人文的角度定义分析程序的方法系统化的清晰的框架条件：基础数据必须是安全的、可验证的质量，评估方法必须是可理解的，结果必须是可转移的。对于计算机科学和数字人文学科以外的专业社区的接受来说，特别重要的是可以使用至少一种其他方法来重现结果，在文本科学中最好是使用历史语言学领域的来源分析方法来重现结果。

然而，对于拥有 2500 年历史和传统的古代研究来说，这在很多领域都是非常苛刻的，因为特定的编辑技术和模型已经开发出来，这不仅需要大量的先决条件，而且在分析过程中必须始终考虑到这一点。

下面将利用数字人文学科中常见的共现搜索和网络可视化方法，通过一些古代历史和语言学问题的例子来证明这一点。研究的重点是可能性、局限性以及最重要的真正技术问题的成果。具体来说，可以表述为：应用这些方法是否会产生不同的、可验证的结果，以经得起科学的审查？

2. 片段与共现：作者与作品语境的建构
在古代研究中，人们开始关注所谓的作者文本，因此即使在没有作者的情况下，也会寻求重建作者甚至作品。除此之外，还有一种观点认为，作者或作品的文本可以看作是一个常数，[5]这也导致了传统的形成，它被构造成等级制，并以这种方式呈现出来。

这里将使用一个特殊文本类型的例子来进行说明：片段。这涉及到片段集的编纂，一方面，片段集可以看作是引文集的一种特殊形式，但另一方面 - 至少自 18 世纪末以来 - 一直存在并且具有非常深远的意义，即通过编纂丢失作品的引文可以追溯性地重新建立一部作品完全丢失的背景。这些碎片收藏的重要性可以通过数字来证明：对于公元前八世纪的时期来说。公元 3 世纪已智利电报数据知作者中 59% 保存残缺，12% 仅从其尚存的作品和残篇中得知，仅有 29% 的作者有完整保存的文本。[6]

如果文本的上下文缺失（如果作者的名字也缺失则更是如此）且无法恢复，换句话说，如果原始上下文完全不存在，那么上下文就会被一个集合框架内的构建上下文所取代，这个集合可以是引文集合，也可以是片段集合，根据兴趣按时间顺序、个人或主题排列。[7]各个残篇集里的文本段落由各个作者汇集成零散的作品，这些文本段落来自截然不同的背景，通常按照以下高度简化的方案构建：

（作者 A）：正如作者 B 所述，以下情况发生在 XY：...
或：（
作者 A）：正如作者 B、C 和 D 所述，以下情况发生在 XY：...
或：（
作者 X）：但许多人报告说以下情况发生在 XY：...

由于大量古代作者的作品佚失，自 19 世纪以来，人们付出了巨大的努力来编纂佚失作者的残篇集：引文、释义、评论，有时甚至没有名字的文本段落都被收集在纯粹的重建版本中（即，作者 A 的文本段落被作者 B、C、D……变成残篇）。

TG Data Set

来展示存在哪些可能性

来展示存在哪些可能性