语言使用数据的兴趣

Bappy11 · Post by **Bappy11** » Sat Feb 08, 2025 3:30 am

[3]马丁·沃恩克 (Martin Warnke) 在首届人文学科数字化研讨会上提出了这一差异，并将其转移到更广泛的人文学科活动领域。[4]下文中我将尝试说明，数字化源版本和数字源版本之间也可以做出相应的区分。在研究早期量子力学的历史（约 1910-30 年）时，历史学家在几十年的时间里收集了已出版和未出版的文本资料，部分进行了编辑，最终进行了数字化。[5] 本材料在很多方面（但肯定不是全部）与埃伯哈德·诺布洛赫 (Eberhard Knobloch) 在第一次人文学科数字化研讨会上讨论的前现代和早期现代作品的数字版本相对应。[6]在这种情况下，我们可以谈论“数字化”过程，其中研究主题和研究问题基本保持不变。在过去几十年（约 1990-2013 年）中，针对高能物理中“新物理”理论模型的出现的研究项目美国电报数据的情况有所不同。最重要的来源是那些后来没有被数字化，而是从一开始就以数字方式创建的研究论文（数字化诞生）。这些是物理学家上传到开放获取平台 arXiv的文本上传并可随时在线供任何感兴趣的人查阅。除了电子邮件、网站和计算机程序之外，这些文本代表了科学史学家的一种新型数字资源。科学史也正在成为一门数字学科，因为它必须处理自然科学的数字文化。在本文的第三部分，我将简单介绍 arXiv，并以此为例概述未来数字科学史必须解决的认识论和方法论问题。

近几十年来物理研究的数字化环境给科学史学家带来了巨大的挑战。然而，当涉及到数字化和数字化重叠和混合时期的研究项目时，情况变得更加复杂。研究早期粒子物理学（约 1950-65 年）时就是这种情况。相关文本来源包括许多研究论文，其中大多数现在均以数字形式提供。然而，与历史资料收藏不同，这种情况下的数字化不是由历史学家主动进行的，而是由自然科学家及其出版商的兴趣和目标驱动的计划的一部分。这种状况的优劣是决定历史学家进行数字化研究活动的重要因素。例如，Web of Science等商业引文数据库是浏览和处理大量已发表文本不可或缺的工具。