3.数据集描述
[ 15 ]在我们想要在 OCR 基本事实背景下发布的数据集中,我们不拥有图像数据的版权。[11]因此,我们区分数据集公式和构建的数据集。我们发布的数据集公式包含转录、图像链接以及如何构建数据集的配方。
[ 16 ]数据集公式和源代码已发布在 Github [12]上,我们在本文中引用的 1.1 版本已在开放存取存储库 Zenodo 上镜像。[13]该数据集根据 CC-BY 4.0 许可发布,源代码根据 Apache 许可发布。
3.1 起源著书籍的英文原版和德文译本的图像,这些书籍于 1830 年左右出版。
[ 18 ]该数据集是作为一项研究项目的一部分创建的,该项目旨在研究如何实施通常用于分析作者风格的文体计量学方法,目的是分析译者的风格。数据集的组织方式使得可以排除文档作者或出版日期等其他变量作为译者风格的混杂因素。
[ 19 ]我们发现 1830 年的德国特别适合我们设想的研究环境。由于 1830 秘鲁电报数据 年左右德国读者人数的增加,对书籍的需求也随之增长。将外国出版物翻译成德语特别有利可图,因为当时没有适用于德语国家的同等版权法规。没有一般的法律约束来规范向书籍原作者支付的费用,也没有规定谁可以出版书籍的德语译本。因此,出版商竞相将最新的外国作品翻译成德语,导致同一本书由不同的译者同时翻译成多种德语版本。为了成为第一个出版德语译本的人,出版商求助于后来被称为翻译工厂的翻译,以优化翻译速度。[14]在这种“翻译工厂”工作的译者并不专门翻译某一位特定的作者。事实上,由同一位译者翻译不同作者的书籍并不罕见。