在ZUCCARO的内部评估过程中,处理不准确性和合理性的缺点,即安排和可视化的问题,一次又一次地变得清晰起来。科学界人士常常会做出这样的反应:“一切都乱套了”或“那么现在什么是重要的?”一个典型案例是皮埃特罗·达·科尔托纳 (Pietro da Cortona) 对现已不复存在的皮涅托萨凯蒂别墅 (Villa del Pigneto Sacchetti)的条目。[19]为了访问这些内容,使用查询表单来搜索名称中包含字符串“Villa Sacchetti”的建筑。
虽然系统找到了与该别墅有关的所有数据,但结果却不符合预期:在输出表中,搜索结果列表是按字母顺序排列的。于是,别墅、赌场、石窟、宁芙神庙等所有部分都出现在了顶层。由于别墅的名称以字母›V‹开头,因此别墅的主入口仅出现在最底部。
关系建立起语义层次,也不足以为用户带来清晰度。而造成这种情况的原因,归根结底还是在于定义的压力,与现实不断变化的环境下数字所具有的选择性之间的差异。输出算法没有准备好识别命中列表中的层次结构并在安排中考虑到这一点。同时,针对这种情况,输出逻辑已经发生了改变(图4),但当然还需要考虑许多其他例外情况。单独的属性图不足以 提供合理的概述,以便知识的上下文不会因详细信息的丰富而丢失。
图 4:罗马,皮内托萨凯蒂别墅。 ZUCCARO 中的数据集。版权归 CC-BY-NC-SA 4.0 所有。
图 4:罗马,皮内托萨凯蒂别墅。 ZUCCARO 中的数据集。版权归属于CC BY-NC-SA 4.0。
很明显,如果不额外考虑语义背景,信息系统中知识的视觉表示可能会难以理解,以至于用户会感到困惑而不是了解。如果他不知道输出算法使用哪种排序标准,则尤其如此。根据数据的与用户的相关性来排列数据需要对查询情况和系统中包含的结果集进行更深入的语义分析——尽管在搜索建筑物时已经给出了内容上下文。
图 5:萨克森建筑师罗伯特·维默 (Robert Wimmer) 的居住和 英国电报数据 旅行。 ZUCCARO 中的数据集。版权归 CC-BY-NC-SA 4.0 所有。
图 5:萨克森建筑师罗伯特·维默 (Robert Wimmer) 的住宿和旅行。 ZUCCARO 中的数据集。版权归 CC-BY-NC-SA 4.0 所有。
由于材料的数字分段导致上述不成比例的性质,根据事项的相关性、重要性或范围对搜索结果进行排序也变得更加困难。艺术家的居住地、旅游目的地、学习地点和工作地点可以通过图形模型完美地表示出来,而且与卡片索引形式相比,可以以任意深度表示。在 ZUCCARO,每次停留都表达为与某个地方在时间和模态上定义的关系。以萨克森建筑师罗伯特·维默(Robert Wimmer,1829-1907)的传记为例,据我们所知,他意大利之旅的草图保存在柏林艺术图书馆,最近得到了评估(图 5)。按照标准观点,每一次停留似乎都具有同等价值,无论是持续数年的学习停留,还是短暂但有记录的旅行停留。数据集至少包含时间持续时间,以便可以使用合适的可视化工具(例如 DARIAH-DE 的地理浏览器[20] (图 6 ))更好地理解相关性。
图 6:建筑师 Robert Wimmer 的部分旅行站于 DARIAH-DE 的地理浏览器中的可视化。版权归 CC-BY-NC-SA 4.0 所有。
图 6:建筑师 Robert Wimmer 的部分旅行站于 DARIAH-DE 的地理浏览器中的可视化。版权归属于CC BY-NC-SA 4.0。
3.2 知识表示为基于问题的可视化
在处理不确定性和模糊性时,知识的组织起着同样重要的作用。这里也没有标准的解决方案。为了做到这一点,只需考虑安排精确和不精确日期数据集所涉及的问题即可。如果您有一组日期为 1408-1415 的数据集和另一组日期精确为 1411 年的数据集,哪一个会首先输出?那么涵盖 1405 年至 1420 年期间的另一组数据会发生什么情况呢?
相应的问题背景在知识的安排中起着重要作用。相同的排序标准并不适用于所有情况。当你看一位艺术家时,你可能希望他的作品按照创作的顺序列出;您可能还希望只查看已明确归属的作品,然后稍后再显示归属不确定的作品(如果愿意)。如果从收藏的角度来看待作品,您可能更喜欢按照购买日期或悬挂的房间来排列它们。在这些情况下,包含太少或不准确信息的数据集会发生什么?这可能需要针对每个具体案例进行单独考虑。需要注意的是,相关性在不同情况下的定义不同。是否存在令人满意的通用排名算法还有待观察。
此外,从根本上来说,通过不透明算法获得的结果是否可以理解为知识的表现形式是值得怀疑的。科学需要可验证性,但在这种情况下并非如此。因此,在数据编辑过程中明确定义相应的排名,即输出中数据集的权重是合乎逻辑的。但实现这一目标面临很大困难。一是,在属性图中,每个节点都可以成为关注的焦点。因此,有关关联关系排名的明确信息必须存储在节点本身中,并在必要时在那里进行修改。相关开销是否不会对系统的复杂性及其性能产生负面影响是值得怀疑的。另一个困难来自于这样一个事实:我们并不总是考虑单个节点,而是经常考虑整个选择,就像上面提到的萨凯蒂别墅 (Villa Sacchetti) 的例子。在这种情况下,知识图谱数据库中没有排名信息的存储位置,但系统本身必须跟踪它。这在数据模型中看起来如何需要单独考虑。
不确定性和模糊性的可视化本身就是一个领域,其他学科的研究早已开始解决这个问题。[21]例如,在 ZUCCARO 中,我们尝试用不同的颜色对将一幅建筑图纸归属于历史绘图员的确定性程度进行编码(图 7)。
图 7:ZUCCARO 中使用颜色对归因概率进行编码(桌面视图 2007)。版权归 CC-BY-NC-SA 4.0 所有。
图 7:ZUCCARO 中使用颜色对归因概率进行编码(桌面视图 2007)。版权归 CC-BY-NC-SA 4.0 所有。
这一主题在数字空间建模领域变得尤为明显。原则上,CAD 模型只能在非常特定的范围和位置再现墙壁。因此,与实际的历史知识相比,CAD 系统中存储的测量值通常过于精确,从而反映出没有可靠基础的知识的准确性。虚拟精度是知识模糊性的数字另一面。因此,该领域已经出现了各种应对不确定性和模糊性的策略。[22]
数据的不确定性、不完整性和粒度引发了进一步的问题。将数据存储在属性图中确实表明了对其应用自动推理方法的可能性,即使用网络算法将隐性知识转换为显性知识,从而巩固数据集。有必要研究此类程序在多大程度上会受到上述问题的阻碍。
例如,基于链接元素的数量、查询频率或用户评级的自动排名很可能总是会出现错误。从现有内容中自动得出结论或进行统计评估似乎也有问题。尽管此类程序可以采用广泛模拟的特性,以便插入不充分的信息并反馈到数据集中,但其可接受性值得怀疑。此类实验和考虑正在威尼斯时间机器项目和时间机器项目网络中进行 (图8)。[23]
图 8:Frédéric Kaplan:通过模拟弥补缺失源。 Kaplan 2013,图。 3.
图 8:Frédéric Kaplan:通过模拟弥补缺失源。Kaplan 2013,图。 3.
3.3 结论
我们使用 ZUCCARO 信息系统十二年的经验比较有限。这里提出的考虑的精髓可以表述为这样的认识:文化历史信息系统应该主要用于研究历史材料的内容。数据模型和数据库系统算法的开发应该更加注重如何将内容以最清晰、最透明的方式呈现给用户。以极其复杂和详细的方式构建数据模型,使其尽可能接近历史现实,这是次要的,在某些情况下甚至是适得其反的。力求尽可能忠实地模拟历史现实不应该是知识图谱的目标。记录数据集中的不确定性并让用户知晓是有意义的,但不建议自动评估它们。