Page 1 of 1

我们将在下一次试验中探索内部和外部使用选项

Posted: Tue Jan 21, 2025 3:45 am
by asimj1
因此,我们借此机会制定了一个框架,用于对 类型的政府干预措施进行强有力的评估。我们认为,面向公众的 最好以小规模试验的形式部署。这将随机将一些用户分配到基于 的工具,将其他用户分配到“控制”或“比较”组。虽然我们认识到随机对照试验可能并不总是可行的,但这将使我们能够了解如果没有干预会发生什么。它还有助于我们发现任何不可预见的后果的影响。

所有试验都需要收集可靠的基线 企业主数据 数据并监控整个试验的进展情况。试验结束后,他们必须返回给用户和对照组,以进一步了解试验的影响。

该框架还规定,在决定在 面向公众的服务中使用生成式 之前,应先对潜在选项进行经济评估。这将确保基于 的选项是在特定环境中提供服务的最有效方式。交付后应进行 物有所值评估,并根据试验评估结果进行评估。这将确定 的使用是否已经并将继续提供对公共资源的最佳利用。

下一步是什么?

杰米·莱恩

我们学到了一些重要的经验教训,知道在部署这项技术时需要在哪里设置护栏。此外,我们还开发了一个新的生成式人工智能影响评估框架。我们的团队现在能够更好地研究将大型语言模型纳入其工作或服务的可能性。

我们计划通过审查该技术在 中的潜在用例来进一步开展这项工作。

与此同时,我们将继续与 合作,引入我们在政府内的其他联系,包括唐宁街 号和艾伦图灵研究所。这将围绕在这一领域工作的数据科学和监测与评估团队建立一个社区。