2021 年 11 月的一项谷歌新专利引起了我的注意。它描述了谷歌如何根据非结构化信息中的实体引用来识别和排名自然语言中提出的问题。享受阅读!
目录[隐藏]
1谷歌专利
2总结
3专利中的更多有趣见解
4结论
谷歌专利
我想在这里总结的谷歌专利于 2019 年 5 月签署,并于 2021 年 11 月发布,标题为“使用非结构化数据中的实体引用进行问答”。
概括
该专利是关于回答用户在搜索引擎中输入的实体相关问题。系统识别 美国华侨华人数据 搜索查询中的至少一个实体或实体类型,并尝试根据围绕该实体的排名内容来回答该问题。答案显示在搜索结果上方,类似于精选片段。所描述的方法主要涉及谁?什么?和在哪里?的问题。
根据 W 问题的类型,系统识别所要求的实体类型。谁的问题指的是个人实体。问题涉及位置相关的实体。不以 W 问题开头的搜索查询也可以被识别为问题。例如,搜索查询“第一位登山者登上珠穆朗玛峰”被识别为“谁的问题”。
图 2 示出了根据本公开的一些实施方式回答问题的说明性示例。在图示的示例中,网页搜索引擎接收“谁”问题,检索多个搜索结果,并基于搜索结果和与搜索结果相关的信息提供答案。可以理解,虽然图示的示例在响应“谁”问题时引用了人员实体,但是可以响应任何合适类型的问题来识别任何合适类型的实体。例如,可以响应“哪里”问题来识别位置实体。
根据排名前 10 位的文档中的信息来识别适当的实体并编制答案。第一步,收到(搜索)问题后,编译搜索查询的部分出现的文档。在下一步中,将编译与至少一个搜索结果相关的所请求实体的引用并按相关性排序。实体引用的排名一方面基于相应实体引用在搜索结果中出现的频率,另一方面基于信息的及时性。然后将最重要的参考作为答案输出。
这种方法可以始终为有关人、地点和事物的简单问题提供最新的答案。另一个优势是,谷歌不需要机器可读的结构化信息来回答问题。另一方面,该专利建立了问题答案和搜索结果排名之间的联系:
在一些实现中,问答可以利用搜索结果排名技术。
我的理解是,如果您充分回答内容中提出的问题,相应的搜索结果就会获得排名优势。换句话说,除了相关性分数和质量分数之外,主题性或新鲜度分数也发挥着作用。
在一些实施方案中,排名和/或选择基于质量分数、新鲜度分数、相关性分数、任何其他合适的信息或它们的任意组合。
我发现这种区分令人兴奋,因为在我看来,它涵盖了三个最重要的排名因素领域。
相关性(来自文本分析等的经典信息检索信号(例如 TF-IDF、Word2Vec ......))
品质(EAT)
时事性
该专利还将链接视为质量的可能信号:
在一个示例中,与搜索结果相关的质量分数可能包括指向和来自相应网页的链接数量。