включая точное и нечёткое сопоставление

bitheerani319 · Post by **bitheerani319** » Thu Jul 10, 2025 3:34 am

Набор данных Refcat выпущен под лицензией CC0 и доступен для скачивания с сайта archive.org . Соответствующее программное обеспечение, разработанное для извлечения и сопоставления данных, цитирований ( refcat и fuzzycat ), также доступно в виде инструментов с открытым исходным кодом. Для тех, кто интересуется техническими подробностями проекта, на сайте arxiv.org доступен официальный документ , подготовленный инженерами IA, включая Мартина Чигана, который руководил разработкой Refcat, а также описание в нашем руководстве пользователя каталога .

Что означает Refcat для постоянных пользователей IA Scholar? Refcat — это данные номера телефона работы по обеспечению взаимосвязи между материалами IA Scholar и другими ресурсами, заархивированными в Internet Archive, для упрощения просмотра и поиска, а также для обеспечения общей целостности и сохранности цитирования. Например, в цитированиях Refcat содержится более 25 миллионов веб-ссылок, и нам удалось сопоставить около 14 миллионов из них с архивными веб-страницами в Wayback Machine , а также обнаружить, что около 18% этих совпавших веб-ссылок больше не доступны в активном интернете.

Веб-ссылки в цитированиях, отсутствующих в Wayback Machine, были добавлены в текущие веб-сборы. Мы также сопоставили более 20 миллионов цитирований с книгами, доступными для выдачи в нашей службе Open Library , и сопоставили более 1 миллиона цитирований со статьями в Википедии . Помимо взаимосвязей, Refcat позволит пользователям понять, в каких работах цитируется конкретный научный ресурс (т. е. «цитируется» или «входящие цитирования»), что поможет улучшить функции поиска. Наконец, знание полного «графа знаний» IA Scholar помогает нам лучше выявлять важные научные материалы, которые мы ещё не архивировали, тем самым повышая общее качество и объём коллекции.