Работа с ИИ-агентом.
Работа с данными

Перечень самих настроек и справочная информация о них приведены непосредственно рядом с каждой из настроек на страницах приложения.

Здесь же мы собрали основные принципы устройства интеграции с нейронными сетями, более подробное объяснение подсказок, а также сделали справку по элементам управления, которую затруднительно отобразить непосредственно в интерфейсе:

Общая информация
Извлечение первичных данных
Разбиение извлеченного текста на фрагменты

Общая информация

В настоящее время в качестве источников знаний можно использовать следующие ресурсы:

имеющиеся заявки и комментарии;
произвольные пользовательские файлы широко применяемых форматов;
статический текст с произвольных интернет-сайтов.

Процесс подготовки данных в общем виде состоит из этапов:

извлечение данных;
разбиение данных на фрагменты;
очистка фрагментов от персональных данных;
индексирование фрагментов для использования векторной БД.

Процесс запроса к модели нейронной сети выглядит следующим образом:

получение текста запроса (со страниц тестирования – произвольным текстом; с детальной страницы заявки – либо текст заявки, если комментариев заявителя еще не было, либо последний комментарий заявителя);
векторизация запроса;
поиск по найденному вектору запроса релевантных фрагментов контекста в векторной БД;
формирование контекста;
отправка запроса и контекста в НС.

Извлечение первичных данных

Источник «Заявки»

В источнике «Заявки» на этапе извлечения данных из основной базы данных организации извлекаются заявки и комментарии в виде диалогов заявителя и специалиста. Причем текст самой заявки служит первым сообщением в диалоге от лица заявителя.

В диалог включаются только комментарии заявителя и комментарии специалиста, которые отправлены заявителю. Внутренние и системные комментарии в диалог не включаются.

Для извлечения данных из заявок необходимо перейти в раздел «Настройки» → «AI» → «Настройка»:

В блоке «Источники» выбрать «Импорт из заявок»:

Источники даных для нейросетей в Админ24

И ниже в «Индексировании заявок» выбрать «Переиндексировать все» или «Переиндексировать новые» (если ранее индексация уже происходила и были добавлены новые заявки):

Источник «Файлы»

В источнике «Файлы» из приложенных файлов извлекается текстовое содержимое.

При этом такое содержимое возможно извлечь не из всех форматов файлов, даже тех, загрузка которых разрешена.

Кроме того, для простых текстовых форматов (.txt, .csv, .json и т. п.) играет роль еще и кодировка файла – в настоящее время Админ24 корректно работает только с простым текстом в формате UTF-8, но работы по поддержке текста в других кодировках также проводятся.

При работе с файлами .pdf также есть ограничения – в настоящее время могут индексироваться только searchable-pdf – т. е. pdf-документы с осмысленным скрытым текстовым слоем. Извлечение текстового содержимого из обычных сканов в Админ24 в настоящее время не поддерживается, но здесь, опять же, ведутся активные работы.

Самым «беспроблемным» и стабильным форматом документов в текущее время является .odt, который широко поддерживается большинством текстовых редакторов, в том числе и MS Word.

Для добавления, удаления и просмотра файлов предназначен блок управления загруженными файлами.

Настройки индексирования произвольных файлов Админ24

Для извлечения данных из файлов необходимо перейти в раздел «Настройки» → «AI» → «Настройка».

И проставить галочку напротив пункта «Импорт из файлов»:

Далее нужно подгрузить файлы, из которых нейросеть будет извлекать информацию. Для этого кликните по иконке в виде скрепки справа в блоке «Индексирование произвольных файлов» и выберите нужный файл с устройства.

подгрузить файлы, из которых нейросеть будет извлекать информацию Админ24

И ниже в «Индексировании» выбрать «Переиндексировать все» или «Переиндексировать новые» (если ранее индексация уже происходила и были добавлены новые файлы):

Также следует обратить внимание на свернутый блок со справкой по ограничениям и поддерживаемым форматам файлов:

Справка по ограничениям и поддерживаемым форматам файлов Админ24

А также на работу ссылки с названием файла – со ссылками удобнее работать, если установлено расширение для браузера для работы с офисными документами и документами .pdf (при клике по ссылке файл откроется прямо в браузере):

И иконку «Скачать» – при клике на иконку «Скачать» всегда открывается стандартное окно скачивания файла.

Источник «Сайты»

В процессе извлечения информации для источника «Сайты» индексируется статическое текстовое содержимое заданных страниц и/или разделов сайтов.
Справка по настройке приведена непосредственно в приложении в этом блоке индексирования. Поэтому не будем повторяться.

Извлечение информации из источника «Сайты» Админ24

Здесь только поясним, что под текстовым содержимом подразумевается традиционная HTML-верстка. Текстовое содержимое сайтов, построенных на js-фреймворках в настоящее время не извлекается, но, возможно, в будущем будет извлекаться и такое содержимое.

Индексируются только страницы, ссылки на которые есть на уже проиндексированных страницах, а также страницы явно заданные на индексирование и не попадающие в исключенные.

Если какая-то нужная страница или раздел не попали в индекс, то имеет смысл указать их явно в блоке страниц на индексирование и проверить, не попал ли этот URL в исключенные.

Также отметим, что в настоящее время индексируются только HTML-страницы. Приложенные к страницам файлы и документы, которые обычно скачиваются с сайта (.pdf, .docx и т. п.) в настоящее время не скачиваются и не обрабатываются, но их поддержка будет реализована в процессе развития функционала.

Опять же повторимся, что для всех источников справедливо то, что в текущее время функционал интеграции Админ24 может работать только с текстовым содержимым. Изображения никак не используются и не обрабатываются.

Существует также внутреннее ограничение на общий размер индекса и вспомогательных файлов для всех источников. В текущих условиях при использовании заявок и файлов оно недостижимо, но оно теоретически может сработать при бесконтрольном скачивании сайтов.

Для извлечения данных с сайтов необходимо перейти в раздел «Настройки» → «AI» → «Настройка».

И проставить галочку напротив пункта «Импорт с сайтов»:

И ниже в «Индексировании сторонних сайтов» указать:

учитывать ли GET-параметры в URL;
считать ли домен с WWW этим же доменом;
количество потоков индексирования (чем больше, тем быстрее);
сайты или разделы, которые нужно проиндексировать;
разделы сайтов, которые следует исключить из индексирования.

Индексирование сторонних сайтов в Админ24

И ниже в «Индексировании» выбрать «Переиндексировать все» или «Переиндексировать новые» (если ранее индексация уже происходила и был указан сайт для индексирования):

Разбиение текста на фрагменты

Разбиение извлеченных текстов на фрагменты также имеет свои особенности для различных источников (при этом шаги, включающие в себя этот процесс, также могут называться для различных источников по-разному).

Размер фрагмента для всех источников задается настройкой «Размер блока контекста (в токенах)» (про токен, как единицу измерения размеров текстов в контексте нейросетей, уже упоминали в другой инструкции). Роль этой настройки и то, как она влияет на результаты, будет более ясной после дальнейшего ознакомления с данной инструкцией.

Разбиение на фрагменты заявок и диалогов в заявках

Настроить разбивку текста из заявок можно в настройках AI в блоке «Размер блока контекста (в токенах)».

Разбиение текста заявок на фрагменты Админ24

Заявки разбиваются на фрагменты следующим образом:

Сам текст заявки является первой фразой диалога.

Алгоритм поочередно добавляет фразу за фразой к фрагменту, пока длина фрагмента укладывается в заданный размер фрагмента.

Когда фрагмент упирается в предельный размер, начинает создаваться следующий фрагмент для данной заявки.

При разбиении заявок на фрагменты играет роль настройка «Максимальное число токенов в одной фразе». Если фраза в диалоге превысит это значение, то она обрезается до размера, примерно соответствующего этой настройке.

В данном случае настройки размера блока контекста и размера фразы работают совместно – чем больше размер блока контекста (фрагмента) и чем меньше размер фразы, тем больше фраз поместится в один фрагмент.

Но при этом, чем меньше заданный размер фразы, тем больше фраз будет обрезано; чем больше размер блока контекста, тем меньше таких блоков будет отправлено при запросе к нейросети.

Подробнее о формировании суммарного контекста, направляемого вместе с запросом к нейросети, будет описано в следующих инструкциях.

Разбиение на фрагменты файлов и текстового содержимого сайтов

Сайты и файлы разбиваются на фрагменты по примерно одинаковой схеме – по очень грубой оценке определяется необходимый размер фрагмента в символах, а затем само содержимое файла или страницы разрезается по этому количеству на несколько фрагментов.

Т. к. оценка очень грубая, чтобы избежать ошибок на следующих этапах, далее проводится еще одна проверка на длину текстов – уже более точная. И тексты, не прошедшие повторную проверку отбрасываются (но отметим, что при текущих настройках количество таких текстов не превышает 1%).

Для всех источников применяется так называемое «перекрытие» – каждый фрагмент содержит в начале часть окончания предыдущего фрагмента и содержит в конце часть начала следующего фрагмента.

Такой подход позволяет лучше сохранять контекст при последующей отправке единичного или разрозненных фрагментов в НС.

Коэффициент перекрытия в настоящее время – внутренний параметр, который постоянно адаптируется в процессе активного внутреннего тестирования, поэтому его величина здесь не приводится.

Что делать, если возникли сложности?

Позвоните нам по телефону: 8 (800) 333-66-24, напишите на электронную почту: admin24@infoservice.ru или в Telegram. Принимаем звонки в любое время с 09:30 до 18:00 с понедельника по пятницу.

Мы поможем и расскажем, как настроить Admin24 под ваши нужды.

← Вернуться в Справочный центр

Возможности

Информация

Контакты

Справочный центр Admin24

Работа с ИИ-агентом.Работа с данными