Как работает парсер запросов поисковой системы Mail.ru? Подробный пост на эту тему появился в блоге Поиска@Mail.ru.
Структура сервиса поиска выглядит так:
Фронтенд представляет форму для ввода запроса, который пересылается на MetaSM и попадает в Query Parser. Запрос классифицируется, получает дополнительный параметры и в виде дерева передается на бэкенды. Далее из индекса извлекаются данные, соответствующие запросу, которые передаются на обработку ранжированию.
Еще до передачи в систему поиска запрос обрабатывается еще двумя компонентами. Саджесты предлагают подходящие варианты продолжения запроса. Спеллчекер анализирует запрос на предмет опечаток.
Разные классы запросов (информационные, навигационные, транзакционные, которые, в свою очередь, распадаются на мелкие подклассы) требуют разных данных и формул ранжирования. При этом один запрос может иметь признаки сразу нескольких классов.
Парсер представляет собой очередь агентов, через которые проходит каждый запрос.
Основной поставщик данных для парсера запросов – словари, в которых собраны слова, характерные для разных тематик. Все запросы прогоняются через словари и маркируются.
Завершающий этап работы парсера запросов — передача полученной информации ранжированию.
Подробнее о классификации запросов и парсере поисковика можно прочитать в