Вижу цель: как цифровые «отпечатки» в 3D-облаках меняют навигацию Российские разработчики нашли способ обойтись без дорогих лидаров для точного позиционирования роботов и смартфонов. Представьте, что ваш смартфон или робот с обычной камерой может всего по одному снимку понять, где находится, с точностью до сантиметра, и как повернут, с точностью до одного градуса. Именно это и умеет делать новый метод GSplatLoc, созданный совместно исследователями T-Bank AI Research, Лаборатории BE2R ИТМО и Центра робототехники Сбера. Эту разработку высоко оценили на международной конференции по роботам IROS 2025 в Китае, куда ее пригласили для устного доклада — это высшая форма признания в научном мире. GSplatLoc меняет правила игры, потому что для точной навигации больше не нужны дорогие лидары или глубинные камеры. Достаточно одной цветной камеры, как в вашем телефоне. Это открывает новые возможности. •Для роботов на складах или в торговых центрах: вместо связки «лидар + камера + датчик движения» часто хватит просто камеры и датчика движения. Это делает роботов дешевле и проще. •Для дополненной реальности в зданиях: ваш смартфон, используя заранее созданную 3D-карту, сможет точно накладывать виртуальные указатели на реальный мир, без каких-либо специальных меток. •Для интеллектуальных помощников: такая система закладывает основу для понимания смысла окружающих объектов, что нужно для создания по-настоящему умных автономных агентов. Как же это работает? Все происходит в два больших этапа. 1.Сначала нужно один раз тщательно подготовить виртуальную карту помещения или улицы. Для этого используется множество фотографий места, снятых с разных точек. На их основе строится особая трехмерная модель сцены, где все объекты представлены в виде облака миллионов крошечных разноцветных «облачков» — их называют гауссианами. Эта технология называется 3D Gaussian Splatting (3DGS), и она позволяет невероятно быстро создавать — рендерить — изображение с любой точки. Но главная хитрость в другом. Исходные фотографии анализирует нейросеть, которая находит на них самые заметные точки — углы, края объектов — и создает для каждой из них уникальный цифровой „отпечаток пальца“, дескриптор. В процессе обучения эти „отпечатки“ встраиваются прямо в параметры трехмерных „облачков“. В итоге модель запоминает не только цвет и форму, но и эти опознавательные знаки, превращаясь в детальную карту для последующего поиска. 2.Когда карта готова, начинается второй этап — работа в реальном времени. Вы делаете один снимок на камеру, и система за доли секунды определяет ваше точное местоположение и ориентацию в пространстве. Происходит это так: сначала метод быстро находит на вашем фото ключевые точки и сверяет их «отпечатки» с „отпечатками“ на 3D-карте, вычисляя ваше примерное, грубое положение. Затем начинается тонкая подстройка: система берет ваше реальное фото и сравнивает его с виртуальным изображением, которое она сама же генерирует из своей 3D-модели с предполагаемой точки съемки. Она буквально подкручивает параметры своей позиции до тех пор, пока синтезированная картинка не станет максимально похожа на вашу. Это и есть финальное, сантиметровое уточнение. Уникальность GSplatLoc — в удачном соединении двух идей: вплетения узнаваемых признаков прямо в 3D-модель и использования быстрой 3DGS для визуальной оптимизации. В отличие от старых методов, которые могли спотыкаться о плохую текстуру или движущиеся объекты, и от громоздких нейросетей, которые плохо работают на больших улицах, этот подход быстрый, точный и гибкий. Разработчики даже предусмотрели три режима работы, чтобы балансировать между скоростью и точностью под любую задачу. Режим работы Среднее время обработки кадра Точность (примерно) Грубый 0.2 секунды Метры / Несколько градусов Базовый 0.8 секунды Дециметры / 1-2 градуса Точный 2.0 секунды Сантиметры / ~1 градус Результаты говорят сами за себя. Внутри помещений метод показывает лучшую в своем классе точность — ошибка в несколько сантиметров и около градуса по ориентации. На городских улицах он также лидирует, определяя положение с точностью до десятков сантиметров. Система устойчиво работает даже в сложных условиях: когда мимо ходят люди, а вокруг много стекла и зеркал. Руководитель научной группы CV Research в T-Bank AI Research Руслан Рахимов поясняет: “ Представьте робота-курьера, который доставляет еду в большом торговом центре. Обычные навигационные системы, вроде GPS, внутри зданий не работают или дают ошибку в несколько метров – робот может запутаться в коридорах или не найти нужный магазин. Метод GSplatLoc позволяет роботу «видеть» окружение и точно определять, где он находится, с точностью до сантиметра. Он сравнивает изображение с камеры со своей 3D-картой и моментально уточняет позицию. Робот быстро находит маршрут даже в залах с движущимися людьми, стеклянными дверями и зеркалами. GSplatLoc наглядно демонстрирует, что будущее точной навигации — не в наращивании числа датчиков, а в интеллектуальном анализе данных с обычной камеры. Реальная польза разработки выходит далеко за рамки академических рейтингов. Главное его достоинство — демократизация точной навигации. Оно ломает финансовый барьер, ведь лидары и RGB-D-камеры — это дорогое и энергоемкое оборудование. GSplatLoc открывает путь к созданию массовых коммерческих решений. Например, можно будет делать недорогих автономных роботов для инвентаризации складов или уборки помещений, что станет доступно малому и среднему бизнесу. В розничной торговле это может привести к появлению точной indoor-навигации в каждом торговом центре прямо в приложении смартфона, без необходимости в закупке и установке дополнительной инфраструктуры (маячков, меток). Для AR это шаг к практичным очкам, которые не просто показывают информацию, а точно знают, на какой объект вы смотрите, что критически важно для ремонта, логистики и образования. В долгосрочной перспективе это фундамент для «семантических» роботов, которые не только видят, где стул, но и понимают, что на него можно сесть. Основное критическое замечание касается «замкнутого цикла» метода. Его высочайшая точность полностью зависит от предварительно построенной высококачественной 3DGS-карты. Это создает значительные операционные сложности. Процесс сканирования всего помещения или района города, съемки его с множества ракурсов и последующего обучения модели — это трудоемкая и вычислительно затратная процедура. Метод плохо приспособлен к быстрым изменениям в среде. Если в торговом зале передвинули стеллажи или на улице началось масштабное строительство, карта мгновенно устаревает, и точность локализации рухнет. Потребуется повторное сканирование и переобучение, что на данном этапе выглядит как серьезное препятствие для развертывания в сильно динамичных средах. По сути, мы получаем систему, идеальную для стабильных пространств, но уязвимую для хаоса реального мира.