SQL Agent
Авторы статьи проверяют, насколько программы на основе крупных языковых моделей умеют переводить человеческие инструкции в сложные запросы к аналитическим базам данных. Агент — это программа, которая шаг за шагом строит запрос и при необходимости обращается к вспомогательным инструментам. Авторы собрали набор задач с длинными условиями и сложной логикой и предложили понятные метрики для оценки, которые показывают частые ошибки. Неправильная агрегация приводит к ошибочным итогам, ошибки в соединениях таблиц дают дублирование строк, а вложенные подзапросы создают логические ошибки. Авторы рекомендуют проверять шаги, а также явно описывать структуру таблиц и проверять промежуточные результаты вручную.
Инструмент для подбора моделей под систему
Создан инструмент LLMFit, предназначенный для быстрого подбора и тестирования открытых моделей искусственного интеллекта на локальной машине. Утилита сканирует репозитории моделей, собирает ключевые характеристики и сверяет их с реальными ресурсами компьютера, такими как объём видеопамяти, число ядер и объём оперативной памяти. Техническая суть заключается в стандартизации профилей моделей и в простых проверках исполнения, которые показывают реальную нагрузку и задержки. Инструмент учитывает варианты квантизации, сокращающие объём весов, и предлагает варианты конфигураций вычислений на центральном процессоре при нехватке видеопамяти. Доступна версия для macOS и Linux, а также предусмотрена интеграция с менеджерами моделей для автоматизации загрузки и запуска. Это помогает быстрее выбрать модель и снизить затраты на тесты.
Посадка вертолёта на палубу корабля
В статье представлена методика для обеспечения формальных гарантий посадки вертолёта на движущуюся палубу в условиях ветра волн и неточностей модели. Техническая суть заключается в совместном использовании прогностической оптимизации и построении допустимого множества состояний, которые можно формально проверить на удержание системой при возмущениях. При планировании решается оптимизационная задача с учётом движения палубы и ограничений по положению скорости и ускорения. Одновременно с этим вычисляются сужения ограничений, которые учитывают возможные отклонения модели. Для сохранения гарантии применяется схема устойчивого множества, где для каждого шага существует корректирующее действие, которое возвращает систему в допустимую зону. В алгоритм встроен механизм резервных манёвров с быстрым переключением на упрощённое управление, если прогноз показывает риск выхода за границы безопасности.
Тренажер по вайб-кодингу
Недавно стал доступен большой сборник задач по программированию с нейронными моделями, который превращает кодинг в соревнование по созданию точных промтов. ClankerRank предлагает выбрать задачу и написать инструкцию для модели по генерации кода, который запускается против скрытых тестов. Оценивается корректность, компактность, подсказки, скорость выполнения и качество итогового кода. Технически, платформа отправляет подсказку в модель, получает код и исполняет его в изолированной среде с ограничениями по времени и памяти. Кроме базовых тестов, предусмотрены метрики стабильности результата и эффективность подсказки при повторных запусках. Интерфейс хранит историю подсказок и таблицу лидеров, а еще показывает рост навыков и пояснения к задачам.
Сложности задачи треугольника
В статье рассматривают задачу поиска треугольника, то есть трёх вершин, связанных между собой в графе. Авторы стремятся понять, при каких условиях эта задача решается быстро, а при каких становится трудной и неоптимальной по времени. Понятие дихотомии означает разделение на две категории — простые и сложные. Работа показывает эквивалентность нескольких таких разделений и объясняет на простых примерах, почему появляется сложность. Основная идея заключается в том, что если граф имеет определённую структуру, то можно использовать быстрые алгоритмы, а в противном случае, задача остаётся вычислительно трудной. Авторы предлагают критерии структуры графа, которые проверяются быстро. Они показывают, как преобразования переводят одну задачу в другую, таким образом устанавливая границу между эффективными и «трудными» случаями. Это помогает понять, когда стоит искать быстрые алгоритмы, а в каких случаях такие попытки бесполезны.
Новая модель генерации изображений Nano Banana 2
Google представила Nano Banana 2 — новую модель генерации и редактирования изображений. Это облегчённая архитектура с оптимизациями по скорости и по расходу памяти, что делает её пригодной для быстрой работы в приложениях и в облаке. Технически, модель строит многоуровневые представления признаков и использует схему внимания, которая связывает текстовые подсказки с локальными визуальными областями. Для точного воспроизведения реальных объектов система обращается к веб-поиску и подставляет актуальные референсы, что, в свою очередь, улучшает отрисовку логотипов и узнаваемых предметов. Nano Banana 2 умеет сохранять согласованность до пяти персонажей и ряда объектов в сцене. Предусмотрены режимы для разработчиков и настройка глубины планирования при генерации.