Дайджест новостей: события из мира науки

Детектор фишинга без внешних баз

В статье описывается модель для обнаружения фишинга, которая анализирует только структуру домена и внутренних элементов страницы без обращения к внешним базам списков. Авторы показали, что сигналов из адреса и структуры страницы достаточно, чтобы отличать злонамеренные страницы от легитимных. Модель учитывает особенности имён доменов, редиректы, необычные элементы форм и распределение ссылок по странице. Такой подход даёт быстрое решение, применимое на пользовательских устройствах и шлюзах, где доступ к централизованным сервисам ограничен. В экспериментах на реальных выборках модель показала высокий уровень обнаружения при низкой частоте ложных срабатываний. Метод прост в развёртывании и не требует постоянного обновления внешних списков, что снижает эксплуатационные расходы.

Прорыв Qwen?

Команда Qwen облачного подразделения Alibaba представила серию компактных моделей Qwen 3.5 с открытыми весами под лицензией Apache 2.0, включая варианты на 9, 4, 2 и 0.8 миллиарда параметров. Новые версии выполнены в плотном формате и доступны на нескольких платформах для локального запуска. По представленным данным, версия на 9 миллиардов параметров на ряде тестов показывает сравнимые результаты и, в некоторых случаях, выше, чем у моделей значительно большего размера, включая показатели на тестах для знаний и задач с инструментами. Авторы подчеркивают, что архитектурные решения позволяют нативно поддерживать длинные контексты и обеспечить мультимодальную работу с текстом, изображениями и видео при меньших вычислительных затратах, чем у крупномасштабных собратьев.

Ускорение векторного поиска через локальность запросов

Авторы описывают способ ускорения поиска по векторным индексам, который учитывает локальность запросов. Исследователи заметили, что в реальных системах запросы часто сосредоточены на небольших областях индекса. Был предложен механизм коротких путей, которые направляют поиск к часто используемым участкам и позволяют избежать полного обхода всего индекса. В результате, среднее время ответа падает в 2+ раза на реальных данных, при том, что точность поиска сохраняется. Метод простым образом внедряется в существующие структуры индекса и не требует их перестройки. Он снижает нагрузку на диск и сеть, а также улучшает масштабируемость при больших наборах векторных представлений. Авторы также показали, что накладные расходы на поддержку коротких путей невелики и остаются стабильными при росте запросов.

ИИ-агент для Android

В бета-версии мобильного приложения «Яндекс» с голосовым ассистентом Алисой обнаружено тестирование нового агента для Android. Компания подтвердила начало ограниченных испытаний и сообщила, что агент получает расширенный доступ к функциям телефона, чтобы по голосовой команде отправлять сообщения, устанавливать приложения и искать информацию на устройстве. Пока доступ предоставляют ограниченному кругу лиц через подачу заявки. В публикации отмечено, что такая интеграция даёт возможность управлять повседневными задачами без ручного ввода, но требует тщательной проверки прав доступа и защиты данных. Похожие пилоты запускали и другие крупные компании, первые сценарии включают заказ еды и вызов транспорта на поддерживаемых моделях смартфонов.

Ускорение баз на S3

В статье описывается метод ускорения операции подтверждения транзакций при хранении данных в облачных объектных системах с низкой задержкой. Проблема в том, что при переносе данных в объектное хранилище система вынуждена ждать нескольких этапов подтверждения, и это делает записи медленными. Авторы предлагают хранить новые записи временно в локальном буфере и вести упорядоченный журнал, таким образом, для приложения фиксация считается завершённой сразу, а затем надежная запись помещается в облако фоновым процессом. Такой подход снижает задержки подтверждения и повышает пропускную способность при типичных нагрузках. В экспериментах показано значительное сокращение времени фиксации и совместимость с существующими интерфейсами объектных хранилищ. Решение не требует изменения клиентской логики и позволяет транзакционным системам работать с производительностью, близкой к локальной. Это улучшает отклик приложений.

«Сбер» открыл исходный код и веса модели робота «Грин» на базе нейросети Green-VLA

Команда центра робототехники Сбера опубликовала исходный код и веса модели Green VLA и открыла доступ к материалам по роботу с именем Грин. Репозитории содержат реализацию обучения на языке Python, а веса размещены в общедоступном хранилище. Модель объединяет визуальное восприятие робота с текстовыми инструкциями и управление движением, что позволяет роботу выполнять простые физические задачи на разных платформах. В описании указано, что обучение проходит по этапам: сначала на общих данных из сети, затем на записях с реальных роботов и наконец, на примерах с конкретного железа. Робот имеет рост около 180 сантиметров, 41 степень подвижности и 2 вычислительных модуля на борту. Проект опубликован под лицензией MIT и сопровождается техническим отчётом, что делает методологию доступной для исследователей и инженеров.