Оптимизация нейронных сетей для обнаружения аномальных запросов в базах данных с использованием алгоритма NSGA-II
В базы данных могут приходить необычные запросы, которые могут быть SQL-инъекциями или попытками украсть данные. Обычные правила не всегда выявляют такие случаи, поэтому используют модели машинного обучения. Авторы статьи предлагают сочетания двух технологий: нейронную сеть CNN-LSTM, чтобы понять структуру и последовательность SQL-запроса, и алгоритм NSGA-II – метод многокритериальной генетической оптимизации, чтобы выбрать лучшие настройки модели одновременно по нескольким целям: точность, количество ложных срабатываний, время работы. Такой подход помогает получить модель, которая не только хорошо ловит атаки, но и не тормозит систему, а также не даёт много ложных предупреждений. В экспериментах метод показал улучшение метрик на стандартных наборах данных, поэтому он применим в банковских и медицинских системах, где защита базы данных критична.
Российский серверный процессор «Иртыш C616»
На выставке «Электроника России 2025» показали отечественный серверный процессор «Иртыш», основанный на ядрах Loongson, архитектура LoongArch. В линейке заявлены модели с 16, 32 и 64 ядрами, с частотами 2.0-2.2 ГГц в зависимости от версии и производительностью от 845 до 3072 ГФлопс. Основное производство планируется в Китае из-за отсутствия возможности отечественного производства по технологическому процессу 12 нм, корпусировка же будет производиться уже в России. В проект вложены большие инвестиции и задействован дизайн-центр «Оптимизационные технологии». Появление отечественных серверных платформ расширяет варианты для локальных вычислительных кластеров, уменьшает зависимость от зарубежного железа и создаёт возможности для портирования ПО. Одновременно это ставит задачи по совместимости, оптимизации компиляторов и верификации безопасности.
Проблемы кибербезопасности, связанные с обновлениями ПО
Обновление программного обеспечения считается хорошей практикой, они закрывают баги и уязвимости, но сам процесс обновления может создавать риски. Когда устройство запрашивает обновление, кажется, что соединение через TLS уже всё защищает. Но есть два главных риска. Первый – сертификат сервера может быть неподтверждённым или его корректность не проверяется, а без проверки цепочки сертификатов TLS не гарантирует, что вы общаетесь с настоящим сервером. Злоумышленник может подставить свой сервер и перехватить трафик. Второй риск – сам файл обновления может приходить в изменённом виде, а процесс обновления не проверяет подлинность полезной нагрузки, то есть скачанный пакет считается «доверенным» и устанавливается, даже если его кто-то подменил. Поскольку эта атака основана на управлении DNS-сервером, вероятность её реализации выше в публичных или скомпрометированных сетях.
Релиз Redis 8.4
25 ноября состоялся выпуск СУБД Redis 8.4. Главные новшества: добавлен гибридный полнотекстовый и векторный поиск; новая команда FT.HYBRID, которая объединяет полнотекстовый и векторный поиск в едином пути запроса; новая версия обеспечивает более чем на 30% более высокую пропускную способность для типичных сценариев кэширования на 90% GET и 10% SET по сравнению с Redis 8.2; большие наборы результатов распределены по нескольким шардам (shards), ответы теперь обрабатываются параллельно, а не направляются через один поток; снижено потребление памяти JSON за счёт оптимизации хранения коротких строк и однородных числовых массивов; улучшена работа с большими числовыми массивами; добавлены новые атомарные операции, которые ранее требовали написания скриптов на Lua; кластерные развёртывания значительно улучшены благодаря атомарной миграции слотов.
Мультиоблачные платформы обмена сообщениями: сравнительный анализ корпоративных архитектур
Современные компании всё чаще используют сразу несколько облаков (AWS, Azure, GCP). Чтобы приложения в разных облаках общались, нужны системы обмена сообщениями, то есть брокеры. В статье сравнивают такие платформы по трём типам нагрузок: очереди (когда сообщение обрабатывает ровно один получатель), publish-subscribe (когда одно сообщение доставляется многим), стриминг (для непрерывных потоков событий). Были выявлены следующие полезные советы из анализа:
Датасет и метод обучения нейросетей сложным правилам русского языка
Команды МГУ и Яндекса представили открытый датасет и методику обучения нейросетей сложным правилам русского языка: спряжениям, склонениям, согласованию и пунктуации. Большие языковые модели уже пишут тексты на достаточно хорошем уровне, но они часто ошибаются в грамматике, пунктуации и орфографии русского языка. Новый датасет содержит контролируемые примеры с явными грамматическими метками, а методика учит модель не просто предсказывать слова, но и соблюдать правила языка. Исследователи использовали метод RAG. Дообученная модель GECTOR находит в LORuGEC предложения с тем же типом ошибок, что и в исходной фразе, а затем подсказывает их большой языковой модели. На тестах результаты показали, что точность исправления сложных ошибок выросла на 5-10%. Так точность YandexGPT достигла 85%, а YandexGPT 5 Lite – 71%.