Поиск информации, ориентированный на LLM — подход, основанный на подавлении шума
Авторы статьи из Гонконгского университета науки и технологий утверждают, что современный поиск информации всё реже обслуживает людей напрямую и всё чаще работает на языковые модели через механизм дополнения контекстом. Это меняет само понятие качества поиска. Люди умеют игнорировать нерелевантный текст, тогда как языковые модели ограничены в объёме обрабатываемого контекста и крайне чувствительны к посторонним данным — лишняя информация становится прямой причиной галлюцинаций и логических ошибок в ответе. Авторы предлагают считать удаление шума главным узким местом всей цепочки поиска. В работе выделены четыре стадии деградации качества: недоступность данных, их невозможность обнаружения, несоответствие запросу и невозможность проверки. Для каждой стадии составлена систематизированная таблица методов улучшения соотношения полезного сигнала к шуму на уровне индексирования, извлечения, формирования контекста и агентных рабочих процессов. Статья носит концептуальный характер и задаёт направление исследований в условиях, когда главным потребителем поиска становится языковая модель.
Лучшие для запуска языковых моделей в домашних условиях
Авторы провели сравнительное исследование запуска языковых моделей весом от 1 до 80 миллиардов параметров на потребительском оборудовании двух архитектур. Первый вывод касается формата сжатия весов на видеокарте Nvidia RTX 5090 — новый формат хранения чисел с пониженной точностью даёт скорость 151 токен в секунду против 92 токенов при стандартном формате, то есть прирост составляет 1,6 раза. Однако при этом возникает обязательный выбор между режимами запуска — один обеспечивает высокую скорость, другой снижает начальную задержку с 31 до 19 миллисекунд. Второй вывод касается моделей на 70 и более миллиардов параметров — при нехватке видеопамяти и вынужденной выгрузке весов на оперативную память через шину данных скорость генерации падает более чем на 90%. Третий вывод связан с архитектурой единой памяти процессора Apple. Она позволяет линейно масштабировать модели до 80 миллиардов параметров при четырёхбитном формате хранения и обеспечивает до 23 раз лучшую энергетическую эффективность в расчёте на один токен. Таким образом, выбор оборудования для локального запуска языковых моделей определяется не только производительностью, но и зрелостью программной среды.
Ускорение детерминированного алгоритма для динамических максимальных сопоставлений
В задаче о максимальном паросочетании в динамическом графе требуется поддерживать набор попарно несмежных рёбер, охватывающий как можно больше вершин, при постоянных вставках и удалениях рёбер. До выхода данной работы все быстрые алгоритмы с временем обновления порядка логарифма от числа вершин использовали случайность и были уязвимы перед противником, который адаптирует свои действия под текущее состояние структуры данных. Детерминированные алгоритмы, работающие без случайных вычислений, с 1993 года не могли выйти за рамку времени обновления, зависящего от числа вершин в степени 0,7072. Авторы построили первый детерминированный алгоритм, достигающий амортизированного времени обновления порядка числа вершин в степени двух третей с логарифмическим множителем. Ключевой технический элемент состоит в поддержании специальной системы подграфов, разбивающей вершины на устойчивые и требующие пересмотра при каждом изменении.
DeepSeek V4
Компания DeepSeek представила две новые языковые модели: V4-Pro и V4-Flash. Обе работают по архитектуре смеси экспертов, где при обработке каждого токена активируется лишь часть всех весов. V4-Pro содержит 1,6 триллиона параметров, при этом потребляет около 27% вычислительных ресурсов по сравнению с предшественником V3 при аналогичном объёме контекста. V4-Flash насчитывает 284 миллиарда параметров и потребляет лишь 10% вычислений от V3. Контекстное окно обеих версий составляет 1 миллион токенов. На соревновательной платформе Codeforces, V4-Pro набрал рейтинг около 3206 баллов. Стоимость обработки миллиона выходных токенов — V4-Pro стоит 3,48 доллара, V4-Flash только 0,28 доллара, тогда как у конкурентов цены достигают 25–30 долларов. Веса обеих моделей опубликованы на платформе Hugging Face под свободной лицензией. Поддержка изображений и видео анонсирована на вторую половину 2026 года.
Уязвимость в ядре Linux
Исследователи из компании Xint раскрыли уязвимость CVE-2026-31431 с оценкой 7,8 балла по шкале опасности, получившую название Copy Fail. Ошибка была внесена в ядро ещё в 2017 году при добавлении оптимизаций в модуль algif_aead криптографической подсистемы. Из-за дефекта обработки буферов непривилегированный локальный пользователь получает возможность контролируемо изменять содержимое кэша любого читаемого файла, в том числе исполняемого с правами суперпользователя. Готовый сценарий атаки занимает 732 байта кода и подтверждён на Ubuntu, Amazon Linux, Red Hat и SUSE. Особую угрозу она представляет для контейнерных сред — Docker, LXC и Kubernetes по умолчанию предоставляют процессам внутри контейнера доступ к уязвимой подсистеме. В качестве временной меры защиты рекомендуется отключить загрузку модуля algif_aead.
ИИ-системы обходятся компаниям дороже персонала
Компании, активно внедряющие системы искусственного интеллекта, столкнулись с неожиданным эффектом — расходы на вычислительные мощности нередко превышают затраты на содержание сотрудников. Об этом сообщает издание Axios со ссылкой на данные компаний и экспертов, в том числе вице-президента Nvidia по прикладному глубокому обучению Брайана Катандзаро. Показательный пример — технический директор Uber израсходовал весь годовой бюджет на искусственный интеллект ещё в начале 2026 года, причём основная часть средств ушла не на найм и оборудование, а на оплату запросов к языковым моделям. Давление на бюджеты нарастает, и по оценке аналитической компании Gartner, глобальные расходы на информационные технологии в 2026 году достигнут 6,31 триллиона долларов, увеличившись на 13,5% год к году в основном за счёт вложений в инфраструктуру искусственного интеллекта. Компания Meta уже вынуждена сокращать персонал для компенсации этих затрат. В результате рынок постепенно переходит к модели частичной автоматизации, где искусственный интеллект дополняет работников, а не заменяет их полностью.