Проверка LLM на логику в игре Clue
В работе авторы берут текстовую версию известной игры на дедукцию и проверяют, насколько большие языковые модели умеют делать выводы шаг за шагом. В игре участвуют 6 агентов, и каждый ход требует собирать сведения, сопоставлять их и исключать лишние варианты, чтобы понять скрытое решение. Всего было проведено 18 симулированных партий. Результат оказался скромным — побед было только 4, что показывает трудность сохранения последовательного вывода на протяжении всей игры. Отдельно проверяли, помогает ли дообучение на задачах с логическими загадками. Оно не дало надежного роста качества, а в некоторых случаях увеличивало число рассуждений без роста точности. Для вывода это важно, так как объем объяснений сам по себе не делает решение лучше. Авторы тем самым показывают, что в игре подобного рода важнее точный учет сведений, чем число слов и ходов.
Объединение сервисов OpenAI
OpenAI планирует централизовать свои главные продукты в одном приложении. В общую среду войдут ча-тбот ChatGPT, среда для написания кода Codex и браузер Atlas. По данным Wall Street Journal, компания решила уйти от раздельных сервисов, в виду нецелевой траты ресурсов и помех развитию продукта как единого целого. Теперь в центре внимания будут более полезные для работы функции, а также инструменты, которые сами могут выполнять часть действий за пользователя. Руководство считает, что так проще сосредоточить команду, убрать лишние временные затраты и быстрее улучшать качество. На фоне растущего давления со стороны Anthropic, OpenAI хочет сделать ставку на более собранную линейку, а не на множество отдельных запусков. При этом речь идёт именно о веб-версии, а не о полной перестройке мобильного приложения, и это должно помочь компании лучше работать с крупными клиентами.
Ускорение приближенных join-запросов по неструктурированным данным
Статья посвящена тому, как быстрее отвечать на приближенные запросы соединения для неструктурированных данных, сохраняя при этом надежные оценки ошибки. Авторы поясняют, что в случае проверки каждой пары строк с помощью модели, качество может быть высоким, но схема выходит слишком дорогой по времени. Ранее предлагался отбор через векторные представления и случайную выборку, однако одни способы не дают надежных гарантий, а другие почти не ускоряют работу. В данной работе предложен новый подход, который соединяет в себе оба приема и самостоятельно распределяет вычислительный бюджет между ними. Если пропуски возникают слишком часто, система делает упор на выборку. Если слишком часто появляются ложные совпадения, система ставит в приоритет отбор по сходству. На реальных наборах с текстом, изображениями и смешанными данными метод дал верные интервалы доверия и снизил ошибку до 19 раз. Это делает подход удобным для практики.
Планы по Windows 11 на 2026 год
Microsoft представила план, по которому Windows 11 будут заметно дорабатывать в 2026 году. После сбора отзывов в компании признали, что системе не хватает удобства и устойчивости, поэтому в ближайшие месяцы пользователи смогут свободнее управлять панелью задач, отключать излишнюю связь с помощником в стандартных программах и контролировать обновления. Microsoft также хочет уменьшить число автоматических перезагрузок и лишних уведомлений, и вдобавок дать возможность пропускать обновления во время первой настройки устройства. Далее компания собирается ускорить проводник и запуск системы, снизить расход памяти и сократить задержку при открытии меню «Пуск». Отдельно есть обещания на повышение надежности работы драйверов, обновлений и распознавания по лицу. Сначала все эти изменения проверят участники программы предварительного тестирования, после чего их будут постепенно внедрять в обычные сборки.
Шифрование на IoT и промышленных устройствах
В статье проверяется, насколько дорого добавить шифрование в обмен данными у простых устройств интернета вещей и промышленных систем управления. Авторы делятся, что такие устройства часто все еще передают данные без защиты, потому что исторически их создавали до появления доступной легкой криптографии. Теперь же более быстрые микропроцессоры делают защиту на самом устройстве реальнее, хотя для некоторых промышленных протоколов по-прежнему важны очень жесткие требования к задержке и ее разбросу. Исследование измеряет время, которое занимает шифрование в рабочем цикле на дешевых краевых устройствах. Для проверки использован современный шифр, а испытания проведены на двух платформах. В худшем случае процесс занял меньше 6% от допустимой задержки для одной сети и меньше 3% для другой. Это важно для малых систем с жестким временем отклика.
24 часа охлаждения
Компания Google изменит порядок установки приложений, которые скачиваются не из официального магазина Google Play. Если программа создана непроверенным разработчиком, перед установкой будет вводиться задержка на 24 часа. Это сделано для повышения безопасности и снижения числа случаев обмана пользователей. Чтобы установить такое приложение, человеку нужно выполнить несколько действий — сначала включить режим разработчика, затем подтвердить, что он сам выполняет установку, после этого требуется перезагрузка устройства и повторный вход. Только после всех шагов появится возможность установить программу. Разрешение можно выдать один раз или на 7 дней. Даже после этого система будет показывать предупреждение о том, что источник ненадежный. В компании объясняют, что новая схема помогает защититься от атак, при которых пользователя заставляют быстро отключить защиту. Новые правила планируют ввести в августе. Позже появится обязательная проверка разработчиков, которую начнут тестировать в сентябре, а полностью внедрят к 2027 году.