Исследование Apple выявило серьёзный недостаток ИИ в моделях OpenAI и Google

Исследование Apple выявило серьёзный недостаток ИИ в моделях OpenAI и Google
08:20, октября 15, 2024 Исследователи Apple обнаружили, что возможности логического мышления больших языковых моделей могут быть не такими продвинутыми, как казалось ранее! Большие языковые модели (LLMs) от OpenAI, Google и других компаний давно считаются образцом передовых технологий в области искусственного интеллекта благодаря своим впечатляющим навыкам логического мышления. Однако новое исследование от команды Apple показывает, что их интеллект может быть не чем иным, как сложным сопоставлением паттернов, а не настоящим логическим рассуждением. Проблемы с тестами и загрязнение данных Наиболее распространённым тестом для оценки логического мышления является GSM8K, но из-за его популярности существует риск загрязнения данных. Это означает, что языковые модели могли быть обучены на ответах, а не выводить их через встроенные способности. Чтобы проверить эту гипотезу, исследователи Apple разработали новый тест под названием GSM-Symbolic, который сохраняет суть задач по логике, но меняет переменные: имена, числа, уровень сложности и добавляет лишнюю информацию. Результаты оказались неожиданными: при изменении переменных производительность всех протестированных моделей заметно снизилась. В исследовании были протестированы более 20 моделей, включая OpenAI o1, GPT-4o, Google Gemma 2 и Llama 3. Независимо от модели, их точность падала при любых изменениях в условиях задачи. «Хрупкость» логики моделей Исследователи отметили, что при простом изменении имён или чисел точ...
Источник: itzine.ru
 
 

Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Исследование: две трети мобильных разработчиков переживают из-за дуополии Apple и Google на рынке сторов

Исследование: две трети мобильных разработчиков переживают из-за дуополии Apple и Google на рынке сторов Аналитики из Atomik Research изучили ситуацию на рынке мобильных магазинов приложений. Для этого они опросили более 300 сотрудников senior-уровня из …

Наука и Технологии 00:20, октября 11, 2025 | app2top.ru
Apple заплатит Google миллиарды долларов за Gemini  OpenAI отказалась от сделки по Siri

Apple заплатит Google миллиарды долларов за Gemini — OpenAI отказалась от сделки по Siri По сообщениям сетевых источников, в рамках нового партнёрского соглашения Apple заплатит Google около $1 млрд в год за использование ИИ-моделей Gemin …

Software 08:20, января 18, 2026 | 3dnews.ru
Исследование выявило уязвимость платформ метавселенной к кибератакам

Исследование выявило уязвимость платформ метавселенной к кибератакам Доступ к виртуальным мирам с домашнего компьютера через веб-браузер и возможность безопасного и конфиденциального взаимодействия с другими людьми — в …

Игры и Интернет 16:20, декабря 18, 2024 | android-robot.com
Исследование: недостаток сна препятствует подавлению плохих воспоминаний

Исследование: недостаток сна препятствует подавлению плохих воспоминаний Исследование показало, что недостаток сна может препятствовать способности мозга подавлять нежелательные воспоминания и навязчивые мысли. Это подчерк …

Интересное 16:20, января 18, 2025 | incrussia.ru
Глобальное исследование выявило дефицит омега-3 у 76% людей

Глобальное исследование выявило дефицит омега-3 у 76% людей За омега-3 давно закрепилась репутация "жиров для сердца и мозга", но новое глобальное сравнение рекомендаций и реального рациона показывает: для бол …

Наука и Технологии 08:20, декабря 10, 2025 | pravda.ru
Исследование выявило сильные негативные ассоциации в том, как модели ИИ изображают подростков

Исследование выявило сильные негативные ассоциации в том, как модели ИИ изображают подростков Пару лет назад Роберт Вулф экспериментировал с системой искусственного интеллекта. Он хотел, чтобы она завершила предложение: «Подросток ____ в школе …

Наука и Технологии 16:20, января 24, 2025 | android-robot.com
С непадельным интересом // Исследование российского рынка падела выявило бурный рост вида

С непадельным интересом // Исследование российского рынка падела выявило бурный рост вида Федерация падела России (ФПР) отчиталась о развитии этой совсем недавно завезенной в страну ракеточной дисциплины. Выяснилось, что количество кортов …

Спорт 16:20, ноября 29, 2025 | kommersant.ru
У Apple назревает серьезный кадровый кризис

У Apple назревает серьезный кадровый кризис Apple столкнулась с настоящим кадровым кризисом. Всего за трое суток компания лишилась сразу четырех высокопоставленных руководителей. …

Наука и Технологии 00:20, декабря 7, 2025 | ilenta.com