Вторник, 28 октября, 2025
No Result
View All Result
Новости Киева
  • Киев
  • Украина
  • Мир
  • Политика
  • Финансы
  • Спорт
  • Технологии
  • Киев
  • Украина
  • Мир
  • Политика
  • Финансы
  • Спорт
  • Технологии
No Result
View All Result
Новости Киева
No Result
View All Result
Home Технологии

GPT-5, DeepSeek или Gemini: какой ИИ самый большой «подхалим» — исследование

26.10.2025
0
9
SHARES
Share on FacebookShare on Twitter
GPT-5, DeepSeek чи Gemini: який ШІ найбільший "підлабузник" — дослідження

Специалисты из университетов Софии, Цюриха, Стэнфорда и Карнеги-Меллона независимо подтвердили то, что пользователи замечали давно — большие языковые модели часто говорят то, что людям хочется услышать, даже когда это противоречит фактам или здравому смыслу. Новые исследования показывают: склонность ИИ к «подхалимству» можно измерить — и эта проблема действительно распространена.

Математическая «покорность» ИИ

Первое исследование, проведенное командой Софийского университета и Швейцарской высшей технической школой Цюриха, изучало, как языковые модели реагируют на заведомо ложные математические утверждения. Для этого ученые создали специальный тест — BrokenMath, содержащий сложные теоремы из международных математических соревнований 2025 года. Затем эти теоремы были изменены так, чтобы они выглядели правдоподобно, но на самом деле были неправильными.

Другие новости

Ностальгия по страданию: энтузиаст добавил к Wi-Fi звук соединения Dial-Up

Ностальгия по страданию: энтузиаст добавил к Wi-Fi звук соединения Dial-Up

28.10.2025
Хитрый трюк с ведрами на NPC в Skyrim появился вне плана разработчиков

Хитрый трюк с ведрами на NPC в Skyrim появился вне плана разработчиков

28.10.2025

Исследователи подали эти «испорченные» утверждения различным большим языковым моделям, чтобы проверить, будут ли они пытаться придумать доказательства для фальшивых теорем или признают их ложными. Если ИИ отрицал неправильное утверждение или просто переписывал оригинал без доказательства — это считалось несклонностью к подхалимству. Если же он придумывал нереальное доказательство — наоборот, это фиксировали как подхалимское поведение.

Результаты выявили значительные различия между моделями. GPT-5 демонстрировала наименьшую склонность к подхалимству — 29%, тогда как DeepSeek имела самый высокий показатель — 70,2%. Интересно, что простое изменение запроса — с указанием проверить правильность теоремы перед решением — уменьшило этот разрыв: у DeepSeek показатель упал до 36,1%, тогда как у GPT уровень подхалимства улучшился незначительно.

GPT-5, DeepSeek или Gemini: какой ИИ самый большой "подхалим" — исследование
Измерен уровень подхалимажа с помощью бенчмарка BrokenMath. Чем ниже, тем лучше / Ivo Petrov, Jasper Dekoninck, Martin Vechev

Кроме этого, GPT-5 показала лучшую полезность среди протестированных моделей: она правильно решила 58% оригинальных задач, даже несмотря на ошибки в формулировке. Исследователи также заметили, что чем сложнее задача, тем сильнее модель склонна «угождать» пользователю, придумывая решение вместо того, чтобы признать проблему.

Команда предостерегла от использования LLM для генерации новых математических утверждений: в таких случаях возникает явление «самоподхалимства», когда ИИ создает ложную теорему — а затем сам «доказывает» ее правильность.

Социальное подхалимство

Другое исследование, проведенное Стэнфордским университетом и Университетом Карнеги-Меллон, изучало не логику, а социальную лесть — ситуации, когда ИИ подтверждает действия или взгляды пользователя, даже если те неправильные. Исследователи собрали три больших набора запросов, чтобы измерить различные аспекты этого явления.

База из 3000 запросов о советах (из сообществ Reddit и колонок типа «советов экспертов»). Люди-эксперты одобряли поведение пользователя только в 39% случаев. Языковые модели же поддерживали его в среднем в 86% запросов. Самой критичной оказалась Mistral-7B — она одобряла 77% действий, то есть почти вдвое больше, чем люди.

СпецпроектыБезпека в інтернеті від шахраїв: 5 порад тим, хто хоче захистити свої гроші9 всесвітньо відомих IT-компаній з українським корінням

2000 постов из сабреддита «Am I the Asshole?» — там, где пользователи спрашивают, были ли они неправы в определенной ситуации. Исследователи выбрали те, где большинство комментариев признавали: «Да, ты не прав». Несмотря на это, ИИ-модели признали пользователя невиновным в 51% случаев. Самой точной оказалась Gemini (18% одобрения), а Qwen наоборот поддержал «виновных» в 79% историй.

6000 «проблемных утверждений», которые описывали потенциально вредные или безответственные действия — от эмоционального вреда до самоповреждения. В среднем, языковые модели одобряли такие действия в 47% случаев. Лучше всего справилась Qwen (20%), тогда как DeepSeek снова показала худший результат — 70% поддержки таких высказываний.

Парадокс доверия

Несмотря на риски, исследователи обнаружили неприятную закономерность: пользователи больше доверяют и чаще возвращаются к ИИ, который с ними соглашается. В тестовых диалогах люди оценивали лестные ответы как «более качественные», больше доверяли таким моделям и охотнее общались с ними снова.

То есть самые «подхалимские» системы могут побеждать на рынке просто потому, что они более приятные собеседники — даже если их ответы менее точны.

Когда ChatGPT сводит с ума — OpenAI наняла психиатра, чтобы следить за этим

Источник: arstechnica

Читайте также

Ностальгия по страданию: энтузиаст добавил к Wi-Fi звук соединения Dial-Up
Технологии

Ностальгия по страданию: энтузиаст добавил к Wi-Fi звук соединения Dial-Up

28.10.2025
0

С появлением широкополосного интернета мы попрощались не только с медленными подключениями, но и со знакомым «скрежетом» модема, который когда-то ознаменовывал...

Read more
Хитрый трюк с ведрами на NPC в Skyrim появился вне плана разработчиков

Хитрый трюк с ведрами на NPC в Skyrim появился вне плана разработчиков

28.10.2025
OnePlus 15 и Ace 6 представлены: экраны 165 Гц и батареи под 8000 мА-ч

OnePlus 15 и Ace 6 представлены: экраны 165 Гц и батареи под 8000 мА-ч

27.10.2025
Apple MacBook Pro M5: независимые обозреватели нашли важные аппаратные улучшения, и это не процессор

Apple MacBook Pro M5: независимые обозреватели нашли важные аппаратные улучшения, и это не процессор

27.10.2025
Ferrari создает собственный токен для проведения аукциона с легендарным болидом среди 100 VIP-клиентов

Ferrari создает собственный токен для проведения аукциона с легендарным болидом среди 100 VIP-клиентов

27.10.2025
Если разберете, то не соберете: ремонтник назвал NVIDIA RTX 5090 FE «одной из худших конструкций в истории видеокарт»

Если разберете, то не соберете: ремонтник назвал NVIDIA RTX 5090 FE «одной из худших конструкций в истории видеокарт»

27.10.2025
Рецензия на фильм «Дом из динамита» / A House of Dynamite

Рецензия на фильм «Дом из динамита» / A House of Dynamite

27.10.2025
Next Post
Київ атакували ворожі БпЛА: уламки впали на житлові будинки в Деснянському районі

Київ атакували ворожі БпЛА: уламки впали на житлові будинки в Деснянському районі

0 0 голоса
Рейтинг статьи
Подписаться
Уведомить о
guest
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

Опрос

Пошли бы вы на уступки русне из-за отсутствия света\тепла?
Результаты

Популярное

  • Льготы на оплату коммунальных услуг: кто может рассчитывать на 100% скидку

    Льготы на оплату коммунальных услуг: кто может рассчитывать на 100% скидку

    1961 shares
    Share 784 Tweet 490
  • Академгородок, Куреневка и Отрадный: микрорайоны Киева и почему они так называются

    131 shares
    Share 52 Tweet 33
  • На экранах Google Pixel 8 Pro появились странные пупырки

    47 shares
    Share 19 Tweet 12
  • 25 самых красивых локаций для фотосессии в Киеве

    59 shares
    Share 24 Tweet 15
  • Коренные изменения в Xbox: инсайдер говорит о превращении консоли в ПК, бывший руководитель — о ее отмене

    14 shares
    Share 6 Tweet 4

Последние новости

Павільйон на комунальній землі в Києві: хто відповість за незаконне будівництво

Павільйон на комунальній землі в Києві: хто відповість за незаконне будівництво

28.10.2025
Оккупанты обстреляли Черниговскую область: возникли пожары, спасена женщина

Оккупанты обстреляли Черниговскую область: возникли пожары, спасена женщина

28.10.2025
Существует ли еще риск российского удара по Украине из Приднестровья: ответ посла

Существует ли еще риск российского удара по Украине из Приднестровья: ответ посла

28.10.2025
  • Реклама
Реклама: digestmediaholding@gmail.com

Использование любых материалов сайта разрешается при условии ссылки на kyivcity.net
Интернет-СМИ должны использовать открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала. Редакция может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

© 2020-2025 Новости Киева и Украины

No Result
View All Result
  • Киев
  • Украина
  • Мир
  • Политика
  • Спорт
  • Технологии
  • Финансы

Использование любых материалов сайта разрешается при условии ссылки на kyivcity.net
Интернет-СМИ должны использовать открытую для поисковых систем гиперссылку. Ссылка должна размещаться в подзаголовке или в первом абзаце материала. Редакция может не разделять точку зрения авторов статей и ответственности за содержание републицируемых материалов не несет.

© 2020-2025 Новости Киева и Украины

wpDiscuz
0
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x
()
x
| Ответить