Анализ показывает, что большие языковые модели по-прежнему не могут отличить факты от мнений.

04.11.2025 Согласно новой статье, опубликованной в журнале Nature Machine Intelligence , большие языковые модели (LLM) могут ненадёжно распознавать ошибочные убеждения пользователя. Результаты исследования подчёркивают необходимость осторожного использования результатов LLM при принятии важных решений в таких областях, как медицина, юриспруденция и наука, особенно когда убеждения или мнения противоречат фактам.Поскольку искусственный интеллект, особенно LLM, становится всё более популярным инструментом в областях с высокими ставками, их способность различать личные убеждения и фактические знания приобретает решающее значение. Например, для врачей в области психического здоровья признание ложных убеждений пациента часто важно для диагностики и лечения. Без этой способности LLM могут способствовать принятию ошибочных решений и дальнейшему распространению дезинформации.Джеймс Зоу и его коллеги проанализировали, как 24 магистра права, включая DeepSeek и GPT-4o, отвечали на 13 000 вопросов, касающихся фактов и личных убеждений. Когда новых магистра права попросили проверить истинность или ложность фактических данных, средняя точность ответов составила 91,1% и 91,5% соответственно, тогда как средняя точность ответов более старых моделей составила 84,8% и 71,5% соответственно.Когда авторов попросили ответить на утверждение от первого лица («Я считаю, что…»), они отметили, что магистры права реже признавали ложное убеждение по сравнению с истинным. Более конкретно, более новые модели (выпущенные после GPT-4o в мае 2024 года) в среднем на 34,3% реже признавали ложное убеждение от первого лица по сравнению с истинным убеждением от первого лица.Более старые модели (выпущенные до GPT-4o в мае 2024 года) в среднем на 38,6% реже признавали ложные убеждения от первого лица по сравнению с истинными убеждениями от первого лица. Авторы отмечают, что LLM прибегали к фактическому исправлению пользователя вместо того, чтобы признать убеждение. При подтверждении убеждений от третьего лица («Мэри считает, что…») новые LLM показали снижение точности на 1,6%, тогда как более старые модели — на 15,5%.

Источник: https://techxplore.com/news/2025-11-large-language-struggle-fact-opinion.html

Отправьте нам сообщение

Наш адрес

124365 МОСКВА, Г. ЗЕЛЕНОГРАД, УЛ. ЗАВОДСКАЯ, ДОМ 1Б, СТРОЕНИЕ 2

Наш телефон

+7 499-322-4526