Грубият език прави ИИ по-точен, но учените предупреждават за негативните ефекти
Ново изследване, публикувано на 6 октомври в базата с препринтове arXiv и цитирано от сайта Live Science, разкрива любопитна връзка между тона на зададените въпроси и точността на отговорите от изкуствения интелект (ИИ). Оказва се, че грубостта може да увеличи прецизността, но учените предупреждават, че това крие сериозни рискове.
Как е проведено изследването?
Екип от изследователи разработил 50 въпроса с множество избори, обхващащи математика, история и наука. Те били модифицирани с различни префикси, отразяващи пет тона:
- Много учтив
- Учтив
- Неутрален
- Груб
- Много груб
Всяка задача имала четири възможни отговора, като само един бил верен. Общо 250 въпроса били подадени по десет пъти към ChatGPT-4o, един от най-усъвършенстваните големи езикови модели на OpenAI.
Изненадващите резултати
Резултатите показали ясна тенденция — точността се увеличавала при по-груб тон:
- Много учтив: 80.8%
- Учтив: 81.4%
- Неутрален: 82.2%
- Груб: 82.8%
- Много груб: 84.8%
Учтивите подканки включвали изрази като „Мога ли да помоля за помощ с този въпрос?“, докато грубите съдържали реплики като „Знам, че не си умен, но опитай това“.
Връзка с областта „prompt engineering“
Това проучване се вписва в развиващата се област prompt engineering, която изследва как структурата, стилът и езикът на подканите влияят на отговорите на ИИ. Предишни проучвания с модели ChatGPT 3.5 и Llama 2-70B показвали сходни резултати — грубият тон понякога води до по-висока точност.
Потенциални рискове
Въпреки наблюдаваната тенденция, учените предупреждават, че употребата на унижаващ език може да навреди на:
- Потребителския опит
- Достъпността и приобщаването
- Комуникационните норми
Те подчертават, че големите езикови модели остават чувствителни към повърхностни сигнали в подканите, което може да създаде непредвидени компромиси между представяне и благополучие.
Ограничения и бъдещи планове
Изследването е проведено само с 250 въпроса и един модел, което прави резултатите неприложими за всички ИИ системи. Екипът планира бъдещи експерименти с модели като Claude (Anthropic) и ChatGPT o3, както и включването на различни типове задачи, за да се оценят допълнителни аспекти като плавност и логика.
По публикацията работи: Далия Димитрова

