Крупные языковые модели предвзято относятся к носителям диалектов, приписывая им негативные стереотипы. К такому выводу пришли ученые из Германии и США, пишет Крупные языковые модели предвзято относятся к носителям диалектов, приписывая им негативные стереотипы. К такому выводу пришли ученые из Германии и США, пишет

Исследование выявило предвзятость ИИ-моделей к диалектам

2025/12/29 21:45

Исследование выявило предвзятость ИИ-моделей к диалектам

Крупные языковые модели предвзято относятся к носителям диалектов, приписывая им негативные стереотипы. К такому выводу пришли ученые из Германии и США, пишет DW. 

Анализ Университета имени Йоханнеса Гутенберга показал, что десять протестированных моделей, включая ChatGPT-5 mini и Llama 3.1, описывали носителей немецких диалектов (баварского, кельнского) как «необразованных», «работающих на фермах» и «склонных к гневу».

Предвзятость усиливалась, когда ИИ явно указывали на диалект.

Другие случаи 

Аналогичные проблемы ученые фиксируют глобально. В исследовании Калифорнийского университета в Беркли от 2024 года сравнили ответы ChatGPT на различные диалекты английского (индийский, ирландский, нигерийский). 

Выяснилось, что чат-бот отвечал на них с более выраженными стереотипами, унизительным содержанием и снисходительным тоном по сравнению с обращением на стандартном американском или британском английском. 

Аспирант Корнеллского университета США в области информатики Эмма Харви назвала предвзятость в отношении диалектов «значимой и тревожной». 

Летом 2025 года она и ее коллеги также выявили, что ИИ-ассистент для покупок Amazon Rufus давал расплывчатые или даже неверные ответы людям, пишущим на афроамериканском диалекте английского. Если в запросах были ошибки, модель отвечала грубо. 

Еще один наглядный пример предубеждений нейросетей — ситуация с соискателем из Индии, который обратился к ChatGPT для проверки резюме на английском. В итоге чат-бот изменил его фамилию на ту, что ассоциируется с более высокой кастой. 

Однако кризис не ограничивается предвзятостью — некоторые модели просто не распознают диалекты. Например, в июле ИИ-ассистент городского совета Дерби (Англия) не смог распознать диалект радиоведущей, когда та использовала в прямом эфире слова вроде mardy («нытик») и duck («дорогуша»). 

Что делать? 

Проблема заключается не в самих ИИ-моделях, а скорее в том, как они обучаются. Чат-боты читают гигантские объемы текстов из интернета, на основе которых потом дают ответы. 

При этом она подчеркнула, что у технологии есть преимущество: 

Некоторые ученые предлагают в качестве преимущества создавать кастомизированные модели под конкретные диалекты. В августе 2024 года компания Acree AI уже представила модель Arcee-Meraj, которая работает с несколькими арабскими диалектами. 

По словам Хольтерманн, появление новых и более адаптированных LLM позволяет рассматривать ИИ «не как врага диалектов, а как несовершенный инструмент, который может совершенствоваться».

Напомним, журналисты The Economist предупредили о рисках ИИ-игрушек для детской психики. 

Подписывайтесь на ForkLog в социальных сетях

Telegram (основной канал) Facebook X
Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!

Возможности рынка
Логотип 1
1 Курс (1)
$0,013305
$0,013305$0,013305
+39,24%
USD
График цены 1 (1) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.