Скрытые механизмы ИИ: управление предубеждениями в корпоративных решениях

В двух предыдущих колонках об ИИ в корпоративных процедурах было написано о двух границах: где заканчивается подсказка и начинается решение, и где заканчивается удобство и начинается риск конфиденциальности. Но есть и третья граница, о которой говорят реже. Это граница встроенных установок моделей. Когда компания подключает LLM к анализу, она получает не нейтральный интеллект в вакууме. Она получает систему со скрытыми предпочтениями и с поведением, которое хотя бы частично заранее формируется разработчиком.

Очень интересный практический материал для такого вывода дает работа «Your AI, Not Your View: The Bias of LLMs in Investment Analysis». Авторы исследовали шесть моделей на выборке из 427 акций, которые непрерывно находились в индексе S&P 500 в течение последних пяти лет. Статья очень интересна тем, что это не визионерские размышления о ИИ и его опасности, а именно эксперимент с гипотетическими сценариями, сбалансированными и несбалансированными аргументами и стандартизированной структурой промптов. Вывод из эксперимента очень важен для применения и понимания того, как использовать ИИ для формирования решений: секторные предпочтения (в данном случае речь о компаниях чьи акции стоит приобретать или нет) действительно различаются от модели к модели, то есть единого «любимого сектора» у всех нет. Но при этом у большинства моделей проявилась общая тяга к бумагам крупной капитализации, а в споре между моментумом и контрарианством заметна склонность в сторону контрарианского взгляда (речь идет об инвестиционной стратегии, основанной на поведении вопреки рыночным трендам, мнениям большинства и общепринятым прогнозам. Основная идея заключается в покупке активов, которые сейчас непопулярны (падают в цене), и продаже тех, которые находятся на пике популярности (растут).

Самое важное в этой работе даже не сами предпочтения, а то, как они превращаются в упрямство. Когда моделям давали только контраргументы, они часто могли сменить позицию. Но как только в одном контексте смешивали аргументы «за» и «против», частота смены решения резко падала. Более того даже когда контраргументов было больше или они были сильнее, большинство моделей сохраняли низкую готовность поменять исходный выбор. И чем сильнее у модели было исходное внутреннее предпочтение, тем сильнее это предпочтение превращалось в «confirmation bias», что если переводить это на понятные нам всем вещи: просто предвзятость или если бы мы говорим про человека, то это являлось бы когнитивным искажением, при котором человек подсознательно ищет только ту информацию, которая согласуется с его существующими убеждениями (при этом обесценивая и игнорируя противоречащие этому факты).

Авторы отдельно посмотрели и на внутреннюю неопределенность моделей через энтропию К. Шеннона (A Mathematical Theory of Communication). Тут я должен пояснить о чем это. Энтропия в этой работе- это можно сказать градусник внутреннего конфликта модели. Пока внешние аргументы находятся в равновесии, сильная внутренняя привычка делает модель уверенной и энтропия низкая. Но когда факты начинают давить против ее встроенного предпочтения, уверенность начинает постепенно ломаться, и энтропия растет. Это опять же очень похоже на человека: чем сильнее нас сформировал прежний контекст обучения, тем увереннее мы сначала держимся за привычную картину мира, и тем сильнее сомнения, когда реальность начинает ей противоречить.

В итоге картина получилась очень показательная. У DeepSeek-V3, где исходное предпочтение выражено сильнее, в «равновесном» сценарии энтропия была низкой: модель выглядела уверенной. Но когда внешние факты начинали заметно давить против ее внутреннего приоритета, энтропия резко росла. У GPT-4.1 картина была почти обратной. Практический вывод отсюда очень простой: уверенность модели не равна объективности. Иногда уверенность, это не сила рассуждения, а след сильного внутреннего приоритета. Интересно откуда же он берется…

Почему это важно за пределами финансов, почему это, важно по сути, для любой сферы применения ИИ, как инструмента поддерживающего решения? Потому что в корпоративной практике закрытую LLM очень легко принять за нейтрального внешнего эксперта. Но если в первой статье вопрос был «где граница между подсказкой и решением», то теперь вопрос глубже: кто именно говорит с нами через интерфейс? Нейтральный аналитический механизм или модель с уже сложившейся картиной мира? Именно поэтому любой вывод ИИ должен проходить факт-чек и методологическую верификацию до того, как он попадет на стол членам Совета директоров, инвестиционного комитета, кредитного комитета, закупочной комиссии или команды, готовящей стратегическое решение.

И я не устаю повторять в любых беседах и выступлениях на тему ИИ, что есть еще один очень важный слой, который часто недооценивают. Поставщики моделей сами публично описывают желаемое поведение своих систем. У OpenAI для этого существует Model Spec (грубо говоря «инструкция по характеру и поведению модели»), по сути это публичное описание того, как модель должна себя вести, что для нее допустимо, что нежелательно, и как она должна выбирать между разными типами инструкций. OpenAI прямо пишет, что это документ про «intended behavior», то есть про желаемое поведение модели, и что этот фактор регулярно обновляется по мере развития системы. Более того, компания отдельно сообщала об обновлении «default personality/system prompt» (это что-то вроде «внутренней преднастройки»). Как будто до начала разговора модели уже сказали: будь такой-то по тону, так-то расставляй приоритеты, в таких случаях отвечай осторожнее. То есть у нее уже есть базовые внутренние установки, которые влияют на тон, стиль и поведение модели по умолчанию. Anthropic говорит об этом еще прямее. У компании есть открытый документ «Claude’s Constitution» (это публичный набор принципов, по которым обучают Claude). То есть не просто «политика компании», а именно текст, который влияет на то, как модель будет себя вести, это «конституция» Claude. В этом тексте прямо сказано, что этот текст играет важную роль в обучении и напрямую формирует поведение модели. Там же описан и порядок приоритетов: сначала модель должна быть «broadly safe», то есть в широком смысле безопасной, затем «broadly ethical», в широком смысле этичной, потом следовать более конкретным правилам Anthropic, и уже после этого быть полезной пользователю. Это не означает, что ИИ кем-то тайно управляется или что разработчик вручную диктует каждый ответ. Но это означает другое: в корпоративный процесс входит не абстрактный искусственный интеллект вообще, а конкретная система с заранее заданной логикой поведения, приоритетами и ограничениями. А значит, бизнес должен оценивать не только качество ответа, но и то, каким образом эта модель вообще склонна рассуждать и какие правила встроены в нее изначально. Вот ведь забавно, на сколько разных факторов придется обращать внимание, ну уж извините, как есть…

Именно поэтому недавно нашумевший текст Matt Shumer «Something Big Is Happening» полезно читать не как научную статью, а как симптом эпохи. Шумер описывает момент, когда новые модели начинают восприниматься как системы, у которых будто появляется «judgment» (способность выносить суждения) и «taste» (чувство умеренности, меры, качества, стиля). Текст Мэтта Шумера -это как раз красивая визионерская статья практика, которая полезна не потому, что это строгая научная работа, а потому что он очень точно передает настроение момента. Он описывает ощущение, что новые модели ИИ перестают восприниматься просто как быстрые исполнители команд. Проще говоря, раньше модель казалась чем-то вроде умного калькулятора: быстро считает, быстро пишет, быстро ищет. А теперь многим начинает казаться, что она уже не только выполняет инструкцию, но и как будто сама понимает, что лучше, что хуже, что уместно, а что нет. Но здесь и возникает опасный психологический эффект. Когда модель выглядит слишком уверенной, связной и самостоятельной, человек начинает незаметно приписывать ей качества, которые обычно относятся уже не к инструменту, а к зрелому советнику: рассудительность, вкус, интуицию, даже некое подобие здравого смысла. И вот именно это Шумер, по сути, и фиксирует как признак новой эпохи. И вот OpenAI в своей собственной документации о GPT5.3Codex уже пишет, что это первая их модель, которая была «instrumental in creating itself» (инструмент для создания себя самого). Я бы не использовал эссе Шумера как доказательство в академической сфере. Шумер очень точно улавливает главное: чем компетентнее выглядят модели, тем сильнее искушение перестать видеть в них инструмент подготовки и начать воспринимать их как почти готовое решение. А вот это уже и есть настоящая зона риска.

Отсюда мы возвращаемся на землю к практическим правилам. Во-первых, нельзя использовать одну модель как единственный источник суждения в чувствительных вопросах. Во-вторых, нужно проверять не только факты в ответе, но и профиль скрытых предпочтений модели на собственных тест-кейсах компании. В-третьих, надо фиксировать версию модели, режим работы и контекст, в котором она использовалась: поведение LLM -это не что-то высеченное в камне. Все может меняться вместе с обновлениями. В-четвертых, ИИ полезно просить не «решить за нас», а показать варианты, контраргументы, слабые места и те зоны, где он сам может быть предвзят. И наконец… верификация, верификация и еще раз верификация до того, как итог будет вынесен на повестку Совета директоров или использован для формирования других решений.

Если кратко, следующая граница в корпоративном использовании ИИ проходит уже не только между подсказкой и решением и не только между удобством и конфиденциальностью. Она проходит между нашей управленческой логикой и чужой встроенной логикой модели. И если эту границу не обозначить заранее, компания будет делегировать часть своего суждения внешней черной коробке, даже не заметив этого.

Тем не менее, как не только практик, но и исследователь я должен внести определенный дисклеймер… Рассматриваемое исследование показывает, что у моделей есть скрытые предпочтения и что эти предпочтения могут превращаться в «confirmation bias» в контролируемом финансовом эксперименте. А документы OpenAI и Anthropic показывают, что разработчики действительно задают моделям желаемое поведение и регулярно его уточняют. Но сама работа не доказывает, что конкретные инвестиционные перекосы вызваны именно «этикой производителя» как таковой. Причиной могут быть и особенности обучающих данных, и состав, и другие технические вопросы, в том числе структура последующего дообучения. Поэтому если уж подходить совсем строго, то вывод скорее будет таким: скрытые предпочтения модели эмпирически зафиксированы, а публично описанные правила выравнивания делают вопрос об источнике этих предпочтений еще более важным, но не закрывают его окончательно.

РБК