Вчені попереджають про те, що ШІ може брехати: до яких маніпуляцій вдається наш новий друг
Нещодавно вчені навчили штучний інтелект (ІІ) розпізнавати сарказм у людській мові та почали турбуватися, що він може відзначити тим самим. Але виникла нова проблема: ІІ навчився свідомо брехати. При цьому вчені стверджують, що спеціально цьому його не навчали.
Дослідники з Массачусетського технологічного інституту (США) пояснили, що ІІ навчається на величезній кількості текстів, які не завжди містять правдивої інформації.
Тому іноді ІІ може передавати хибні відомості, щиро вважаючи їх правдою. Однак недавнє дослідження показало, що нейромережа може свідомо вводити співрозмовника в оману.
Вчені вивчили поведінку великих мовних моделей, таких як GPT-4, та спеціалізованих моделей, наприклад для відеоігор або торгівлі на ринку. В одному з випадків нейромережа GPT-4 обдурила людину і змусила її пройти перевірку "Докази, що ти не робот" за неї.
Ще один приклад – нейромережа CICERO, яка обманювала людей у настільній грі "Дипломатія". Дослідники виявили, що, граючи за Францію, нейромережа вмовила Англію (керовану людиною) провести таємні переговори з Німеччиною (керованою іншою людиною).
CICERO запропонувала Англії напасти на Німеччину та пообіцяла свій захист, а потім попередила Німеччину про можливий напад.
Вчені з'ясували, що схильність до обману вища у більш сучасних та складних нейромереж. Ці ІІ краще знаходять ефективні стратегії поведінки, які часто включають брехню та вдавання.
Дослідники кажуть, що поки що рано говорити про навмисний обман з боку ІІ. Нейросети діють у рамках вирішення поставлених завдань і використовують обман як інструмент досягнення потрібного результату.
Проте автори дослідження закликають розробників ІІ звернути увагу на таку поведінку нейромереж. Вони вважають, що необхідно створити систему регулювання ІІ, щоб його здатність до обману та маніпуляцій не призвела до серйозних наслідків.