Розрізнити зайця та вовка стає все важче.
, проведене Каліфорнійським університетом у Сан-Дієго, показало, що деякі нейромережі здатні успішно імітувати людські відповіді. Зокрема, це під силу GPT‑4.5 та Llama 3.1–405B, які продемонстрували високу ефективність у ході стандартного тристороннього тесту Тьюринга. А ось GPT-4o не впоралася із завданням.
В рамках експерименту учасники у форматі сліпого п'ятихвилинного спілкування взаємодіяли з людиною та однією із систем. Після кожного раунду їм пропонувалося визначити, хто із співрозмовників був людиною.
Під час тестів точилися переважно світські бесіди. Особлива увага приділялася емоційним аспектам: можна було запитувати думку співрозмовника, а також цікавитись його почуттями та переживаннями.
У результаті GPT-4.5 набрав 73%. Тобто цю нейромережу частіше приймали за людину, ніж реальну людину. Llama 3.1-405B отримала 56%, а GPT-4o лише 21%.
Якщо учасник експерименту неспроможна відрізнити людину від машини, це, що машина успішно пройшла тест Тьюринга. Таким чином, GPT‑4.5 та Llama 3.1–405B продемонстрували високий рівень імітації людського спілкування.
Автори дослідження
Тест Тюрінга, також відомий як гра в імітацію, був запропонований британським математиком Аланом Тюрінгом у 1950 році. Його думка полягає в наступному: якщо людина не здатна відрізнити відповіді машини від відповідей людини, то машина демонструє наявність певного рівня інтелекту.
Sourse: Джерело