На сегодняшний день самая совершенная нейросеть на базе NLP (то есть, алгоритмов распознавания текста) — GPT-3. Это нейросеть-трансформер, которая способна генерировать связные ответы в диалоге с человеком. Объем используемых ей данных и параметров в 100 раз превосходит предыдущее поколение — GPT-2.
Однако даже самые продвинутые трансформеры, обученные на огромных массивах данных не понимают смысла слов и фраз, которые они генерируют. Для их обучения нужны огромные массивы данных и вычислительные ресурсы, которые, в свою очередь, оставляют большой углеродный след. Еще одна проблема — несовершенство датасетов для обучения нейронных сетей: тексты в интернете часто содержат искажения, манипуляции и откровенные фейки.
Одно из самых перспективных направлений в развитии ИИ и нейросетей — это расширение диапазона восприятия. Сейчас алгоритмы умеют распознавать изображения, лица, отпечатки пальцев, звуки и голос. Они также умеют говорить и генерировать изображения и видео, имитируя наше восприятие разных органов чувств. Ученые MIT отмечают: чтобы приблизиться к человеку ИИ не хватает эмоционального интеллекта и чувств. В отличие от ИИ, человек умеет не только обрабатывать информацию и выдавать готовые решения, но и учитывать контекст, множество внешних и внутренних факторов, а главное — действовать в условиях неопределенности и меняющейся среды. Например, алгоритм AlphaGo от компании DeepMind способен обыграть чемпиона мира по го и шахматам, но все еще не может расширить свою стратегию за пределы доски.
Пока что даже самые продвинутые алгоритмы, включая GPT-3, находятся лишь на пути к этому. Сейчас перед разработчиками стоит задача создать мультимодальные системы, которые бы объединили распознавание текста и сенсорное восприятие для обработки информации и поиска решений.