Ученые Университета Сунгюнгван в Южной Корее создали человекоподобную систему памяти, которая улучшает производительность трансформеров — моделей машинного обучения, используемых для обработки текстов на естественном языке и лежат в основе диалоговых платформ, таких как ChatGPT, передает dixinews.kz.
Трансформер представляет собой тип архитектуры глубокого обучения, который основан на механизмах, имитирующих когнитивное внимание. При обучении нейронная сеть определяет корреляции между различными словами в текстах (взятых, например, из «Википедии»), что позволяет ей генерировать собственные тексты. В отличие от рекуррентных нейронных архитектур, которые обрабатывают текст последовательно, трансформеры делают это параллельно.
Однако трансформеры сталкиваются с трудностями при обучении на длинных последовательностях из-за ограничений в емкости. Для решения этой проблемы ученые воспользовались тем фактом, что в отличие от нейронных сетей, которые обрабатывают весь текст, люди выделяют из текстов только релевантную информацию, откладывая ее в кратковременной и долговременной памяти, чтобы воспроизвести в будущем.