Как жидкостный искусственный интеллект конкурирует с трансформерными моделями

Привет, на связи Юлия Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью о том, что стартап под названием Liquid AI утверждает, что модели на основе Liquid Foundational Models (M) превосходят модели на основе трансформеров, ставшие знаменитыми благодаря ChatGPT.

Несмотря на впечатляющие возможности, большинство традиционных моделей глубокого обучения сталкиваются с рядом ограничений. Одним из таких является неспособность вспомнить ранее усвоенные знания после освоения новой задачи (катастрофическое забывание) и невозможность адаптироваться к новой информации (потеря пластичности).

Жидкостные нейронные сети (Liquid Neural Networks, LNN) — это относительно новое направление, которое может решить эти проблемы благодаря динамичной архитектуре и возможностям адаптивного и непрерывного обучения.

Впервые представленные в 2020 году исследователями из MIT, жидкостные нейронные сети представляют собой тип рекуррентных нейронных сетей (RNN), которые могут эффективно обрабатывать последовательные данные. В отличие от традиционных нейронных сетей, которые обычно обучаются один раз на фиксированном наборе данных, LNN способны адаптироваться к новым данным, сохраняя при этом знания о ранее выполненных задачах. Это помогает избежать проблем, таких как катастрофическое забывание и потеря пластичности.

Модели на основе LNN, разработанные Liquid AI, предлагают улучшенную производительность при минимизации использования памяти по сравнению с большими языковыми моделями (LLM), основанными на трансформерах.

«Жидкость» в названии жидкостных нейронных сетей связана с использованием жидкостной постоянной времени (Liquid Time Constant, LTC), которая позволяет сети адаптироваться к новой информации, динамически изменяя силу связей между нейронами, но при этом оставаясь устойчивой к шуму. Важно отметить, что веса узлов в LNN ограничены, что означает, что такие сети не подвержены проблемам, таким как взрыв градиентов, которые могут привести к нестабильности модели.

По словам одного из авторов исследования, Рамина Хасани, вдохновение для создания LNN было черпано из наблюдений за нематодой C. elegans — микроскопическим круглым червем, у которой в нервной системе всего 302 нейрона. Несмотря на это, C. elegans способна генерировать «неожиданно сложные динамики». Это контрастирует с крупными глубокими нейронными сетями, которые могут содержать тысячи узлов. Целью исследователей было создание упрощенной сети с «меньшими, но более богатыми узлами».

Именно эти «богатые» связи позволяют LNN работать с относительно малыми размерами сети, что, в свою очередь, снижает требования к вычислительным ресурсам, при этом сохраняя способность моделировать сложное поведение. Снижение размера сети также делает решения, принимаемые LNN, более прозрачными и интерпретируемыми по сравнению с другими крупными моделями, которые часто воспринимаются как «черные ящики».

Эти особенности придают LNN явное преимущество при обработке различных типов данных — от изображений, видео и естественного языка до временных рядов, требующих непрерывного обучения. Меньший размер и динамичная архитектура делают LNN привлекательными для таких областей, как робототехника, автономные автомобили, дроны, а также анализ данных в финансовых рынках и медицинской диагностике. Важно, что эти системы могут эффективно функционировать в условиях, где традиционные большие языковые модели слишком громоздки для хранения и обработки.

Появление Liquid AI и Liquid Foundational Models (LFM)

Огромный потенциал Liquid Neural Networks (LNN) стал стимулом для создателей этой технологии перейти на новый этап и представить так называемые Liquid Foundational Models (LFM) — новый класс генеративных моделей ИИ от стартапа Liquid AI (соучредитель и CEO — Хасани). Эти модели значительно повышают эффективность работы, одновременно минимизируя требования к памяти, в отличие от крупных языковых моделей на базе трансформеров — той самой архитектуры глубокого обучения, которую Google представил в 2017 году, а с популяризацией ChatGPT в 2022 году она стала почти универсальным решением в индустрии.

По данным компании, Liquid Foundational Models отличаются от моделей типа GPT (Generative Pre-trained Transformer) использованием гибридной вычислительной системы, основанной на «теории динамических систем, обработке сигналов и численной линейной алгебре». Это позволяет LFMs выступать в роли универсальных моделей, которые могут обучаться на любых типах последовательных данных — будь то видео, аудио, текст, временные ряды или сигналы. При этом они достигают аналогичной производительности по сравнению с традиционными моделями глубокого обучения, но с меньшим количеством нейронов.

Особенностью LFMs является значительная экономия памяти по сравнению с моделями на базе трансформеров, особенно когда речь идет о длинных входных данных.

У традиционных моделей трансформеров, таких как GPT, кеш KV увеличивается линейно с длиной последовательности, тогда как LFMs способны обрабатывать длинные последовательности с использованием того же оборудования. Так, LFM могут обрабатывать контекст длиной до 32 тысяч токенов, что делает их пригодными для более сложных задач, таких как умные чат-боты или анализ документов.

Кроме того, результаты предыдущих исследований команды показывают, что эти системы могут служить универсальными аппроксиматорами, выраженными непрерывными машинными обучающими системами для последовательных данных. Они являются эффективными по параметрам при обучении новых навыков, обладают причинной интерпретируемостью и, будучи линейно аппроксимированными, могут эффективно моделировать долгосрочные зависимости в данных.

На данный момент компания представила три версии Liquid Foundational Models, которые в тестах либо соответствуют, либо превосходят модели на базе трансформеров схожего размера:

  • LFM-1B. Модель с 1,3 миллиарда параметров, являющаяся самой маленькой в линейке LFMs. Она характеризуется высокой плотностью и предназначена для работы в условиях ограниченных ресурсов. Первичные тесты показали, что это первая модель, не основанная на GPT, которая значительно превосходит трансформеры по производительности.
  • LFM-3B. Средняя модель с 3,1 миллиарда параметров, более устойчивая и оптимизированная для использования в периферийных устройствах, таких как дроны и мобильные устройства.
  • LFM-40B. Модель с 40,3 миллиарда параметров, предназначенная для выполнения сложных задач в облачной среде. Это «смешанная модель экспертов», которая использует несколько специализированных подмоделей для решения различных типов задач.

С их улучшенной эффективностью, динамической адаптивностью и мультимодальными возможностями, Liquid Foundational Models могут стать катализатором для следующего этапа развития генеративных технологий ИИ, бросив вызов нынешнему доминированию моделей на базе GPT. В рамках недавнего запуска продуктов компания представила Liquid DevKit — инструмент для разработчиков, который предлагает упрощенный, но при этом полноценный подход к созданию, масштабированию и интерпретации моделей LFM. Также доступен демонстрационный доступ к LFMs через платформы Liquid Playground, Lambda Chat и API, а также через Perplexity Labs.

Copyright: https://habr.com/