28 марта 2024

Huawei Cloud на KubeCon EU 2024 – новая эра за счет инноваций с открытым исходным кодом

На конференции KubeCon + CloudNativeCon Europe 2024, состоявшейся в Париже, Деннис Гу (Dennis Gu), главный архитектор Huawei Cloud, в своей программной речи под названием «Облачно-ориентированные технологии и ИИ – наступление интеллектуальной эры благодаря непрерывным инновациям с открытым исходным кодом» отметил, что интеграция облачно-ориентированных и ИИ-технологий имеет решающее значение для трансформации отрасли. Huawei Cloud планирует продолжать внедрять инновационные проекты с открытым исходным кодом и сотрудничать с разработчиками, чтобы ускорить наступление интеллектуальной эры.

Dennis Gu, Chief Architect of Huawei Cloud

ИИ представляет основные вызовы для облачно-ориентированной парадигмы.

В последние годы облачные технологии произвели революцию в традиционных ИТ-системах и ускорили цифровые достижения в таких областях, как Интернет и государственные услуги. Концепция Cloud native дала новые возможности, такие как молниеносные продажи и гибкие операции, такие как DevOps, благодаря управлению микросервисами. Эти изменения оказали значительное влияние на жизнь людей, а быстрый рост и широкое внедрение ИИ, включая крупномасштабные модели, стали основой отраслевых интеллектуальных систем.

Согласно опросу Epoch в 2023 году, вычислительная мощность, необходимая для базовых моделей, увеличивается в 10 раз каждые 18 месяцев, что в пять раз быстрее, чем темпы роста, предсказанные законом Мура для общих вычислений. Появление этого «нового закона Мура» благодаря ИИ и преобладание крупномасштабных моделей ИИ представляет проблемы для облачно-ориентированных технологий. В своем выступлении Деннис Гу обозначил следующие ключевые моменты:

Низкая средняя загрузка GPU/NPU повышает стоимость обучения ИИ и вывода ИИ.
Частые сбои обучающих кластеров больших моделей снижают эффективность обучения.
Сложная конфигурация крупномасштабных моделей приводит к высоким требованиям к разработке ИИ.
Развертывание крупномасштабного вывода ИИ сопряжено с риском непредсказуемых задержек доступа конечных пользователей и потенциальных проблем с конфиденциальностью данных.

Инновации Huawei Cloud AI предлагают разработчикам идеи для решения таких проблем.

Растущие размеры моделей ИИ требуют больше вычислений, что создает проблемы для облачно-ориентированных технологий, но также создает возможности для инноваций в отрасли. Деннис Гу поделился историями об инновациях ИИ Huawei Cloud, предложив разработчикам ориентир для решения проблем.

Huawei Cloud использовала KubeEdge, облачную платформу граничных вычислений, для создания многороботовой платформы планирования и управления. С помощью этой платформы пользователи могут использовать команды естественного языка, чтобы указывать платформе, что делать, а система будет координировать работу роботов на периферии для выполнения сложных задач. Система разработана с трехкомпонентной архитектурой (облако, периферийный узел и робот) для решения таких задач, как понимание естественного языка, эффективное планирование и управление несколькими роботами, а также управление доступом роботов перекрестного типа. Она использует большие модели для выполнения команд на естественном языке и выполняет прогнозирование трафика, назначение задач и планирование маршрута. Трехкомпонентная архитектура значительно повышает гибкость робот-платформы, эффективность управления на 25 %, сокращает время, необходимое для развертывания системы, на 30 % и время, необходимое для развертывания новых роботов, с нескольких месяцев до нескольких дней.

Для одной из ведущих платформ обмена контентом в Китае, у которой более 100 миллионов активных пользователей в месяц, основной услугой являются рекомендации на главной странице. Эта функция поддерживается моделью с почти 100 миллиардами параметров. Для обучения этой модели платформа использует обучающий кластер с тысячами вычислительных узлов, включая сотни ПК и специалистов для одной обучающей задачи. Таким образом, существует большой спрос на улучшение планирования топологии, высокую производительность и высокую пропускную способность. Volcano, проект с открытым исходным кодом, расширяет поддержку рабочих нагрузок ИИ или машинного обучения на Kubernetes и предлагает ряд политик управления заданиями и расширенного планирования. Volcano включает в себя такие алгоритмы, как планирование с учетом топологии, упаковка контейнера и планирование с учетом Соглашения об уровне обслуживания (SLA), что приводит к повышению общей производительности обучения на 20 % и значительному снижению сложности эксплуатации и технического обслуживания для платформы.

Serverless AI (Бессерверный ИИ) находится на переднем крае разработки облачно-ориентированно архитектуры.

Многие предприятия и разработчики сталкиваются с проблемой эффективного и надежного запуска приложений ИИ при минимизации эксплуатационных расходов. Huawei Cloud разработала решение этой проблемы, определив ключевые требования облачно-ориентированных ИИ-платформ и представив новую концепцию под названием Serverless AI.

Во время своего выступления Деннис Гу объяснил, что Serverless AI предназначен для упрощения сложных задач обучения и вывода за счет разумно рекомендуемых параллельных политик, облегчая их использование разработчиками. Он также включает в себя адаптивную функцию автоматического расширения GPU/NPU, которая динамически настраивает распределение ресурсов на основе изменений рабочей нагрузки в реальном времени, обеспечивая эффективное выполнение задач. Кроме того, в Serverless AI существует бесперебойный кластер GPU/NPU, освобождающий разработчиков от опасений, что аппаратные сбои могут прерывать услуги работу сервисов. Самое главное, что Serverless AI совместим с основными фреймворками ИИ, что позволяет разработчикам легко интегрировать свои существующие инструменты и модели ИИ.

Serverless AI также является очень важной разработкой для поставщиков облачных сервисов. Serverless AI обеспечивает множество преимуществ, таких как улучшенное использование GPU/NPU, более эффективные гибридные рабочие нагрузки для обучения, вывода и разработки, а также экологичные вычисления за счет повышения энергоэффективности, что позволяет экономить деньги на электроэнергии. Кроме того, Serverless AI дает возможность совместного использования GPU/NPU несколькими арендаторами в разных пространствах или в разное время, улучшая показатель повторного использования ресурсов. Наиболее значимым аспектом Serverless AI является его способность обеспечивать гарантированное качество обслуживания (QoS) и соглашения об уровне обслуживания (SLA) как для задач обучения, так и для задач вывода, обеспечивая стабильное и качественное обслуживание.

Serverless AI использует гибкий уровень планирования ресурсов, который построен на виртуализированной операционной системе. Этот уровень реализует основные функции фреймворков приложений в промежуточный уровень ресурса приложений. Деннис Гу представил эталонную архитектуру Serverless AI. Он считает, что эта архитектура позволяет Serverless AI автоматически управлять крупномасштабными ресурсами ИИ. Это включает в себя точный анализ моделей использования ресурсов, совместное использование ресурсов из гетерогенных пулов оборудования и обеспечение отказоустойчивости во время задач обучения ИИ с помощью виртуализации GPU/NPU и миграции нагрузки в реальном времени. Кроме того, многомерное планирование и адаптивное эластичное масштабирование улучшают использование ресурсов.

На подфоруме технические эксперты из Huawei Cloud отметили, что рабочие нагрузки ИИ или машинного обучения, работающие на Kubernetes, неуклонно растут. В результате многие компании создают облачно-ориентированные платформы искусственного интеллекта на основе нескольких кластеров Kubernetes, которые распространяются по центрам обработки данных и различным типам графических процессоров. Karmada и Volcano могут разумно планировать рабочие нагрузки графических процессоров в нескольких кластерах, поддерживая передачу неисправностей и обеспечивая согласованность и эффективность внутри кластеров и между ними. Они также могут сбалансировать использование ресурсов во всей системе и качество обслуживания рабочих нагрузок с различными приоритетами для решения задач управления крупномасштабными и гетерогенными средами графических процессоров.

Karmada предлагает быстрое, надежное автоматическое управление приложениями в мультиоблачных и гибридных облачных сценариях. Все большее число пользователей используют Karmada для создания адаптируемых и эффективных решений в производственных средах. Karmada была официально обновлена до инкубационного проекта CNCF в 2023 году, и сообщество с нетерпением ожидает присоединения большего числа партнеров и разработчиков.

Volcano Gang Scheduling – это решение для распределенного обучения ИИ и сценариев больших данных, которое решает проблемы бесконечного ожидания и взаимной блокировки в распределенных обучающих задачах. Благодаря топологии задач и планированию с учетом ввода-вывода задержка передачи распределенных учебных задач сводится к минимуму, что повышает эффективность обучения на 31 %. Кроме того, minResources решает конфликт ресурсов между драйвером Spark и исполнителем в высококонкурентных сценариях, оптимизирует степень параллелизма и улучшает производительность на 39,9 %.

Деннис Гу считает, что ключом к повышению производительности ИИ является гибкость облачно-ориентированных технологий и инновации гетерогенных вычислительных платформ ИИ. Huawei Cloud посвящена инновациям с открытым исходным кодом и стремится работать с коллегами по отрасли, чтобы вступить в новую интеллектуальную эру.