На фоне стремительного роста числа крупных языковых моделей, одна из разработок особенно выделяется на азиатском ИИ-рынке — DeepSeek. Этот проект, появившийся в середине 2020-х, не только стремится к технологическому паритету с западными гигантами, но и выдвигает собственные инициативы в области open-source и эффективного обучения моделей. Мы поговорили с ключевыми участниками команды, чтобы выяснить, как создавался DeepSeek, с какими вызовами они столкнулись и какие принципы легли в основу архитектуры модели.
Наши собеседники — Ли Чжэн (лид по архитектуре), Тан Янь (ответственная за тренировочную инфраструктуру) и Мэ Цзюнь (руководитель проекта и стратегического направления). В интервью они приоткрыли завесу над рабочим процессом, поделились историями закулисья и обозначили видение будущего.
Как родилась идея DeepSeek
Ли Чжэн вспоминает, что мотивацией к запуску DeepSeek стало не только желание создать «азиатский ответ» GPT, но и потребность в локализованной, экономичной и прозрачной модели, пригодной для широкого применения. По его словам, вдохновением послужили open-source проекты вроде LLaMA от Meta и стабильный успех моделей Mistral.
Первые наброски архитектуры DeepSeek появились ещё в 2022 году в рамках исследовательской группы при Шанхайском университете. Команда вскоре выделилась в независимую структуру, а после получила инвестиции от нескольких технологических фондов, включая инвесторов из сферы edtech и биоинформатики.
Проект изначально ставил акцент на:
-
поддержку китайского языка наравне с английским;
-
модульную архитектуру для разных задач (код, диалог, аналитика);
-
открытость модели и исследовательских инструментов.
Тан Янь подчёркивает, что идея open-weight подхода обсуждалась с первого дня: «Мы хотели, чтобы DeepSeek служила не только компаниям, но и университетам, стартапам, энтузиастам».
Архитектура и обучение: за кулисами инженерного процесса
Мэ Цзюнь рассказывает, что в основе первой версии DeepSeek лежала модифицированная архитектура Transformer с рядом доработок:
-
Своя реализация rotary positional encoding (RoPE) для поддержки длинного контекста;
-
Упрощённая attention-секция с fusions и sparsity;
-
Разделение модели на ветки: базовую, кодовую (Code), и RLHF-обученную диалоговую (Chat).
Объёмы тренировочных данных были внушительными — более 2 трлн токенов. Особое внимание уделялось качеству текстов на китайском языке, чтобы избежать лингвистической деградации при масштабировании.
Инфраструктура обучения располагалась на мощностях Alibaba Cloud и в собственном датацентре в Чэнду. Использовались более 1500 A100 GPU, а также была реализована своя система распределённого обучения с адаптивным управлением VRAM и градиентными буферами.
Модель обучалась в несколько этапов: сначала на общих корпусах, затем на специализированных доменах (техническая документация, код, медицина), после чего — на диалоговых данных с элементами RLHF. На этом этапе активно участвовали лингвисты и психологи, чтобы добиться естественности в диалогах.
Ключевые технические характеристики DeepSeek
Параметр | Значение DeepSeek Base | DeepSeek Code | DeepSeek Chat |
---|---|---|---|
Количество параметров | 67B | 67B | 67B |
Контекстное окно | 32,000 токенов | 16,000 | 32,000 |
Поддержка языков | Китайский, английский | + Python/C++ | Мультилингв. |
Архитектура | Transformer, RoPE | Transformer | RLHF |
Open-source статус | Частично | Да | Частично |
Тренировочные токены | 2.2 трлн | 1.1 трлн | 1.8 трлн |
Мэ Цзюнь также отметил, что при масштабировании особое внимание уделялось утилизации памяти: «Нам удалось добиться компрессии слоёв без потери качества генерации, благодаря чему inference стал доступнее даже на 2×A100».
Команда: роли, культура, вызовы
Культура команды DeepSeek отличается от классической корпоративной модели. Здесь предпочитают горизонтальное управление, внутренние «хакафоны» и ротацию специалистов между задачами. Тан Янь говорит: «Мы не делим людей строго по функциям — сегодня ты инженер, завтра — куратор корпуса данных».
Разработка велась по принципу «fast-fail», то есть команду поощряли к быстрым экспериментам без страха неудач. Этот подход ускорил отладку новых функций, таких как:
-
токенизация на базе SentencePiece для диалектов;
-
модуль RLHF с собственной reward-моделью;
-
мультиязычные адаптеры на уровне middle layers.
Внутренние встречи часто превращались в обсуждения философии ИИ. По словам Ли Чжэна, иногда команда спорила о том, стоит ли встраивать фильтрацию контента или позволить пользователям самому регулировать параметры цензуры. Это привело к внедрению настраиваемых фильтров в DeepSeek Chat.
Что команда считает важнейшими принципами:
-
Прозрачность кода и весов;
-
Локализация без упрощения;
-
Тестирование на real-world задачах;
-
Доступность inference-инструментов для сообществ.
Как проходил запуск и первые отклики
Публичный запуск DeepSeek Base и DeepSeek Chat состоялся в декабре 2023 года. Репозитории были выложены на HuggingFace и GitHub, а демо-интерфейс — на собственной платформе.
Тан Янь отмечает, что комьюнити быстро подхватило инициативу, начав делать свои форки и fine-tune-версии. Особенно популярной оказалась Code-версия: многие азиатские стартапы начали применять её для создания ассистентов-программистов.
Среди интересных применений:
-
генерация патентных заявок на японском;
-
ассистенты для госуслуг на кантонском диалекте;
-
сжатие документов и создание резюме.
Отдельной строкой команда отмечает вклад университетов. Ли Чжэн подчёркивает, что уже более 20 исследовательских групп используют DeepSeek в академических проектах по ИИ и вычислительной лингвистике.
Платформа получила более 2 млн запусков за первые три месяца, а модель DeepSeek Chat вошла в топ-10 open-weight LLM на LMSYS leaderboard.
Визуально значимые моменты запуска:
-
Быстрый прирост issue и pull request на GitHub;
-
Виральность модели в китайском сегменте WeChat;
-
Появление кастомных версий от Open-Source-сообщества;
-
Интеграция в продукты, совместимые с LangChain.
Видение будущего: масштабирование, мультимодальность, экосистема
На вопрос о будущих планах, Мэ Цзюнь отвечает: «Мы не хотим быть просто ещё одной LLM. Мы строим экосистему». В эту экосистему входят:
-
DeepSeek Studio — IDE для обучения и тестирования своих моделей;
-
DeepSeek Mobile — облегчённая версия для телефонов и edge-девайсов;
-
DeepSeek Agents — модуль для создания автономных ИИ-агентов.
Важнейшим направлением команда считает мультимодальность. Уже в 2025 году планируется релиз версии DeepSeek Vision, поддерживающей изображение и текст. Также ведётся исследование в сторону speech-to-text модулей на базе собственного энкодера.
Компания не планирует закрывать доступ к open-weight, напротив, они рассматривают краудфандинговую схему дообучения и коллективных RLHF-экспериментов.
Мэ Цзюнь завершает интервью словами: «Мы верим, что ИИ не должен быть только про масштаб. Он должен быть про доступность, контекст и сотрудничество».
Что нас ждёт в следующей версии DeepSeek (анонсировано):
-
Поддержка аудиовхода и изображения;
-
Режим «экономичного инференса» для мобильных GPU;
-
Гибкая настройка диалоговых ролей и «личности» модели;
-
Расширенные инструменты аналитики вывода.
Краткий список вкладов open-source-сообщества
-
Адаптация под русскоязычные задачи;
-
Дообучение на юридических текстах;
-
Создание экстеншенов для VSCode и Obsidian;
-
Подключение через API к NLP-платформам.
Заключение
DeepSeek — это не просто модель, а целая история о попытке создать технологический продукт с философией прозрачности и практического применения. За этой разработкой стоят конкретные люди с именами, убеждениями и бесконечным желанием экспериментировать. Интервью с Ли Чжэном, Тан Янь и Мэ Цзюнем показывает, что ключ к успеху DeepSeek лежит не только в параметрах модели, но и в культуре команды, её гибкости и открытости к диалогу.
В эпоху, когда искусственный интеллект становится всё более централизованным, DeepSeek напоминает, что путь open-source и локализации может быть не менее значимым. Эта модель уже вдохновляет новые проекты и определённо станет важной вехой в истории ИИ.