Интервью с разработчиками DeepSeek: как создавалась модель

На фоне стремительного роста числа крупных языковых моделей, одна из разработок особенно выделяется на азиатском ИИ-рынке — DeepSeek. Этот проект, появившийся в середине 2020-х, не только стремится к технологическому паритету с западными гигантами, но и выдвигает собственные инициативы в области open-source и эффективного обучения моделей. Мы поговорили с ключевыми участниками команды, чтобы выяснить, как создавался DeepSeek, с какими вызовами они столкнулись и какие принципы легли в основу архитектуры модели.

Наши собеседники — Ли Чжэн (лид по архитектуре), Тан Янь (ответственная за тренировочную инфраструктуру) и Мэ Цзюнь (руководитель проекта и стратегического направления). В интервью они приоткрыли завесу над рабочим процессом, поделились историями закулисья и обозначили видение будущего.

Как родилась идея DeepSeek

Как родилась идея DeepSeek

Ли Чжэн вспоминает, что мотивацией к запуску DeepSeek стало не только желание создать «азиатский ответ» GPT, но и потребность в локализованной, экономичной и прозрачной модели, пригодной для широкого применения. По его словам, вдохновением послужили open-source проекты вроде LLaMA от Meta и стабильный успех моделей Mistral.

Первые наброски архитектуры DeepSeek появились ещё в 2022 году в рамках исследовательской группы при Шанхайском университете. Команда вскоре выделилась в независимую структуру, а после получила инвестиции от нескольких технологических фондов, включая инвесторов из сферы edtech и биоинформатики.

Проект изначально ставил акцент на:

  • поддержку китайского языка наравне с английским;

  • модульную архитектуру для разных задач (код, диалог, аналитика);

  • открытость модели и исследовательских инструментов.

Тан Янь подчёркивает, что идея open-weight подхода обсуждалась с первого дня: «Мы хотели, чтобы DeepSeek служила не только компаниям, но и университетам, стартапам, энтузиастам».

Архитектура и обучение: за кулисами инженерного процесса

Мэ Цзюнь рассказывает, что в основе первой версии DeepSeek лежала модифицированная архитектура Transformer с рядом доработок:

  • Своя реализация rotary positional encoding (RoPE) для поддержки длинного контекста;

  • Упрощённая attention-секция с fusions и sparsity;

  • Разделение модели на ветки: базовую, кодовую (Code), и RLHF-обученную диалоговую (Chat).

Объёмы тренировочных данных были внушительными — более 2 трлн токенов. Особое внимание уделялось качеству текстов на китайском языке, чтобы избежать лингвистической деградации при масштабировании.

Инфраструктура обучения располагалась на мощностях Alibaba Cloud и в собственном датацентре в Чэнду. Использовались более 1500 A100 GPU, а также была реализована своя система распределённого обучения с адаптивным управлением VRAM и градиентными буферами.

Модель обучалась в несколько этапов: сначала на общих корпусах, затем на специализированных доменах (техническая документация, код, медицина), после чего — на диалоговых данных с элементами RLHF. На этом этапе активно участвовали лингвисты и психологи, чтобы добиться естественности в диалогах.

Ключевые технические характеристики DeepSeek

Параметр Значение DeepSeek Base DeepSeek Code DeepSeek Chat
Количество параметров 67B 67B 67B
Контекстное окно 32,000 токенов 16,000 32,000
Поддержка языков Китайский, английский + Python/C++ Мультилингв.
Архитектура Transformer, RoPE Transformer RLHF
Open-source статус Частично Да Частично
Тренировочные токены 2.2 трлн 1.1 трлн 1.8 трлн

Мэ Цзюнь также отметил, что при масштабировании особое внимание уделялось утилизации памяти: «Нам удалось добиться компрессии слоёв без потери качества генерации, благодаря чему inference стал доступнее даже на 2×A100».

Команда: роли, культура, вызовы

Культура команды DeepSeek отличается от классической корпоративной модели. Здесь предпочитают горизонтальное управление, внутренние «хакафоны» и ротацию специалистов между задачами. Тан Янь говорит: «Мы не делим людей строго по функциям — сегодня ты инженер, завтра — куратор корпуса данных».

Разработка велась по принципу «fast-fail», то есть команду поощряли к быстрым экспериментам без страха неудач. Этот подход ускорил отладку новых функций, таких как:

  • токенизация на базе SentencePiece для диалектов;

  • модуль RLHF с собственной reward-моделью;

  • мультиязычные адаптеры на уровне middle layers.

Внутренние встречи часто превращались в обсуждения философии ИИ. По словам Ли Чжэна, иногда команда спорила о том, стоит ли встраивать фильтрацию контента или позволить пользователям самому регулировать параметры цензуры. Это привело к внедрению настраиваемых фильтров в DeepSeek Chat.

Что команда считает важнейшими принципами:

  • Прозрачность кода и весов;

  • Локализация без упрощения;

  • Тестирование на real-world задачах;

  • Доступность inference-инструментов для сообществ.

Как проходил запуск и первые отклики

Публичный запуск DeepSeek Base и DeepSeek Chat состоялся в декабре 2023 года. Репозитории были выложены на HuggingFace и GitHub, а демо-интерфейс — на собственной платформе.

Тан Янь отмечает, что комьюнити быстро подхватило инициативу, начав делать свои форки и fine-tune-версии. Особенно популярной оказалась Code-версия: многие азиатские стартапы начали применять её для создания ассистентов-программистов.

Среди интересных применений:

  • генерация патентных заявок на японском;

  • ассистенты для госуслуг на кантонском диалекте;

  • сжатие документов и создание резюме.

Отдельной строкой команда отмечает вклад университетов. Ли Чжэн подчёркивает, что уже более 20 исследовательских групп используют DeepSeek в академических проектах по ИИ и вычислительной лингвистике.

Платформа получила более 2 млн запусков за первые три месяца, а модель DeepSeek Chat вошла в топ-10 open-weight LLM на LMSYS leaderboard.

Визуально значимые моменты запуска:

  • Быстрый прирост issue и pull request на GitHub;

  • Виральность модели в китайском сегменте WeChat;

  • Появление кастомных версий от Open-Source-сообщества;

  • Интеграция в продукты, совместимые с LangChain.

Видение будущего: масштабирование, мультимодальность, экосистема

На вопрос о будущих планах, Мэ Цзюнь отвечает: «Мы не хотим быть просто ещё одной LLM. Мы строим экосистему». В эту экосистему входят:

  • DeepSeek Studio — IDE для обучения и тестирования своих моделей;

  • DeepSeek Mobile — облегчённая версия для телефонов и edge-девайсов;

  • DeepSeek Agents — модуль для создания автономных ИИ-агентов.

Важнейшим направлением команда считает мультимодальность. Уже в 2025 году планируется релиз версии DeepSeek Vision, поддерживающей изображение и текст. Также ведётся исследование в сторону speech-to-text модулей на базе собственного энкодера.

Компания не планирует закрывать доступ к open-weight, напротив, они рассматривают краудфандинговую схему дообучения и коллективных RLHF-экспериментов.

Мэ Цзюнь завершает интервью словами: «Мы верим, что ИИ не должен быть только про масштаб. Он должен быть про доступность, контекст и сотрудничество».

Что нас ждёт в следующей версии DeepSeek (анонсировано):

  • Поддержка аудиовхода и изображения;

  • Режим «экономичного инференса» для мобильных GPU;

  • Гибкая настройка диалоговых ролей и «личности» модели;

  • Расширенные инструменты аналитики вывода.

Краткий список вкладов open-source-сообщества

  • Адаптация под русскоязычные задачи;

  • Дообучение на юридических текстах;

  • Создание экстеншенов для VSCode и Obsidian;

  • Подключение через API к NLP-платформам.

Заключение

DeepSeek — это не просто модель, а целая история о попытке создать технологический продукт с философией прозрачности и практического применения. За этой разработкой стоят конкретные люди с именами, убеждениями и бесконечным желанием экспериментировать. Интервью с Ли Чжэном, Тан Янь и Мэ Цзюнем показывает, что ключ к успеху DeepSeek лежит не только в параметрах модели, но и в культуре команды, её гибкости и открытости к диалогу.

В эпоху, когда искусственный интеллект становится всё более централизованным, DeepSeek напоминает, что путь open-source и локализации может быть не менее значимым. Эта модель уже вдохновляет новые проекты и определённо станет важной вехой в истории ИИ.

Подписаться
Уведомить о
guest
0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Copyright © 2025 molodcentr40