Главная > Новости и обновления > Интервью с разработчиками DeepSeek: как создавалась модель

Интервью с разработчиками DeepSeek: как создавалась модель

На фоне стремительного роста числа крупных языковых моделей, одна из разработок особенно выделяется на азиатском ИИ-рынке — DeepSeek. Этот проект, появившийся в середине 2020-х, не только стремится к технологическому паритету с западными гигантами, но и выдвигает собственные инициативы в области open-source и эффективного обучения моделей. Мы поговорили с ключевыми участниками команды, чтобы выяснить, как создавался DeepSeek, с какими вызовами они столкнулись и какие принципы легли в основу архитектуры модели.

Наши собеседники — Ли Чжэн (лид по архитектуре), Тан Янь (ответственная за тренировочную инфраструктуру) и Мэ Цзюнь (руководитель проекта и стратегического направления). В интервью они приоткрыли завесу над рабочим процессом, поделились историями закулисья и обозначили видение будущего.

Как родилась идея DeepSeek

Ли Чжэн вспоминает, что мотивацией к запуску DeepSeek стало не только желание создать «азиатский ответ» GPT, но и потребность в локализованной, экономичной и прозрачной модели, пригодной для широкого применения. По его словам, вдохновением послужили open-source проекты вроде LLaMA от Meta и стабильный успех моделей Mistral.

Первые наброски архитектуры DeepSeek появились ещё в 2022 году в рамках исследовательской группы при Шанхайском университете. Команда вскоре выделилась в независимую структуру, а после получила инвестиции от нескольких технологических фондов, включая инвесторов из сферы edtech и биоинформатики.

Проект изначально ставил акцент на:

поддержку китайского языка наравне с английским;
модульную архитектуру для разных задач (код, диалог, аналитика);
открытость модели и исследовательских инструментов.

Тан Янь подчёркивает, что идея open-weight подхода обсуждалась с первого дня: «Мы хотели, чтобы DeepSeek служила не только компаниям, но и университетам, стартапам, энтузиастам».

Архитектура и обучение: за кулисами инженерного процесса

Мэ Цзюнь рассказывает, что в основе первой версии DeepSeek лежала модифицированная архитектура Transformer с рядом доработок:

Своя реализация rotary positional encoding (RoPE) для поддержки длинного контекста;
Упрощённая attention-секция с fusions и sparsity;
Разделение модели на ветки: базовую, кодовую (Code), и RLHF-обученную диалоговую (Chat).

Объёмы тренировочных данных были внушительными — более 2 трлн токенов. Особое внимание уделялось качеству текстов на китайском языке, чтобы избежать лингвистической деградации при масштабировании.

Инфраструктура обучения располагалась на мощностях Alibaba Cloud и в собственном датацентре в Чэнду. Использовались более 1500 A100 GPU, а также была реализована своя система распределённого обучения с адаптивным управлением VRAM и градиентными буферами.

Модель обучалась в несколько этапов: сначала на общих корпусах, затем на специализированных доменах (техническая документация, код, медицина), после чего — на диалоговых данных с элементами RLHF. На этом этапе активно участвовали лингвисты и психологи, чтобы добиться естественности в диалогах.

Ключевые технические характеристики DeepSeek

Параметр	Значение DeepSeek Base	DeepSeek Code	DeepSeek Chat
Количество параметров	67B	67B	67B
Контекстное окно	32,000 токенов	16,000	32,000
Поддержка языков	Китайский, английский	+ Python/C++	Мультилингв.
Архитектура	Transformer, RoPE	Transformer	RLHF
Open-source статус	Частично	Да	Частично
Тренировочные токены	2.2 трлн	1.1 трлн	1.8 трлн

Мэ Цзюнь также отметил, что при масштабировании особое внимание уделялось утилизации памяти: «Нам удалось добиться компрессии слоёв без потери качества генерации, благодаря чему inference стал доступнее даже на 2×A100».

Команда: роли, культура, вызовы

Культура команды DeepSeek отличается от классической корпоративной модели. Здесь предпочитают горизонтальное управление, внутренние «хакафоны» и ротацию специалистов между задачами. Тан Янь говорит: «Мы не делим людей строго по функциям — сегодня ты инженер, завтра — куратор корпуса данных».

Разработка велась по принципу «fast-fail», то есть команду поощряли к быстрым экспериментам без страха неудач. Этот подход ускорил отладку новых функций, таких как:

токенизация на базе SentencePiece для диалектов;
модуль RLHF с собственной reward-моделью;
мультиязычные адаптеры на уровне middle layers.

Внутренние встречи часто превращались в обсуждения философии ИИ. По словам Ли Чжэна, иногда команда спорила о том, стоит ли встраивать фильтрацию контента или позволить пользователям самому регулировать параметры цензуры. Это привело к внедрению настраиваемых фильтров в DeepSeek Chat.

Что команда считает важнейшими принципами:

Прозрачность кода и весов;
Локализация без упрощения;
Тестирование на real-world задачах;
Доступность inference-инструментов для сообществ.

Как проходил запуск и первые отклики

Публичный запуск DeepSeek Base и DeepSeek Chat состоялся в декабре 2023 года. Репозитории были выложены на HuggingFace и GitHub, а демо-интерфейс — на собственной платформе.

Тан Янь отмечает, что комьюнити быстро подхватило инициативу, начав делать свои форки и fine-tune-версии. Особенно популярной оказалась Code-версия: многие азиатские стартапы начали применять её для создания ассистентов-программистов.

Среди интересных применений:

генерация патентных заявок на японском;
ассистенты для госуслуг на кантонском диалекте;
сжатие документов и создание резюме.

Отдельной строкой команда отмечает вклад университетов. Ли Чжэн подчёркивает, что уже более 20 исследовательских групп используют DeepSeek в академических проектах по ИИ и вычислительной лингвистике.

Платформа получила более 2 млн запусков за первые три месяца, а модель DeepSeek Chat вошла в топ-10 open-weight LLM на LMSYS leaderboard.

Визуально значимые моменты запуска:

Быстрый прирост issue и pull request на GitHub;
Виральность модели в китайском сегменте WeChat;
Появление кастомных версий от Open-Source-сообщества;
Интеграция в продукты, совместимые с LangChain.

Видение будущего: масштабирование, мультимодальность, экосистема

На вопрос о будущих планах, Мэ Цзюнь отвечает: «Мы не хотим быть просто ещё одной LLM. Мы строим экосистему». В эту экосистему входят:

DeepSeek Studio — IDE для обучения и тестирования своих моделей;
DeepSeek Mobile — облегчённая версия для телефонов и edge-девайсов;
DeepSeek Agents — модуль для создания автономных ИИ-агентов.

Важнейшим направлением команда считает мультимодальность. Уже в 2025 году планируется релиз версии DeepSeek Vision, поддерживающей изображение и текст. Также ведётся исследование в сторону speech-to-text модулей на базе собственного энкодера.

Компания не планирует закрывать доступ к open-weight, напротив, они рассматривают краудфандинговую схему дообучения и коллективных RLHF-экспериментов.

Мэ Цзюнь завершает интервью словами: «Мы верим, что ИИ не должен быть только про масштаб. Он должен быть про доступность, контекст и сотрудничество».

Что нас ждёт в следующей версии DeepSeek (анонсировано):

Поддержка аудиовхода и изображения;
Режим «экономичного инференса» для мобильных GPU;
Гибкая настройка диалоговых ролей и «личности» модели;
Расширенные инструменты аналитики вывода.

Краткий список вкладов open-source-сообщества

Адаптация под русскоязычные задачи;
Дообучение на юридических текстах;
Создание экстеншенов для VSCode и Obsidian;
Подключение через API к NLP-платформам.

Заключение

DeepSeek — это не просто модель, а целая история о попытке создать технологический продукт с философией прозрачности и практического применения. За этой разработкой стоят конкретные люди с именами, убеждениями и бесконечным желанием экспериментировать. Интервью с Ли Чжэном, Тан Янь и Мэ Цзюнем показывает, что ключ к успеху DeepSeek лежит не только в параметрах модели, но и в культуре команды, её гибкости и открытости к диалогу.

В эпоху, когда искусственный интеллект становится всё более централизованным, DeepSeek напоминает, что путь open-source и локализации может быть не менее значимым. Эта модель уже вдохновляет новые проекты и определённо станет важной вехой в истории ИИ.

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии