Перейти к основному содержимому

Обзор моделей LLM

Ландшафт меняется быстро — здесь принципы выбора и актуальный срез на 2025 год.

Ключевые игроки

OpenAI — GPT-4o и семейство

МодельContextСильные стороныКогда использовать
GPT-4o128KУниверсальность, зрелая экосистема, multimodalБольшинство задач
GPT-4o mini128KДёшево, быстро, достаточно хорошоПростые задачи, high-volume
o1 / o1-mini128KСложные рассуждения, математика, логикаЗадачи требующие думать
o3 / o3-mini128KПередовые рассужденияСложная аналитика

Экосистема: лучшая в индустрии. Самые зрелые инструменты (Assistants API, Batch API, fine-tuning).

Anthropic — Claude

МодельContextСильные стороныКогда использовать
Claude Opus 4.6200KМаксимальное качество, сложный анализКритичные задачи, длинные документы
Claude Sonnet 4.5200KБаланс качества и ценыОсновная рабочая лошадка
Claude Haiku 4.5200KБыстро и дёшевоКлассификация, простые задачи

Особенности:

  • Лучшее следование сложным инструкциям
  • Длинный context window (200K) — хорош для больших документов
  • Сильная безопасность и меньше jailbreak-проблем
  • Хорош для агентных сценариев

Google — Gemini

МодельContextСильные стороныКогда использовать
Gemini 1.5 Pro1MОгромный контекст, multimodal, видеоБольшие документы, видео-анализ
Gemini 1.5 Flash1MДёшево при 1M контекстеОбработка больших объёмов
Gemini 2.0 Flash1MБыстрее, дешевле 1.5Продакшн при большом контексте

Особенности:

  • Единственные с 1M context window в стандарте
  • Нативная мультимодальность (текст, аудио, видео, изображения)
  • Глубокая интеграция с Google-инфраструктурой

Meta — Llama

МодельContextСильные стороныКогда использовать
Llama 3.1 8B128KSelf-hosted, быстрыйПростые задачи на своём железе
Llama 3.1 70B128KSelf-hosted, качество близко к GPT-4Основной self-hosted вариант
Llama 3.1 405B128KЛучший open-sourceМаксимальное качество OSS
Llama 3.2 Vision128KMultimodal, self-hostedSelf-hosted с картинками

Особенности:

  • Полностью открытые веса → можно деплоить где угодно
  • Никаких ограничений контента (при самостоятельном хостинге)
  • Огромное community и экосистема

Mistral AI

МодельContextОсобенность
Mistral Large 2128KСильный в коде и европейских языках
Mixtral 8x22B64KMoE архитектура, эффективный
Codestral32KСпециализирован на коде
Mistral Small32KДёшево, open-weight

Особенности: европейская компания (GDPR-friendly), сильные open-weight модели.

DeepSeek

МодельContextОсобенность
DeepSeek-V364KОчень сильный в коде, дешевле аналогов
DeepSeek-R164KReasoning модель, конкурент o1

Особенности: цена в 5–10x ниже аналогичного GPT-4o уровня, отличный код.

Специализированные модели

МодельСпециализация
Codestral (Mistral)Генерация кода
StarCoder 2Код, open-source
Whisper (OpenAI)Speech-to-text
DALL-E 3Генерация изображений
Stable DiffusionГенерация изображений (open-source)
SoraГенерация видео

Как выбрать модель

Дерево решений

Нужен self-hosted?
├── Да → Llama 3.1 70B / Mistral Large
└── Нет
├── Максимальное качество?
│ ├── Да → GPT-4o / Claude Opus / o1
│ └── Нет
│ ├── Длинные документы (>100K токенов)?
│ │ ├── Да → Claude Sonnet (200K) / Gemini (1M)
│ │ └── Нет
│ │ ├── Нужна дешевизна?
│ │ │ ├── Да → GPT-4o mini / Claude Haiku / DeepSeek
│ │ │ └── Нет → GPT-4o / Claude Sonnet
│ └── Сложные рассуждения / математика?
│ └── Да → o1 / o3 / DeepSeek-R1
└── Код?
└── Да → DeepSeek-V3 / GPT-4o / Codestral

По задаче

ЗадачаРекомендация
Чат-бот / ассистентGPT-4o, Claude Sonnet
Анализ документовClaude Sonnet (200K), Gemini
Генерация кодаDeepSeek-V3, GPT-4o, Codestral
Сложные рассужденияo1, o3, DeepSeek-R1
Классификация / фильтрацияGPT-4o mini, Claude Haiku
Мультимодал (картинки)GPT-4o, Claude, Gemini
Анализ видеоGemini 1.5 Pro
Self-hostedLlama 3.1, Mistral
GDPR / данные в EUMistral, self-hosted

По бюджету

Дёшево (<$1/1M input):
→ GPT-4o mini ($0.15), Claude Haiku ($0.25), Gemini Flash ($0.075)

Средний диапазон ($1–5/1M input):
→ GPT-4o ($2.50), Claude Sonnet ($3), Gemini Pro ($1.25)

Дорого (>$10/1M input):
→ Claude Opus ($15), o1 ($15), GPT-4o (в reasoning режиме)

Multi-provider стратегия

В продакшне часто используют несколько моделей:

Быстрые задачи → GPT-4o mini / Haiku (дёшево)
Сложные задачи → GPT-4o / Claude Sonnet
Критичный анализ → Claude Opus / o1
Fallback → другой провайдер при недоступности

Инструменты для роутинга: LiteLLM, OpenRouter.

Как следить за актуальностью

Ландшафт меняется каждые 2–3 месяца:

Резюме

ПровайдерГлавное преимущество
OpenAIЭкосистема, универсальность, зрелость
AnthropicДлинный контекст, следование инструкциям
GoogleГигантский контекст, мультимодал
Meta (Llama)Open source, self-hosted
MistralEU-friendly, эффективные OSS модели
DeepSeekДёшево, отличный код