Обзор моделей LLM
Ландшафт меняется быстро — здесь принципы выбора и актуальный срез на 2025 год.
Ключевые игроки
OpenAI — GPT-4o и семейство
| Модель | Context | Сильные стороны | Когда использовать |
|---|---|---|---|
| GPT-4o | 128K | Универсальность, зрелая экосистема, multimodal | Большинство задач |
| GPT-4o mini | 128K | Дёшево, быстро, достаточно хорошо | Простые задачи, high-volume |
| o1 / o1-mini | 128K | Сложные рассуждения, математика, логика | Задачи требующие думать |
| o3 / o3-mini | 128K | Передовые рассуждения | Сложная аналитика |
Экосистема: лучшая в индустрии. Самые зрелые инструменты (Assistants API, Batch API, fine-tuning).
Anthropic — Claude
| Модель | Context | Сильные стороны | Когда использовать |
|---|---|---|---|
| Claude Opus 4.6 | 200K | Максимальное качество, сложный анализ | Критичные задачи, длинные документы |
| Claude Sonnet 4.5 | 200K | Баланс качества и цены | Основная рабочая лошадка |
| Claude Haiku 4.5 | 200K | Быстро и дёшево | Классификация, простые задачи |
Особенности:
- Лучшее следование сложным инструкциям
- Длинный context window (200K) — хорош для больших документов
- Сильная безопасность и меньше jailbreak-проблем
- Хорош для агентных сценариев
Google — Gemini
| Модель | Context | Сильные стороны | Когда использовать |
|---|---|---|---|
| Gemini 1.5 Pro | 1M | Огромный контекст, multimodal, видео | Большие документы, видео-анализ |
| Gemini 1.5 Flash | 1M | Дёшево при 1M контексте | Обработка больших объёмов |
| Gemini 2.0 Flash | 1M | Быстрее, дешевле 1.5 | Продакшн при большом контексте |
Особенности:
- Единственные с 1M context window в стандарте
- Нативная мультимодальность (текст, аудио, видео, изображения)
- Глубокая интеграция с Google-инфраструктурой
Meta — Llama
| Модель | Context | Сильные стороны | Когда использовать |
|---|---|---|---|
| Llama 3.1 8B | 128K | Self-hosted, быстрый | Простые задачи на своём железе |
| Llama 3.1 70B | 128K | Self-hosted, качество близко к GPT-4 | Основной self-hosted вариант |
| Llama 3.1 405B | 128K | Лучший open-source | Максимальное качество OSS |
| Llama 3.2 Vision | 128K | Multimodal, self-hosted | Self-hosted с картинками |
Особенности:
- Полностью открытые веса → можно деплоить где угодно
- Никаких ограничений контента (при самостоятельном хостинге)
- Огромное community и экосистема
Mistral AI
| Модель | Context | Особенность |
|---|---|---|
| Mistral Large 2 | 128K | Сильный в коде и европейских языках |
| Mixtral 8x22B | 64K | MoE архитектура, эффективный |
| Codestral | 32K | Специализирован на коде |
| Mistral Small | 32K | Дёшево, open-weight |
Особенности: европейская компания (GDPR-friendly), сильные open-weight модели.
DeepSeek
| Модель | Context | Особенность |
|---|---|---|
| DeepSeek-V3 | 64K | Очень сильный в коде, дешевле аналогов |
| DeepSeek-R1 | 64K | Reasoning модель, конкурент o1 |
Особенности: цена в 5–10x ниже аналогичного GPT-4o уровня, отличный код.
Специализированные модели
| Модель | Специализация |
|---|---|
| Codestral (Mistral) | Генерация кода |
| StarCoder 2 | Код, open-source |
| Whisper (OpenAI) | Speech-to-text |
| DALL-E 3 | Генерация изображений |
| Stable Diffusion | Генерация изображений (open-source) |
| Sora | Генерация видео |
Как выбрать модель
Дерево решений
Нужен self-hosted?
├── Да → Llama 3.1 70B / Mistral Large
└── Нет
├── Максимальное качество?
│ ├── Да → GPT-4o / Claude Opus / o1
│ └── Нет
│ ├── Длинные документы (>100K токенов)?
│ │ ├── Да → Claude Sonnet (200K) / Gemini (1M)
│ │ └── Нет
│ │ ├── Нужна дешевизна?
│ │ │ ├── Да → GPT-4o mini / Claude Haiku / DeepSeek
│ │ │ └── Нет → GPT-4o / Claude Sonnet
│ └── Сложные рассуждения / математика?
│ └── Да → o1 / o3 / DeepSeek-R1
└── Код?
└── Да → DeepSeek-V3 / GPT-4o / Codestral
По задаче
| Задача | Рекомендация |
|---|---|
| Чат-бот / ассистент | GPT-4o, Claude Sonnet |
| Анализ документов | Claude Sonnet (200K), Gemini |
| Генерация кода | DeepSeek-V3, GPT-4o, Codestral |
| Сложные рассуждения | o1, o3, DeepSeek-R1 |
| Классификация / фильтрация | GPT-4o mini, Claude Haiku |
| Мультимодал (картинки) | GPT-4o, Claude, Gemini |
| Анализ видео | Gemini 1.5 Pro |
| Self-hosted | Llama 3.1, Mistral |
| GDPR / данные в EU | Mistral, self-hosted |
По бюджету
Дёшево (<$1/1M input):
→ GPT-4o mini ($0.15), Claude Haiku ($0.25), Gemini Flash ($0.075)
Средний диапазон ($1–5/1M input):
→ GPT-4o ($2.50), Claude Sonnet ($3), Gemini Pro ($1.25)
Дорого (>$10/1M input):
→ Claude Opus ($15), o1 ($15), GPT-4o (в reasoning режиме)
Multi-provider стратегия
В продакшне часто используют несколько моделей:
Быстрые задачи → GPT-4o mini / Haiku (дёшево)
Сложные задачи → GPT-4o / Claude Sonnet
Критичный анализ → Claude Opus / o1
Fallback → другой провайдер при недоступности
Инструменты для роутинга: LiteLLM, OpenRouter.
Как следить за актуальностью
Ландшафт меняется каждые 2–3 месяца:
- lmarena.ai — Chatbot Arena, рейтинг по человеческим оценкам
- artificialanalysis.ai — цена, скорость, качество
- scale.com/leaderboard — SEAL leaderboard
Резюме
| Провайдер | Главное преимущество |
|---|---|
| OpenAI | Экосистема, универсальность, зрелость |
| Anthropic | Длинный контекст, следование инструкциям |
| Гигантский контекст, мультимодал | |
| Meta (Llama) | Open source, self-hosted |
| Mistral | EU-friendly, эффективные OSS модели |
| DeepSeek | Дёшево, отличный код |