Компания Anthropic анонсировала семейство ИИ-моделей Claude 3, которое устанавливает новые отраслевые стандарты в широком спектре когнитивных задач. Семейство включает в себя три самые современные модели в порядке возрастания возможностей: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Каждая последующая модель обладает все более высокой производительностью, позволяя пользователям выбрать оптимальное соотношение интеллекта, скорости и стоимости для конкретной задачи.

Opus и Sonnet уже доступны для использования в claude.ai и API Claude, который уже доступен в 159 странах. Haiku будет доступен в ближайшее время.
Семейство моделей Claude 3

Новый стандарт интеллекта
Opus, самая интеллектуальная модель Anthropic, превосходит своих сверстников по большинству общепринятых оценочных показателей для систем ИИ, включая экспертные знания на уровне студентов (MMLU), экспертные рассуждения на уровне выпускников (GPQA), базовую математику (GSM8K) и многое другое. Она демонстрирует близкий к человеческому уровень понимания и беглости при выполнении сложных задач, лидируя на границе общего интеллекта.
Все модели Claude 3 демонстрируют повышенные возможности в анализе и прогнозировании, создании тонкого контента, генерации кода и общении на неанглийских языках, таких как испанский, японский и французский.
Ниже приведено сравнение моделей Claude 3 с аналогами по нескольким показателям:

Почти мгновенные результаты
Модели Claude 3 могут использоваться в чатах с живыми клиентами, автозаполнениях и задачах извлечения данных, где ответы должны быть немедленными и в режиме реального времени.
Haiku - самая быстрая и экономичная модель на рынке для своей категории интеллекта. Она способна прочитать научную статью на arXiv (~10 тыс. токенов) с графиками и диаграммами менее чем за 3 секунды. После запуска разработчики рассчитывают еще больше повысить производительность.
Для подавляющего большинства рабочих нагрузок Sonnet в 2 раза быстрее, чем Claude 2 и Claude 2.1 с более высоким уровнем интеллекта. Она отлично справляется с задачами, требующими быстрой реакции, такими как поиск знаний или автоматизация продаж. Opus обеспечивает такую же скорость, как Claude 2 и 2.1, но с гораздо более высоким уровнем интеллекта.
Сильные возможности зрения
Модели Claude 3 обладают сложными возможностями технического зрения наравне с другими ведущими моделями. Они могут обрабатывать широкий спектр визуальных форматов, включая фотографии, диаграммы, графики и технические схемы. Разработчики особенно рады предоставить эту новую возможность корпоративным клиентам, некоторые из которых имеют до 50% своих баз знаний, закодированных в различных форматах, таких как PDF, блок-схемы или слайды презентаций.

Меньше отказов
Предыдущие модели Claude часто делали ненужные отказы, что свидетельствовало о недостаточном понимании контекста. Разработчики добились значительного прогресса в этой области: Модели Opus, Sonnet и Haiku значительно реже отказываются отвечать на запросы, граничащие с "защитными перилами" системы, чем модели предыдущих поколений. Как показано ниже, модели Claude 3 демонстрируют более тонкое понимание запросов, распознают реальный вред и гораздо реже отказываются отвечать на безобидные запросы.

Повышенная точность
Предприятия всех размеров полагаются на модели от компании Anthropic для обслуживания своих клиентов, поэтому крайне важно, чтобы результаты моделирования сохраняли высокую точность в масштабе. Чтобы оценить это, разработчики Claude используют большой набор сложных, фактологических вопросов, которые направлены на известные слабые места в существующих моделях. Ответы делятся на правильные, неправильные (или галлюцинации) и признание неопределенности, когда модель говорит, что не знает ответа, вместо того чтобы предоставить неверную информацию. По сравнению с Claude 2.1, Opus демонстрирует двукратное повышение точности (или правильных ответов) на эти сложные открытые вопросы, а также снижение уровня неправильных ответов.
В дополнение к более достоверным ответам разработчики скоро включат в модели Claude 3 функцию цитирования, чтобы они могли указывать на точные предложения в справочных материалах для подтверждения своих ответов.

Длительный контекст и практически идеальный отзыв
Модели семейства Claude 3 при запуске будут изначально предлагать контекстное окно объемом 200 тыс. Однако все три модели способны принимать запросы, превышающие 1 млн. токенов, и разработчики могут предоставить такую возможность избранным клиентам, которым требуется повышенная вычислительная мощность.
Для эффективной обработки длинных контекстных запросов моделям требуются надежные возможности запоминания. Оценка 'Needle In A Haystack' (NIAH) измеряет способность модели точно запоминать информацию из огромного массива данных. Разработчики повысили надежность этого эталона, используя одну из 30 случайных пар "игла/вопрос" для каждой подсказки и проводя тестирование на разнообразном корпусе документов, собранных краудсорсингом. Claude 3 Opus не только добился почти идеального запоминания, превысив 99% точности, но в некоторых случаях даже выявил ограничения самой оценки, распознав, что предложение с "иглой" было искусственно вставлено в оригинальный текст человеком.

Ответственный дизайн
Компания Anthropic разработала семейство моделей Claude 3, чтобы они были настолько надежными, насколько это возможно. У компании есть несколько специальных команд, которые отслеживают и снижают широкий спектр рисков - от дезинформации и CSAM до биологического злоупотребления, вмешательства в выборы и навыков автономной репликации. Anthropic продолжает разрабатывать такие методы, как конституционный ИИ, которые повышают безопасность и прозрачность ее моделей, а также настраивает модели для смягчения проблем конфиденциальности, которые могут возникнуть в связи с появлением новых методов.
Устранение предвзятости во все более сложных моделях - это постоянная работа, и в Anthropic добились успехов в этой новой версии. Как показано в карточке модели, Claude 3 демонстрирует меньше ошибок, чем предыдущие модели, согласно эталону Bias Benchmark for Question Answering (BBQ). Разработчики продолжают совершенствовать методы, снижающие предвзятость и способствующие большей нейтральности моделей, гарантируя, что они не будут перекошены в сторону какой-либо определенной партийной позиции.
Хотя семейство моделей Claude 3 продвинулось по ключевым показателям биологических знаний, кибернетических знаний и автономности по сравнению с предыдущими моделями, оно остается на уровне безопасности ИИ 2 (ASL-2) в соответствии с политикой компании ответственного масштабирования. Оценки, проведенные "красной командой" (в соответствии с обязательствами Белого дома и указом США от 2023 года), показали, что на данный момент модели представляют незначительный потенциал для катастрофического риска. В Anthropic продолжат тщательно следить за будущими моделями, чтобы оценить их приближение к порогу ASL-3. Более подробная информация о безопасности содержится в карточке модели Claude 3 - https://www-cdn.anthropic.com/de8ba9...d_Claude_3.pdf.
Проще в использовании
Модели Claude 3 лучше выполняют сложные, многоступенчатые инструкции. Они особенно хорошо соблюдают рекомендации по озвучиванию и реагированию на запросы бренда, а также разрабатывают клиентский опыт, которому пользователи могут доверять. Кроме того, модели Claude 3 лучше выдают популярные структурированные результаты в таких форматах, как JSON, что упрощает использование Claude для таких задач, как классификация естественного языка и анализ настроений.
Детали модели
Claude 3 Opus - самая интеллектуальная модель, обладающая лучшей на рынке производительностью при выполнении очень сложных задач. Она способна ориентироваться в открытых подсказках и невидимых сценариях с удивительной беглостью и человекоподобным пониманием.
Claude 3 Sonnet - это идеальный баланс между интеллектом и скоростью, особенно для корпоративных рабочих нагрузок. Она обеспечивает высокую производительность при меньшей стоимости по сравнению с аналогами и рассчитана на высокую выносливость при развертывании крупномасштабных систем ИИ.
Claude 3 Haiku - самая быстрая и компактная модель, обеспечивающая практически мгновенное реагирование. Она отвечает на простые запросы и пожелания с непревзойденной скоростью. Пользователи смогут создавать бесшовные ИИ-опыты, имитирующие взаимодействие с человеком.
Доступность моделей
Модели Opus и Sonnet доступны для использования уже сегодня в API, который стал общедоступным, что позволяет разработчикам зарегистрироваться и начать использовать эти модели немедленно. Haiku будет доступна в ближайшее время. Sonnet используется в бесплатном сервисе claude.ai, а Opus доступен для подписчиков Claude Pro.
Sonnet также доступен сегодня через Amazon Bedrock и в режиме частного предварительного просмотра в Google Cloud's Vertex AI Model Garden - Opus и Haiku скоро появятся в обеих системах.
Умнее, быстрее, безопаснее
В компании Anthropic будут выпускать частые обновления семейства моделей Claude 3 в течение следующих нескольких месяцев. Так же будет выпущен ряд функций для расширения возможностей моделей, особенно для корпоративного использования и крупномасштабных развертываний. Эти новые возможности будут включать в себя использование инструментов (вызов функций), интерактивное кодирование (REPL) и более продвинутые агентные возможности. Кроме того будет улучшаться безопасность моделей.
Страница Claude - Claude.

Opus и Sonnet уже доступны для использования в claude.ai и API Claude, который уже доступен в 159 странах. Haiku будет доступен в ближайшее время.
Семейство моделей Claude 3

Новый стандарт интеллекта
Opus, самая интеллектуальная модель Anthropic, превосходит своих сверстников по большинству общепринятых оценочных показателей для систем ИИ, включая экспертные знания на уровне студентов (MMLU), экспертные рассуждения на уровне выпускников (GPQA), базовую математику (GSM8K) и многое другое. Она демонстрирует близкий к человеческому уровень понимания и беглости при выполнении сложных задач, лидируя на границе общего интеллекта.
Все модели Claude 3 демонстрируют повышенные возможности в анализе и прогнозировании, создании тонкого контента, генерации кода и общении на неанглийских языках, таких как испанский, японский и французский.
Ниже приведено сравнение моделей Claude 3 с аналогами по нескольким показателям:

Почти мгновенные результаты
Модели Claude 3 могут использоваться в чатах с живыми клиентами, автозаполнениях и задачах извлечения данных, где ответы должны быть немедленными и в режиме реального времени.
Haiku - самая быстрая и экономичная модель на рынке для своей категории интеллекта. Она способна прочитать научную статью на arXiv (~10 тыс. токенов) с графиками и диаграммами менее чем за 3 секунды. После запуска разработчики рассчитывают еще больше повысить производительность.
Для подавляющего большинства рабочих нагрузок Sonnet в 2 раза быстрее, чем Claude 2 и Claude 2.1 с более высоким уровнем интеллекта. Она отлично справляется с задачами, требующими быстрой реакции, такими как поиск знаний или автоматизация продаж. Opus обеспечивает такую же скорость, как Claude 2 и 2.1, но с гораздо более высоким уровнем интеллекта.
Сильные возможности зрения
Модели Claude 3 обладают сложными возможностями технического зрения наравне с другими ведущими моделями. Они могут обрабатывать широкий спектр визуальных форматов, включая фотографии, диаграммы, графики и технические схемы. Разработчики особенно рады предоставить эту новую возможность корпоративным клиентам, некоторые из которых имеют до 50% своих баз знаний, закодированных в различных форматах, таких как PDF, блок-схемы или слайды презентаций.

Меньше отказов
Предыдущие модели Claude часто делали ненужные отказы, что свидетельствовало о недостаточном понимании контекста. Разработчики добились значительного прогресса в этой области: Модели Opus, Sonnet и Haiku значительно реже отказываются отвечать на запросы, граничащие с "защитными перилами" системы, чем модели предыдущих поколений. Как показано ниже, модели Claude 3 демонстрируют более тонкое понимание запросов, распознают реальный вред и гораздо реже отказываются отвечать на безобидные запросы.

Повышенная точность
Предприятия всех размеров полагаются на модели от компании Anthropic для обслуживания своих клиентов, поэтому крайне важно, чтобы результаты моделирования сохраняли высокую точность в масштабе. Чтобы оценить это, разработчики Claude используют большой набор сложных, фактологических вопросов, которые направлены на известные слабые места в существующих моделях. Ответы делятся на правильные, неправильные (или галлюцинации) и признание неопределенности, когда модель говорит, что не знает ответа, вместо того чтобы предоставить неверную информацию. По сравнению с Claude 2.1, Opus демонстрирует двукратное повышение точности (или правильных ответов) на эти сложные открытые вопросы, а также снижение уровня неправильных ответов.
В дополнение к более достоверным ответам разработчики скоро включат в модели Claude 3 функцию цитирования, чтобы они могли указывать на точные предложения в справочных материалах для подтверждения своих ответов.

Длительный контекст и практически идеальный отзыв
Модели семейства Claude 3 при запуске будут изначально предлагать контекстное окно объемом 200 тыс. Однако все три модели способны принимать запросы, превышающие 1 млн. токенов, и разработчики могут предоставить такую возможность избранным клиентам, которым требуется повышенная вычислительная мощность.
Для эффективной обработки длинных контекстных запросов моделям требуются надежные возможности запоминания. Оценка 'Needle In A Haystack' (NIAH) измеряет способность модели точно запоминать информацию из огромного массива данных. Разработчики повысили надежность этого эталона, используя одну из 30 случайных пар "игла/вопрос" для каждой подсказки и проводя тестирование на разнообразном корпусе документов, собранных краудсорсингом. Claude 3 Opus не только добился почти идеального запоминания, превысив 99% точности, но в некоторых случаях даже выявил ограничения самой оценки, распознав, что предложение с "иглой" было искусственно вставлено в оригинальный текст человеком.

Ответственный дизайн
Компания Anthropic разработала семейство моделей Claude 3, чтобы они были настолько надежными, насколько это возможно. У компании есть несколько специальных команд, которые отслеживают и снижают широкий спектр рисков - от дезинформации и CSAM до биологического злоупотребления, вмешательства в выборы и навыков автономной репликации. Anthropic продолжает разрабатывать такие методы, как конституционный ИИ, которые повышают безопасность и прозрачность ее моделей, а также настраивает модели для смягчения проблем конфиденциальности, которые могут возникнуть в связи с появлением новых методов.
Устранение предвзятости во все более сложных моделях - это постоянная работа, и в Anthropic добились успехов в этой новой версии. Как показано в карточке модели, Claude 3 демонстрирует меньше ошибок, чем предыдущие модели, согласно эталону Bias Benchmark for Question Answering (BBQ). Разработчики продолжают совершенствовать методы, снижающие предвзятость и способствующие большей нейтральности моделей, гарантируя, что они не будут перекошены в сторону какой-либо определенной партийной позиции.
Хотя семейство моделей Claude 3 продвинулось по ключевым показателям биологических знаний, кибернетических знаний и автономности по сравнению с предыдущими моделями, оно остается на уровне безопасности ИИ 2 (ASL-2) в соответствии с политикой компании ответственного масштабирования. Оценки, проведенные "красной командой" (в соответствии с обязательствами Белого дома и указом США от 2023 года), показали, что на данный момент модели представляют незначительный потенциал для катастрофического риска. В Anthropic продолжат тщательно следить за будущими моделями, чтобы оценить их приближение к порогу ASL-3. Более подробная информация о безопасности содержится в карточке модели Claude 3 - https://www-cdn.anthropic.com/de8ba9...d_Claude_3.pdf.
Проще в использовании
Модели Claude 3 лучше выполняют сложные, многоступенчатые инструкции. Они особенно хорошо соблюдают рекомендации по озвучиванию и реагированию на запросы бренда, а также разрабатывают клиентский опыт, которому пользователи могут доверять. Кроме того, модели Claude 3 лучше выдают популярные структурированные результаты в таких форматах, как JSON, что упрощает использование Claude для таких задач, как классификация естественного языка и анализ настроений.
Детали модели
Claude 3 Opus - самая интеллектуальная модель, обладающая лучшей на рынке производительностью при выполнении очень сложных задач. Она способна ориентироваться в открытых подсказках и невидимых сценариях с удивительной беглостью и человекоподобным пониманием.
Claude 3 Sonnet - это идеальный баланс между интеллектом и скоростью, особенно для корпоративных рабочих нагрузок. Она обеспечивает высокую производительность при меньшей стоимости по сравнению с аналогами и рассчитана на высокую выносливость при развертывании крупномасштабных систем ИИ.
Claude 3 Haiku - самая быстрая и компактная модель, обеспечивающая практически мгновенное реагирование. Она отвечает на простые запросы и пожелания с непревзойденной скоростью. Пользователи смогут создавать бесшовные ИИ-опыты, имитирующие взаимодействие с человеком.
Доступность моделей
Модели Opus и Sonnet доступны для использования уже сегодня в API, который стал общедоступным, что позволяет разработчикам зарегистрироваться и начать использовать эти модели немедленно. Haiku будет доступна в ближайшее время. Sonnet используется в бесплатном сервисе claude.ai, а Opus доступен для подписчиков Claude Pro.
Sonnet также доступен сегодня через Amazon Bedrock и в режиме частного предварительного просмотра в Google Cloud's Vertex AI Model Garden - Opus и Haiku скоро появятся в обеих системах.
Умнее, быстрее, безопаснее
В компании Anthropic будут выпускать частые обновления семейства моделей Claude 3 в течение следующих нескольких месяцев. Так же будет выпущен ряд функций для расширения возможностей моделей, особенно для корпоративного использования и крупномасштабных развертываний. Эти новые возможности будут включать в себя использование инструментов (вызов функций), интерактивное кодирование (REPL) и более продвинутые агентные возможности. Кроме того будет улучшаться безопасность моделей.
Страница Claude - Claude.
Комментарий