写点什么

在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势

作者:佐藤匠真

  • 2025-10-27
    北京
  • 本文字数:2588 字

    阅读完需:约 8 分钟

大小:1.32M时长:07:40
在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势

自 Dataiku 12.6.2 版本起,用户可在 Dataiku 的 LLM 配方中直接调用 Snowflake Cortex 模型。该功能实现了无需迁移数据的无代码 AI 应用,在保障数据安全的同时显著提升了易用性。


然而,Snowflake Cortex 提供的 LLM 种类繁多且性能各异。此外,Dataiku Cloud 不同区域可用的 LLM 也存在差异。目前缺乏以日语系统汇总可用 LLM 及模型性能的相关资料。


为此,我们特别面向日本 Dataiku Cloud 用户,针对东京区域运行的 Dataiku 平台可通过 Snowflake Cortex 调用的 LLM 进行了性能对比分析(截至 2025 年 7 月)。

在东京区域运行的 Dataiku 中可用的 Snowflake Cortex LLM


在东京区域运行的 Dataiku 平台上可用的 Snowflake Cortex 大语言模型包括:


文本生成模型:

● Llama 3.1 70B

● Mistral Large 2

● Mixtral-8x7B

● Mistral 7B

● Mistral Large


嵌入模型:

● E5-base-v2

● Snowflake Arctic Embed M


综上所述,在处理日语数据时,Mistral Large 2 在文本生成领域、Snowflake Arctic Embed M 在文本嵌入领域均展现出最优性能。

各模型概述与特点


本博客将清晰阐述各模型的概况与特点,并系统梳理其优势与不足。

文本生成模型

Llama 3.1 70B


Llama 3.1 70B 是由 Meta 公司推出的开源大语言模型,其中“3.1”代表 LLM 版本号,“70B”指参数量(700 亿)。


在多项基准测试中,其性能现均优于 Mixtral-8x7B 和 GPT-3.5 Turbo。


但该模型支持的 8 种语言不包含日语。


Llama 3.1 70B 基准测试性能对比图表


来源:Introducing Llama 3.1: Our most capable models to date(https://ai.meta.com/blog/meta-llama-3-1/)


Llama 3.1 70B 的优势


● 具备卓越的性能,发挥出色


Llama 3.1 70B 的优势


● 其支持的 8 种语言中未包含日语

Mistral Large 2


Mistral Large 2 是由 Mistral AI 公司开发的 1230 亿参数规模大型语言模型。


该模型具备 128K 令牌的超长上下文处理窗口,在长文本处理任务中展现出卓越性能。


其语言支持覆盖范围广泛,除日语外,还全面支持英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、汉语、韩语等多国语言,在多语言处理能力方面表现突出。


此外,该模型还支持包括 Python、Java、C、C++、JavaScript、Bash 在内的 80 余种编程语言,在代码生成与补全等任务中展现出显著优势。


在训练阶段,通过专门优化有效减少了幻觉现象(即缺乏事实依据的输出),从而实现了较高的可靠性。


与 Llama 3.1 (405B) 相比,尽管参数规模仅为约四分之一,但被评估达到同等级别的性能。


Mistral Large 2 基准测试图表


数据来源:Large Enough(https://mistral.ai/news/mistral-large-2407)


Mistral Large 2 的核心优势


● 在多项基准测试中展现出超越 Llama3.1 70B 的卓越性能;

● 原生支持日语等多语言处理能力。


Mistral Large 2 的显著局限


● 模型参数量级庞大;

● 实际部署运维成本较高。

Mistral-8x7B


Mixtral(Mistral-8x7B)是一款高质量的开放权重稀疏专家混合模型。


该模型在多数基准测试中实现了约 6 倍于 LLaMA 2 70B 的推理速度,同时展现出更优的性能。此外,在多项评估指标中其精度达到或超越了 GPT-3.5 水平。


该模型支持英语、法语、意大利语、德语及西班牙语,具备实用的多语言能力,但未包含日语支持。


与 Mistral Large 2 类似,该模型有效抑制了幻觉现象(即偏离事实的输出),能够提供可靠性较高的响应结果。


Mistral-8x7B 的核心优势


● 具备卓越的推理加速能力;

● 有效抑制幻觉现象生成。


Mistral-8x7B 的显著劣势


● 缺乏日语语言支持

Mistral 7B


Mistral 7B 是一款开源的高性能大语言模型。


在所有核心基准测试中,其表现均优于 Llama 2 13B。


该模型通过采用分组查询注意力机制,实现了推理速度的显著提升。


同时借助滑动窗口注意力技术,使其在长文本处理场景下仍能保持低成本、高效率的推理能力。


Mistral 7B 的优势


● 模型参数量级虽小但具备卓越性能;

● 对日语任务具备中等程度的处理能力。


Mistral 7B 的局限性


● 与 LLaMA 3.1 70B 等大规模参数模型相比仍存在性能差距

Mistral Large


Mistral Large 是一款性能超越 LLaMA 3.1(70B) 与 Claude 2 的大规模语言模型。


然而相较于 LLaMA 3.1(405B)及 Mistral Large 2 等更高性能模型仍存在差距。


该模型在多语言处理方面表现卓越,可原生级支持英语、法语、西班牙语、德语及意大利语。


同时具备日语处理能力,能够实现准确度达标的理解与内容生成。


此外,其配备 32K 令牌的上下文窗口,特别适用于长文档及代码处理场景。


Mistral Large 的核心优势


● 虽未达到 LLaMA 3.1 70B 水准,但具备卓越的模型性能;

● 支持多语言处理能力。


Mistral Large 的显著劣势


● 尽管支持日语处理,但在语言自然度与准确性方面较 GPT-4 等顶尖模型存在差距

嵌入模型

E5 Base v2


E5 Base v2 是专精于生成嵌入表示的模型,可应用于检索增强生成(RAG)、聚类分析及各类 NLP 任务中的特征提取。


该模型基于 MS MARCO 与 BEIR 数据集通过对比学习训练而成,其核心优势在于卓越的检索精度与聚类性能。


需注意的是,本模型不支持推理任务(如问答系统)及文本生成任务。


E5 Base v2 模型的优势


● 作为嵌入模型,在聚类与检索任务中展现出卓越的精度表现


E5 Base v2 的局限性


● 该模型专用于嵌入任务,不支持推理及生成类任务。

Snowflake Arctic Embed M


Snowflake Arctic Embed M 是一款模型规模达 110B 的嵌入模型。


与 OpenAI 的嵌入模型(text-embedding-3-large)相比,其参数量约为后者的 1/4,嵌入维度约为 1/3,但在检索性能方面展现出更优异的表现。


该模型尤其在日语基准测试中取得高分,在日语文本检索和相似度计算领域具有显著优势。


Snowflake Arctic Embed M 的优势


● 在嵌入模型中具备卓越性能;

● 在日语文本处理领域展现出尤为突出的精准度。


Snowflake Arctic Embed 的局限性


● 作为专用嵌入模型,不支持推理及生成类任务

总结


我们汇总了在东京区域运行的 Dataiku 中可用的 Snowflake Cortex 模型性能。


通过结合使用 Dataiku 与 Snowflake,可助力整个组织构建数据驱动的决策基础架构。


在处理日语数据的推理与生成任务时,我们建议优先考虑支持日语且高性能的 Mistral Large 2 模型。此外,下篇博客将详解如何在 Dataiku 中使用 Snowflake Cortex。


原文地址:

https://www.keywalker.co.jp/blog/dataiku-snowflake-cortex-llm-performance.html



点击链接立即报名注册:Ascent - Snowflake Platform Training - China

2025-10-27 22:254890

评论

发布
暂无评论

代码随想录Day18 - 二叉树(五)

jjn0703

在 Go 中如何编写测试代码

江湖十年

golang 测试 后端 单元测试 go语言

人工智能自然语言处理:N-gram和TF-IDF模型详解

汀丶人工智能

人工智能 自然语言处理 nlp tf-idf N-gram

CodeArts Check系统规则集还不够?带你体验如何创建、启用自定义规则集

云计算 开发者 代码质量 华为云 代码检查

河南理工大学高校专区入驻飞桨AI Studio,优质教育资源等你来学!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

Flink 在新能源场站运维的应用

Apache Flink

大数据 flink 实时计算

华为云CodeArts Check IDE插件体验之旅

云计算 软件开发 华为云 华为开发者大会2023 代码检查

红队攻防之JS攻防

权说安全

网络攻防

领导和团队的自主权——《敏捷实战-破解敏捷落地的60个难题》读后感(二)

Bruce Talk

敏捷开发 Agile

我与OpenHarmony| 社区征文

坚果

年中技术盘点

少年侠客【InsCode Stable Diffusion美图活动一期】 | 社区征文

度假的小鱼

Stable Diffusion 年中技术盘点

来自内部有很多需求,如何协调处理这些需求?

Bonaparte

产品 产品设计 产品思维 产品需求 内部需求

大佬带你体验华为云代码检查服务CodeArts Check

云计算 开发者 软件开发 华为云

JMeter笔记15 | JMeter场景运行

单元测试 Jmeter 性能测试 自动化测试 接口测试

“数字孪生”:为什么要仿真嵌入式系统?

DevOps和数字孪生

数字孪生 嵌入式系统仿真

每日站会如此简单,为什么总是开不好?

敏捷开发

项目管理 Scrum 敏捷开发 每日站会

虚拟ECU实践:汽车发动机控制器仿真

DevOps和数字孪生

软件定义汽车 虚拟ECU

什么是“软件定义汽车”

DevOps和数字孪生

软件定义汽车 汽车仿真

区块链第一代系统——比特币概念及业务流程

TiAmo

比特币 区块链

华为云ROMA Connect 的智能集成 – 现代企业数字化转型的新利器

云计算 华为云 华为开发者大会

新一代iPaaS全域融合集成平台ROMA Connect HDC.Cloud 2023内容值得再读!

华为 华为云 华为开发者大会2023

JMeter笔记14 | JMeter场景设计和设置

单元测试 Jmeter 性能测试 自动化测试 接口测试

测试工程师如何做到初级测试管理(个人思考)?

团队管理 测试 测试管理 测试部门职责

Python如何获取页面上某个元素指定区域的html源码?

Python 源码 HTML5, CSS3

享受云原生技术红利,大数据不应该被落下

智领云科技

云原生 Kubernetes 集群 云原生大数据平台 智领云

联通 Flink 实时计算平台化运维实践

Apache Flink

大数据 flink 实时计算

在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势_AI&大模型_InfoQ精选文章