写点什么

在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势

作者:佐藤匠真

  • 2025-10-27
    北京
  • 本文字数:2588 字

    阅读完需:约 8 分钟

大小:1.32M时长:07:40
在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势

自 Dataiku 12.6.2 版本起,用户可在 Dataiku 的 LLM 配方中直接调用 Snowflake Cortex 模型。该功能实现了无需迁移数据的无代码 AI 应用,在保障数据安全的同时显著提升了易用性。


然而,Snowflake Cortex 提供的 LLM 种类繁多且性能各异。此外,Dataiku Cloud 不同区域可用的 LLM 也存在差异。目前缺乏以日语系统汇总可用 LLM 及模型性能的相关资料。


为此,我们特别面向日本 Dataiku Cloud 用户,针对东京区域运行的 Dataiku 平台可通过 Snowflake Cortex 调用的 LLM 进行了性能对比分析(截至 2025 年 7 月)。

在东京区域运行的 Dataiku 中可用的 Snowflake Cortex LLM


在东京区域运行的 Dataiku 平台上可用的 Snowflake Cortex 大语言模型包括:


文本生成模型:

● Llama 3.1 70B

● Mistral Large 2

● Mixtral-8x7B

● Mistral 7B

● Mistral Large


嵌入模型:

● E5-base-v2

● Snowflake Arctic Embed M


综上所述,在处理日语数据时,Mistral Large 2 在文本生成领域、Snowflake Arctic Embed M 在文本嵌入领域均展现出最优性能。

各模型概述与特点


本博客将清晰阐述各模型的概况与特点,并系统梳理其优势与不足。

文本生成模型

Llama 3.1 70B


Llama 3.1 70B 是由 Meta 公司推出的开源大语言模型,其中“3.1”代表 LLM 版本号,“70B”指参数量(700 亿)。


在多项基准测试中,其性能现均优于 Mixtral-8x7B 和 GPT-3.5 Turbo。


但该模型支持的 8 种语言不包含日语。


Llama 3.1 70B 基准测试性能对比图表


来源:Introducing Llama 3.1: Our most capable models to date(https://ai.meta.com/blog/meta-llama-3-1/)


Llama 3.1 70B 的优势


● 具备卓越的性能,发挥出色


Llama 3.1 70B 的优势


● 其支持的 8 种语言中未包含日语

Mistral Large 2


Mistral Large 2 是由 Mistral AI 公司开发的 1230 亿参数规模大型语言模型。


该模型具备 128K 令牌的超长上下文处理窗口,在长文本处理任务中展现出卓越性能。


其语言支持覆盖范围广泛,除日语外,还全面支持英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、汉语、韩语等多国语言,在多语言处理能力方面表现突出。


此外,该模型还支持包括 Python、Java、C、C++、JavaScript、Bash 在内的 80 余种编程语言,在代码生成与补全等任务中展现出显著优势。


在训练阶段,通过专门优化有效减少了幻觉现象(即缺乏事实依据的输出),从而实现了较高的可靠性。


与 Llama 3.1 (405B) 相比,尽管参数规模仅为约四分之一,但被评估达到同等级别的性能。


Mistral Large 2 基准测试图表


数据来源:Large Enough(https://mistral.ai/news/mistral-large-2407)


Mistral Large 2 的核心优势


● 在多项基准测试中展现出超越 Llama3.1 70B 的卓越性能;

● 原生支持日语等多语言处理能力。


Mistral Large 2 的显著局限


● 模型参数量级庞大;

● 实际部署运维成本较高。

Mistral-8x7B


Mixtral(Mistral-8x7B)是一款高质量的开放权重稀疏专家混合模型。


该模型在多数基准测试中实现了约 6 倍于 LLaMA 2 70B 的推理速度,同时展现出更优的性能。此外,在多项评估指标中其精度达到或超越了 GPT-3.5 水平。


该模型支持英语、法语、意大利语、德语及西班牙语,具备实用的多语言能力,但未包含日语支持。


与 Mistral Large 2 类似,该模型有效抑制了幻觉现象(即偏离事实的输出),能够提供可靠性较高的响应结果。


Mistral-8x7B 的核心优势


● 具备卓越的推理加速能力;

● 有效抑制幻觉现象生成。


Mistral-8x7B 的显著劣势


● 缺乏日语语言支持

Mistral 7B


Mistral 7B 是一款开源的高性能大语言模型。


在所有核心基准测试中,其表现均优于 Llama 2 13B。


该模型通过采用分组查询注意力机制,实现了推理速度的显著提升。


同时借助滑动窗口注意力技术,使其在长文本处理场景下仍能保持低成本、高效率的推理能力。


Mistral 7B 的优势


● 模型参数量级虽小但具备卓越性能;

● 对日语任务具备中等程度的处理能力。


Mistral 7B 的局限性


● 与 LLaMA 3.1 70B 等大规模参数模型相比仍存在性能差距

Mistral Large


Mistral Large 是一款性能超越 LLaMA 3.1(70B) 与 Claude 2 的大规模语言模型。


然而相较于 LLaMA 3.1(405B)及 Mistral Large 2 等更高性能模型仍存在差距。


该模型在多语言处理方面表现卓越,可原生级支持英语、法语、西班牙语、德语及意大利语。


同时具备日语处理能力,能够实现准确度达标的理解与内容生成。


此外,其配备 32K 令牌的上下文窗口,特别适用于长文档及代码处理场景。


Mistral Large 的核心优势


● 虽未达到 LLaMA 3.1 70B 水准,但具备卓越的模型性能;

● 支持多语言处理能力。


Mistral Large 的显著劣势


● 尽管支持日语处理,但在语言自然度与准确性方面较 GPT-4 等顶尖模型存在差距

嵌入模型

E5 Base v2


E5 Base v2 是专精于生成嵌入表示的模型,可应用于检索增强生成(RAG)、聚类分析及各类 NLP 任务中的特征提取。


该模型基于 MS MARCO 与 BEIR 数据集通过对比学习训练而成,其核心优势在于卓越的检索精度与聚类性能。


需注意的是,本模型不支持推理任务(如问答系统)及文本生成任务。


E5 Base v2 模型的优势


● 作为嵌入模型,在聚类与检索任务中展现出卓越的精度表现


E5 Base v2 的局限性


● 该模型专用于嵌入任务,不支持推理及生成类任务。

Snowflake Arctic Embed M


Snowflake Arctic Embed M 是一款模型规模达 110B 的嵌入模型。


与 OpenAI 的嵌入模型(text-embedding-3-large)相比,其参数量约为后者的 1/4,嵌入维度约为 1/3,但在检索性能方面展现出更优异的表现。


该模型尤其在日语基准测试中取得高分,在日语文本检索和相似度计算领域具有显著优势。


Snowflake Arctic Embed M 的优势


● 在嵌入模型中具备卓越性能;

● 在日语文本处理领域展现出尤为突出的精准度。


Snowflake Arctic Embed 的局限性


● 作为专用嵌入模型,不支持推理及生成类任务

总结


我们汇总了在东京区域运行的 Dataiku 中可用的 Snowflake Cortex 模型性能。


通过结合使用 Dataiku 与 Snowflake,可助力整个组织构建数据驱动的决策基础架构。


在处理日语数据的推理与生成任务时,我们建议优先考虑支持日语且高性能的 Mistral Large 2 模型。此外,下篇博客将详解如何在 Dataiku 中使用 Snowflake Cortex。


原文地址:

https://www.keywalker.co.jp/blog/dataiku-snowflake-cortex-llm-performance.html



点击链接立即报名注册:Ascent - Snowflake Platform Training - China

2025-10-27 22:2510

评论

发布
暂无评论

第13周 作业

Jaye

模板方法模式——看看 JDK 和 Spring 是如何优雅复用代码的

简爱W

Java 程序员 java架构

阿里P8忠告:这些技术,哪怕不用微服务架构,你也应该会

小Q

Docker 架构 微服务 springboot SpringCloud

【真实面试经历】我和阿里面试官的一次“邂逅”

老大哥

没想到 Hash 冲突还能这么玩,你的服务中招了吗?

老大哥

Java 程序员 后端

关于二进制的补码,反码,正负数表示以及Java代码测试

Zexho

Java 补码 位运算 反码 计算机知识

工作好多年有可能还未真正了解接口和抽象类

架构师修行之路

接口 抽象

Flink通过官网创建自己的工程-20

小知识点

scala 大数据 flink

大厂面试题:集群部署时的分布式 session 如何实现? 面试官心理分析

老大哥

Java 程序员 后端

第十三周作业

olderwei

极客大学架构师训练营

为什么一个还没毕业的大学生能够把 IO 讲的这么好?

苹果看辽宁体育

Java 后端 io

从用户输入手机验证码开始

架构师修行之路

用技术的“信条”,开启AI to B的产业位移

脑极体

商业通识 : 商业从哪里来?

Walker

学习 得到 个人成长 商业

What's new in Dubbo-go v1.5.1

apache/dubbo-go

dubbo 服务端 Go 语言

Spring 5 中文解析核心篇-集成测试之TestContext(上)

青年IT男

单元测试 Spring5 JUnit

我的大厂面试经历

老大哥

Java 程序员 后端

Java服务,内存OOM问题如何快速定位?

老大哥

Java 程序员 后端

市值做市机器人,操盘做市系统搭建

架构师训练营 - 第 8周命题作业

红了哟

Java架构师JVM启动流程和内存结构,程序员必看!

老大哥

Java 程序员 后端

「查缺补漏」巩固你的RocketMQ知识体系

Kerwin

Java RocketMQ

“新基建”与“双循环”的二重奏:2020服贸会靠什么推动经济复苏

脑极体

架构师第十三周作业

傻傻的帅

架构师

面试官为什么会问你,如何设计一个高并发系统?

老大哥

Java 程序员 后端

架构师训练营第13周作业

Hessian Bug修复

心平气和

php 序列化 hessian

架构师训练营作业(大数据与机器学习)

qihuajun

架构师训练营第十三周作业

张明森

架构师训练营第 0 期第 13 周作业

无名氏

服务化反面案例

心平气和

服务化 权限

在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势_AI&大模型_InfoQ精选文章