2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势

作者:佐藤匠真

  • 2025-10-27
    北京
  • 本文字数:2588 字

    阅读完需:约 8 分钟

大小:1.32M时长:07:40
在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势

自 Dataiku 12.6.2 版本起,用户可在 Dataiku 的 LLM 配方中直接调用 Snowflake Cortex 模型。该功能实现了无需迁移数据的无代码 AI 应用,在保障数据安全的同时显著提升了易用性。


然而,Snowflake Cortex 提供的 LLM 种类繁多且性能各异。此外,Dataiku Cloud 不同区域可用的 LLM 也存在差异。目前缺乏以日语系统汇总可用 LLM 及模型性能的相关资料。


为此,我们特别面向日本 Dataiku Cloud 用户,针对东京区域运行的 Dataiku 平台可通过 Snowflake Cortex 调用的 LLM 进行了性能对比分析(截至 2025 年 7 月)。

在东京区域运行的 Dataiku 中可用的 Snowflake Cortex LLM


在东京区域运行的 Dataiku 平台上可用的 Snowflake Cortex 大语言模型包括:


文本生成模型:

● Llama 3.1 70B

● Mistral Large 2

● Mixtral-8x7B

● Mistral 7B

● Mistral Large


嵌入模型:

● E5-base-v2

● Snowflake Arctic Embed M


综上所述,在处理日语数据时,Mistral Large 2 在文本生成领域、Snowflake Arctic Embed M 在文本嵌入领域均展现出最优性能。

各模型概述与特点


本博客将清晰阐述各模型的概况与特点,并系统梳理其优势与不足。

文本生成模型

Llama 3.1 70B


Llama 3.1 70B 是由 Meta 公司推出的开源大语言模型,其中“3.1”代表 LLM 版本号,“70B”指参数量(700 亿)。


在多项基准测试中,其性能现均优于 Mixtral-8x7B 和 GPT-3.5 Turbo。


但该模型支持的 8 种语言不包含日语。


Llama 3.1 70B 基准测试性能对比图表


来源:Introducing Llama 3.1: Our most capable models to date(https://ai.meta.com/blog/meta-llama-3-1/)


Llama 3.1 70B 的优势


● 具备卓越的性能,发挥出色


Llama 3.1 70B 的优势


● 其支持的 8 种语言中未包含日语

Mistral Large 2


Mistral Large 2 是由 Mistral AI 公司开发的 1230 亿参数规模大型语言模型。


该模型具备 128K 令牌的超长上下文处理窗口,在长文本处理任务中展现出卓越性能。


其语言支持覆盖范围广泛,除日语外,还全面支持英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、汉语、韩语等多国语言,在多语言处理能力方面表现突出。


此外,该模型还支持包括 Python、Java、C、C++、JavaScript、Bash 在内的 80 余种编程语言,在代码生成与补全等任务中展现出显著优势。


在训练阶段,通过专门优化有效减少了幻觉现象(即缺乏事实依据的输出),从而实现了较高的可靠性。


与 Llama 3.1 (405B) 相比,尽管参数规模仅为约四分之一,但被评估达到同等级别的性能。


Mistral Large 2 基准测试图表


数据来源:Large Enough(https://mistral.ai/news/mistral-large-2407)


Mistral Large 2 的核心优势


● 在多项基准测试中展现出超越 Llama3.1 70B 的卓越性能;

● 原生支持日语等多语言处理能力。


Mistral Large 2 的显著局限


● 模型参数量级庞大;

● 实际部署运维成本较高。

Mistral-8x7B


Mixtral(Mistral-8x7B)是一款高质量的开放权重稀疏专家混合模型。


该模型在多数基准测试中实现了约 6 倍于 LLaMA 2 70B 的推理速度,同时展现出更优的性能。此外,在多项评估指标中其精度达到或超越了 GPT-3.5 水平。


该模型支持英语、法语、意大利语、德语及西班牙语,具备实用的多语言能力,但未包含日语支持。


与 Mistral Large 2 类似,该模型有效抑制了幻觉现象(即偏离事实的输出),能够提供可靠性较高的响应结果。


Mistral-8x7B 的核心优势


● 具备卓越的推理加速能力;

● 有效抑制幻觉现象生成。


Mistral-8x7B 的显著劣势


● 缺乏日语语言支持

Mistral 7B


Mistral 7B 是一款开源的高性能大语言模型。


在所有核心基准测试中,其表现均优于 Llama 2 13B。


该模型通过采用分组查询注意力机制,实现了推理速度的显著提升。


同时借助滑动窗口注意力技术,使其在长文本处理场景下仍能保持低成本、高效率的推理能力。


Mistral 7B 的优势


● 模型参数量级虽小但具备卓越性能;

● 对日语任务具备中等程度的处理能力。


Mistral 7B 的局限性


● 与 LLaMA 3.1 70B 等大规模参数模型相比仍存在性能差距

Mistral Large


Mistral Large 是一款性能超越 LLaMA 3.1(70B) 与 Claude 2 的大规模语言模型。


然而相较于 LLaMA 3.1(405B)及 Mistral Large 2 等更高性能模型仍存在差距。


该模型在多语言处理方面表现卓越,可原生级支持英语、法语、西班牙语、德语及意大利语。


同时具备日语处理能力,能够实现准确度达标的理解与内容生成。


此外,其配备 32K 令牌的上下文窗口,特别适用于长文档及代码处理场景。


Mistral Large 的核心优势


● 虽未达到 LLaMA 3.1 70B 水准,但具备卓越的模型性能;

● 支持多语言处理能力。


Mistral Large 的显著劣势


● 尽管支持日语处理,但在语言自然度与准确性方面较 GPT-4 等顶尖模型存在差距

嵌入模型

E5 Base v2


E5 Base v2 是专精于生成嵌入表示的模型,可应用于检索增强生成(RAG)、聚类分析及各类 NLP 任务中的特征提取。


该模型基于 MS MARCO 与 BEIR 数据集通过对比学习训练而成,其核心优势在于卓越的检索精度与聚类性能。


需注意的是,本模型不支持推理任务(如问答系统)及文本生成任务。


E5 Base v2 模型的优势


● 作为嵌入模型,在聚类与检索任务中展现出卓越的精度表现


E5 Base v2 的局限性


● 该模型专用于嵌入任务,不支持推理及生成类任务。

Snowflake Arctic Embed M


Snowflake Arctic Embed M 是一款模型规模达 110B 的嵌入模型。


与 OpenAI 的嵌入模型(text-embedding-3-large)相比,其参数量约为后者的 1/4,嵌入维度约为 1/3,但在检索性能方面展现出更优异的表现。


该模型尤其在日语基准测试中取得高分,在日语文本检索和相似度计算领域具有显著优势。


Snowflake Arctic Embed M 的优势


● 在嵌入模型中具备卓越性能;

● 在日语文本处理领域展现出尤为突出的精准度。


Snowflake Arctic Embed 的局限性


● 作为专用嵌入模型,不支持推理及生成类任务

总结


我们汇总了在东京区域运行的 Dataiku 中可用的 Snowflake Cortex 模型性能。


通过结合使用 Dataiku 与 Snowflake,可助力整个组织构建数据驱动的决策基础架构。


在处理日语数据的推理与生成任务时,我们建议优先考虑支持日语且高性能的 Mistral Large 2 模型。此外,下篇博客将详解如何在 Dataiku 中使用 Snowflake Cortex。


原文地址:

https://www.keywalker.co.jp/blog/dataiku-snowflake-cortex-llm-performance.html



点击链接立即报名注册:Ascent - Snowflake Platform Training - China

2025-10-27 22:254730

评论

发布
暂无评论

真正的产品迭代,源于更好的理解用户需求

Feedalyze

产品运营 产品迭代 用户反馈 用户需求 企业发展

蓝队网络流量分析脚本:自动化威胁检测与防御利器

qife122

网络安全 流量分析

AI赋能驱动下的容器化应用开发范式升级

xuyinyin

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

vivo互联网技术

人工智能 推理模型 多模态大语言模型 GUI Agent Test-time Scaling

荣耀远航计划丨2025上半年激励成果一览

荣耀开发者服务平台

荣耀开发者服务平台 荣耀HONOR 荣耀远航计划

ETL中的数据质量评估与监控

谷云科技RestCloud

数据库 数据处理 数据安全 ETL ETL数据集成平台

超简单!手把手教你玩转ClaudeCode,无魔法不会员!

王磊

阿里云 Milvus 节省计划来袭:4 折抵扣按量账单,59 元起玩转向量检索!

阿里云大数据AI技术

ETL与iPaaS的融合方案:加速数据集成流程

谷云科技RestCloud

数据处理 API ETL 数据集成平台 ipaas

腾讯内部测试管理工具揭秘:让用例"活"起来

优测云服务平台

测试管理工具

解析 vLLM 架构及源码系列:模型执行过程

Jason黄

vLLM源码

京东工业商品详情API秘籍!轻松获取商品详情数据

tbapi

京东工业数据采集 京东工业商品详情API 京东工业API

国内好用的API网关推荐:技术选型与企业实践指南

谷云科技RestCloud

API 数据安全 API网关 集成平台 ipaas

RAGFlow+TextIn:RAG 实战教程!1 分钟实现解析性能提升

合合技术团队

人工智能 大数据 算法

5 个最佳 ServiceNow 开源替代品(含价格对比)

NocoBase

开源 低代码 零代码 ITSM ServiceNow

IT故障响应慢?ManageEngine卓豪助您3步实现问题管理!

ServiceDesk_Plus

ManageEngine卓豪

性能瓶颈定位更快更准:ARMS 持续剖析能力升级解析

阿里巴巴云原生

阿里云 云原生 Arms

得物灵犀搜索推荐词分发平台演进3.0

得物技术

架构 AI 算法

融云十周年程序员纪录片《十字路口》:三十而立,35+ 而已

融云 RongCloud

好用的思维导图网页版有哪些?这8个导图软件榜上有名!

职场工具箱

AI 思维导图 办公软件 思维导图软件 AI生成思维导图

中国通信工业协会城乡建设数字化专业委员会一行到访融云

融云 RongCloud

新华三 Polaris X20000 登顶 MLPerf Storage v2.0,ScaleFlux 助力实现高性能表现

ScaleFlux

元图CAD:破解离散文字提取难题,释放工程设计效率新潜能

元图CAD

OCR 元图cad 提取文字 离散文字

震坤行商品列表API秘籍!轻松获取商品列表数据

tbapi

震坤行API 震坤行商品详情API 震坤行商品数据采集

实时平台Flink热更新技术——实现不停机升级!

袋鼠云数栈

flink sql

文心快码Zulu:项目级智能脚手架轰然降临

Comate编码助手

AI辅助编程 AI 编程 文心快码 文心快码Zulu

抖音家政小程序融合版:助力家政服务高效接入多平台

微擎应用市场

小程序 抖音

获高瓴光速数千万美元投资,质变科技发布首款类人决策智能体Bloom

AI数据云Relyt

数据智能 智能体 AI Agent 决策智能 Agentic AI

一个平台让开发效率提升90%?看看中小企业如何靠iPaaS完成数字化转型

谷云科技RestCloud

数据处理 集成平台 ipaas

在 Dataiku 上可以使用的 Snowflake Cortex 的 LLM 性能比较 | 技术趋势_AI&大模型_InfoQ精选文章