【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

谷歌详细描述了 Allo 的图形推荐处理算法

  • 2016-11-15
  • 本文字数:965 字

    阅读完需:约 3 分钟

谷歌的 Expander 团队详细描述了一种常数运行时的算法,用于支持 Allo 应用程序中的推荐图像回复功能。谷歌描述说,他们使用未标记的节点彼此之间的相似性来推断它们可能属于同一类,或者有相同的属性,在这个案例中,就是指那些输入的图像、文本或者其它包含了异构图形的数据。有监督的学习方法一直都以代价过大而著称,尤其是当这种图形算法需要处理并学习百万级或十亿级别的图形时。半监督式学习方法与之相比,则大大减少了所需要的训练数据集的大小。

各种大小各种形状,包括图形那样的异构的、多模型的数据,包括文本、图像和视频输入,或者这些数据的各种各样的“数据表现”,比如图像象素和聊天等,都可能在 Allo 中用于图像回复。数据可能是从原始数据中抽取出来的关系型或结构化的数据,也可能是非结构化的、稀疏或密集型表示。

谷歌提到了示例图表的多种属性,但也提到这种方法并不能扩展到百万级,或有时候十亿级的图形处理。在图表中预测任意节点是“红”还是“蓝”的示例中,谷歌提到:

数据节点之间的关系都是通过边来表示,并且通过每条边的宽度来表示连接的强度……边的强度是通过嵌入矩阵的相似性计算的——低相似性的边就直接被忽略了……灰色表示没有标签的数据,而有颜色的节点就表示有标签的数据。数据节点之间的关系都是通过边来表示,以及通过每条边的宽度来表示连接的强度。注意具体的图形结构和颜色的选择要根据具体的任务来,这种方法并不适用于大型图形。

谷歌提供的一个与平常生活更贴近的例子是从存储在相似性图形中的若干个已打标签的单词中辨别幽默词。

常数运行时算法是由分布式的相邻节点算法中派生而来的,目的是在大型图形上应用半监督式学习算法进行计算,发现单词的感情类别,从而算出某个词是否是幽默词。谷歌提到了系统的复杂度空间和内存要求,但没有提任务的复杂度、预测标签的数量,以及做算法设计决定时的可能输出空间因子的大小。目前谷歌没有提供示例代码、数据集及它们的属性。

“在实践中,我们会使用在图形结构上定义的复杂优化功能,这包含了更多的对半监督式图像学习的信息和约束,因此也导致了复杂的非凸性问题。然而,真正的挑战在于将这种算法有效地扩展到更大的系统之上,包含几十亿个图形节点、几十亿条边以及几十亿种不同的标签类型等。”

查看英文原文 Google Details Allo Recommendation Graph Processing Algorithm

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2016-11-15 18:001318
用户头像

发布了 152 篇内容, 共 67.7 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

推荐6个很牛的IDEA插件

这我可不懂

ide 插件 IntelliJ IDEA

基于 Databend 实现的海量日志实时查询服务 | 多点DMALL

Databend

「大模型之家」对话澜舟科技创始人兼CEO周明:马上采取行动,拥抱大模型

澜舟孟子开源社区

Flink 最佳实践:TDSQL Connector 的使用(上)

腾讯云大数据

flink 流计算 Oceanus

2023深圳高交会|第二十五届中国国际高新技术展览会

AIOTE智博会

高交会

直播预告 | 博睿学院:揭开docker的神秘面纱

博睿数据

Docker 可观测性 智能运维 博睿数据 博睿学院

【MySQL技术专题】「问题实战系列」深入探索和分析MySQL数据库的数据备份和恢复实战开发指南(备份+恢复篇)

洛神灬殇

MySQL 数据恢复 数据备份 技术分析

AI新场景 安全新边界技术高峰会定档8月9日

权说安全

iOS MachineLearning 系列(21)——CoreML模型的更多训练模板

珲少

AIIA杭州大会|李京梅:基于孟子GPT生成式大模型的技术与行业应用实践

澜舟孟子开源社区

uni-app开发小程序:项目架构以及经验分享

陇锦

小程序 uni-app 前端

点云标注在自动驾驶中的精度提升

来自四九城儿

在Java中的空指针异常怎么避免?

java易二三

指针 java‘ #编程

图技术在 LLM 下的应用:知识图谱驱动的大语言模型 Llama Index

NebulaGraph

图数据库 知识图谱 LLM

低代码:“提效降本”是如何炼成的

这我可不懂

软件开发 低代码 降本增效

改变人力资源业务战略,释放变革性技术力量

智达方通

全面预算管理 企业人力资源 智达方通EPM系统

一文带你全面了解openGemini

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

低代码是开发者的未来吗?浅谈低代码平台

互联网工科生

云原生 低代码 数字化 系统开发

你还在用命令式编程?Python函数式编程让你的代码更优雅!

高端章鱼哥

Python 函数式编程

Hybrid App 技术解析:热更新的原理

Onegun

混合应用开发 native 热更新 Hybrid

澜舟科技成立两周年|“孟子GPT”大模型开启邀测

澜舟孟子开源社区

货拉拉基于 Flink 计算引擎的应用与优化实践

Apache Flink

大数据 flink 实时计算

FTP文件传输工具:简单、高效、实用的数据传输方式

镭速

快速文件传输 FTP文件传输工具

网络安全(黑客)自学

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

软件测试/测试开发丨Python 封装 学习笔记

测试人

Python 软件测试 自动化测试 封装

云计算需求激增带来的基础设施挑战及解决方案

这我可不懂

云计算

从零开始搭建医药领域知识图谱实现智能问答与分析服务(含码源):含Neo4j基于垂直网站数据的医药知识图谱构建、医药知识图谱的自动问答等

汀丶人工智能

人工智能 知识图谱 智能问答

如何判断某个视频是深度伪造的?

高端章鱼哥

人工智能 伪造视频 AI视频

2023 年 10 大前端发展趋势

互联网工科生

前端 发展趋势

金融领域:产业链知识图谱包括上市公司、行业和产品共3类实体,构建并形成了一个节点10w+,关系边16w的十万级别产业链图谱

汀丶人工智能

自然语言处理 知识图谱

低代码治好了CIO们的 “精神内耗”

高端章鱼哥

软件开发 低代码 数字化 软件交付 降低成本

谷歌详细描述了Allo的图形推荐处理算法_AI&大模型_Dylan Raithel_InfoQ精选文章