写点什么

大数据是这样计算的:XLab 实例入门

  • 2016-05-21
  • 本文字数:2078 字

    阅读完需:约 7 分钟

编者按: InfoQ 开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自杨旭著《大数据是这样计算的:XLab 实例入门》中的章节“简介”,介绍大数据通用算法平台XLab。

第2 章 简介

XLab 是大数据通用算法平台,现为阿里巴巴集团内部最大的分布式算法平台,集大规模统计、机器学习、数据分析、挖掘和处理于一体,致力于帮助用户享受最新的算法研究成果,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。
无论你是否有大数据分析的基础,都可以通过 XLab 图形界面,轻松上手;XLab 还提供了脚本编辑执行功能,灵活方便,帮你成为大数据分析的高手。

2.1 主界面介绍

XLab 主界面分为 4 个功能区:工具栏、数据列表、窗口管理器和工作界面。各功能区的位置如图 2-1 所示。

图 2-1
接下来,我们会对各功能区进行介绍。

2.1.1 工具栏

位于 XLab 主界面的左上角,如图 2-2 所示,共有4个图标,分别为脚本编辑运行、获取帮助手册、查看标准输出和版本信息。

图 2-2
下面我们详细介绍每个图标的用法。
(1) :脚本编辑、运行。单击此图标,出现 XLab 的脚本编辑运行窗体,如图 2-3 所示,具体的功能会在后面的章节详细介绍。

图 2-3
(2) :帮助文档。XLab 会带着最新的使用文档,为 PDF 格式,单击此图标,会自动打开帮助文档,如图 2-4 所示。

图 2-4
(3) :查看 XLab 的标准输出,如图 2 5 所示。其中,“log\stdout2014_07_09_14_32_35_ 422.log”为标准输出保存的文件路径。

图 2-5
(4) :显示 XLab 的版本信息,如图 2-6 所示。

图 2-6

2.1.2 数据列表

位于 XLab 主界面的左部偏上的位置,即如图 2-7 所示的功能区域。

图 2-7
该区域用来显示用户登录时所输入的“默认 Project”中的全部数据表名称。如果用户登录时设置了“关联 Projects”,则还会显示这些 Projects 中的所有数据表名称。在实际使用中,接下来要介绍的几个小技巧可以使数据表操作更简单。
 技巧一,在输入框中输入数据表名称的部分字符,下面会自动对表名进行过滤。譬如:在输入框内输入“kddc”,则所有名称中含有“kddc”的数据表都会显示在下面,效果如图 2-8 所示。

图 2-8
 技巧二,在数据表名上单击右键,可以进行复制表名、修改表名、删除表和查看属性等操作,参见图 2-9 所示。

图 2-9
譬如选择菜单中的“属性”,得到如下显示结果(见图 2-10)。

图 2-10
可以了解各数据列的名称和类型,知道记录总数、该数据表的创建和修改时间。
 技巧三,更新数据列表,需要按 按钮。注意 XLab 不会自动更新数据列表内容,用户可根据实际需要手动更新。

2.1.3 窗口管理器

位于 XLab 主界面的左部偏下的位置,如图 2-11 所示,包括所有在工作桌面上运行的窗体列表。

图 2-11
中间树状结构显示 XLab 内部各个窗体及其对应关系。如图 2-11 中的两个数据表格窗体在树中有父子节点关系,则表示子节点对应窗体数据由父节点操作后生成。用户单击树节点可以显示\隐藏对应窗体,也可以单击下方显示\隐藏全部窗体。
2.1.4 工作界面
位于主界面的右端位置,占据了主界面的大部分区域,用来查看数据、进行分析计算、显示结果等,如图 2-12 所示。

图 2-12
注意:工作界面的大小是可调的,可以使用鼠标拖动工作界面左端的分割栏,调节主界面左右区域所占的比例;也可以单击分割栏上的黑色指向左端的三角形,将工作界面扩展至全屏。
2.2 数据查看、运行
单击数据列表中的某个数据表名称,就会在工作界面显示该数据表相应的数据,如图 2-13 所示。

图 2-13
注意窗体下方的“当前显示前 50 行(最多 10000 行)”,“最多 10000 行”是 ODPS 系统对数据访问的限制;XLab 默认显示 50 行,用户可以自由设置显示的行数。
在此数据显示窗体上,可以查看数据,还可以进行分析计算。其菜单栏上包含了大部分常用功能,具体功能如图 2-14 所示。

图 2-14

2.2.1 文本显示
用户也可用文本显示数据表的内容,但不可编辑。可以单击菜单项“表格→文本显示”,如图 2-15 所示。

图 2-15
2.2.2 复制部分数据
显示在表格中的数据,可以通过选择区域,并使用“Ctrl-C”组合键复制数据,并粘贴到其他程序。举例如下。
如图 2-16 所示,使用“Ctrl-A”组合键,选中全部显示用的数据;选择使用“Ctrl-C”组合键复制数据,并把 Excel 打开,再使用“Ctrl-V”组合键,便将选中的数据复制到了 Excel 中,如图 2-17 所示。

图 2-16

图 2-17
2.2.3 显示 / 隐藏列
当用户想隐藏某些列时,可以选择菜单项“表格→显示 / 隐藏 列”,选择隐藏的列,如图 2-18 所示。

图 2-18
单击“确定”按钮,即可得到如图 2 19 所示的数据显示。

图 2-19
还可以在数据表上选中一列,单击鼠标右键,并选择“隐藏列”,隐藏选中的列。

书籍介绍:


《大数据是这样计算的:XLab 实例入门》侧重介绍大数据分析方法和算法的应用,选取了 10 个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。《大数据是这样计算的:XLab 实例入门》的实例都运行在大数据算法平台 XLab 上。

2016-05-21 20:563402

评论

发布
暂无评论
发现更多内容

震撼来袭!最具中国特色的微服务组件:新一代SpringCloud Alibaba

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

云数据库技术沙龙|多云多源下的数据复制技术解读-NineData

NineData

MySQL Clickhouse 数据管理 多云多源 数据存取

基于图神经网络的推荐算法

TiAmo

神经网络 算法 推荐算法

如何选择正确的压缩方式?

ScaleFlux

智能硬件 数据压缩 计算存储 NVMeSSD

用户分享 | Dockquery,一个国产数据库客户端的初体验

BinTools图尔兹

用户体验 国产数据库工具

Redis和MySQL扛不住,B站分布式存储系统如何演进?

Java你猿哥

Java MySQL redis ssm kv

鲸鸿动能广告接入如何高效变现流量?

HarmonyOS SDK

HMS Core

一路同行,端点科技与海尔集团相伴十年的数字之旅

科技热闻

Webpack5构建性能优化:构建耗时从150s到60s再到10s | 京东云技术团队

京东科技开发者

性能优化 webpack webpack-tapable 企业号 5 月 PK 榜

构建万物互联,华为云IoT+鸿蒙重燃物体感知

华为云开发者联盟

鸿蒙 物联网 华为云 华为云开发者联盟 企业号 5 月 PK 榜

一周吃透Java面试八股文(2023最新整理)

Java你猿哥

Java kafka Spring Boot JVM java面试

阿里全新推出:微服务突击手册,把所有操作都写出来了|超清PDF

做梦都在改BUG

Java 架构 微服务 Spring Cloud spring cloud alibaba

牛掰!阿里架构师熬夜肝了一份JVM必知必会,哪里不会查哪里

做梦都在改BUG

Java 性能优化 JVM

阿里官方上线!号称Java面试八股文天花板(2023最新版)首次开源

Java你猿哥

Java redis Spring Boot JVM java面试

精选!字节大佬带你一周刷完Java面试八股文,比啃书效果好多了

Java你猿哥

Java 算法 ssm java面试 java知识点

MySQL百万数据深度分页优化思路分析

Java你猿哥

Java MySQL 数据库 ssm 优化技术

从浏览器输入域名开始分析DNS解析过程

华为云开发者联盟

开发 华为云 DNS 华为云开发者联盟 企业号 5 月 PK 榜

Java并发编程必备:分布式锁的选型和性能对比

做梦都在改BUG

Java 数据库 分布式锁

零信任是什么意思?与堡垒机有什么区别?

行云管家

网络安全 堡垒机 零信任

开源之夏 2023 | 与 Databend 一同探索云数仓的魅力

Databend

责任链模式在复杂数据处理场景中的实战

阿里技术

设计模式 技术实践

硬核!阿里最新出品架构核心场景实战手册,解决99%的架构问题

Java你猿哥

微服务 架构设计 架构师 架构场景实战 微服务实战

来了!昇腾MindStudio全流程工具链分论坛精彩回顾,助力高效开发和迁移效率提升

科技热闻

本周日直播,全链路数据治理实践论坛开放报名

阿里云大数据AI技术

大数据 数据治理

重磅发布!阿里巴巴专家亲自撰写,Dubbo 3.0 分布式实战(彩印版)

做梦都在改BUG

Java 分布式 微服务 dubbo

独家巨献!阿里专家兼Github贡献者,整理的SpringBoot入门到成神

做梦都在改BUG

Java spring 架构 微服务 Spring Boot

k8s+Docker部署方法

Java你猿哥

Java Docker k8s ssm 架构师

AI 大底座,大模型时代的答卷

百度Geek说

人工智能 百度 文心一言 企业号 5 月 PK 榜

如何选择最优权限框架?Sa-Token 和 Shiro 对比

做梦都在改BUG

shiro Sa-Token

在Bamboo上怎么使用iOS的单元测试 | 京东云技术团队

京东科技开发者

ios 单元测试 代码覆盖率 Bamboo 企业号 5 月 PK 榜

大数据是这样计算的:XLab实例入门_大数据_杨旭_InfoQ精选文章