【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

大数据是这样计算的:XLab 实例入门

  • 2016-05-21
  • 本文字数:2078 字

    阅读完需:约 7 分钟

编者按: InfoQ 开设栏目“品味书香”,精选技术书籍的精彩章节,以及分享看完书留下的思考和收获,欢迎大家关注。本文节选自杨旭著《大数据是这样计算的:XLab 实例入门》中的章节“简介”,介绍大数据通用算法平台XLab。

第2 章 简介

XLab 是大数据通用算法平台,现为阿里巴巴集团内部最大的分布式算法平台,集大规模统计、机器学习、数据分析、挖掘和处理于一体,致力于帮助用户享受最新的算法研究成果,使其无须关注算法的底层实现和性能调优,专注数据探索和算法尝试,从而快速地进行业务调整,搭建线上业务。
无论你是否有大数据分析的基础,都可以通过 XLab 图形界面,轻松上手;XLab 还提供了脚本编辑执行功能,灵活方便,帮你成为大数据分析的高手。

2.1 主界面介绍

XLab 主界面分为 4 个功能区:工具栏、数据列表、窗口管理器和工作界面。各功能区的位置如图 2-1 所示。

图 2-1
接下来,我们会对各功能区进行介绍。

2.1.1 工具栏

位于 XLab 主界面的左上角,如图 2-2 所示,共有4个图标,分别为脚本编辑运行、获取帮助手册、查看标准输出和版本信息。

图 2-2
下面我们详细介绍每个图标的用法。
(1) :脚本编辑、运行。单击此图标,出现 XLab 的脚本编辑运行窗体,如图 2-3 所示,具体的功能会在后面的章节详细介绍。

图 2-3
(2) :帮助文档。XLab 会带着最新的使用文档,为 PDF 格式,单击此图标,会自动打开帮助文档,如图 2-4 所示。

图 2-4
(3) :查看 XLab 的标准输出,如图 2 5 所示。其中,“log\stdout2014_07_09_14_32_35_ 422.log”为标准输出保存的文件路径。

图 2-5
(4) :显示 XLab 的版本信息,如图 2-6 所示。

图 2-6

2.1.2 数据列表

位于 XLab 主界面的左部偏上的位置,即如图 2-7 所示的功能区域。

图 2-7
该区域用来显示用户登录时所输入的“默认 Project”中的全部数据表名称。如果用户登录时设置了“关联 Projects”,则还会显示这些 Projects 中的所有数据表名称。在实际使用中,接下来要介绍的几个小技巧可以使数据表操作更简单。
 技巧一,在输入框中输入数据表名称的部分字符,下面会自动对表名进行过滤。譬如:在输入框内输入“kddc”,则所有名称中含有“kddc”的数据表都会显示在下面,效果如图 2-8 所示。

图 2-8
 技巧二,在数据表名上单击右键,可以进行复制表名、修改表名、删除表和查看属性等操作,参见图 2-9 所示。

图 2-9
譬如选择菜单中的“属性”,得到如下显示结果(见图 2-10)。

图 2-10
可以了解各数据列的名称和类型,知道记录总数、该数据表的创建和修改时间。
 技巧三,更新数据列表,需要按 按钮。注意 XLab 不会自动更新数据列表内容,用户可根据实际需要手动更新。

2.1.3 窗口管理器

位于 XLab 主界面的左部偏下的位置,如图 2-11 所示,包括所有在工作桌面上运行的窗体列表。

图 2-11
中间树状结构显示 XLab 内部各个窗体及其对应关系。如图 2-11 中的两个数据表格窗体在树中有父子节点关系,则表示子节点对应窗体数据由父节点操作后生成。用户单击树节点可以显示\隐藏对应窗体,也可以单击下方显示\隐藏全部窗体。
2.1.4 工作界面
位于主界面的右端位置,占据了主界面的大部分区域,用来查看数据、进行分析计算、显示结果等,如图 2-12 所示。

图 2-12
注意:工作界面的大小是可调的,可以使用鼠标拖动工作界面左端的分割栏,调节主界面左右区域所占的比例;也可以单击分割栏上的黑色指向左端的三角形,将工作界面扩展至全屏。
2.2 数据查看、运行
单击数据列表中的某个数据表名称,就会在工作界面显示该数据表相应的数据,如图 2-13 所示。

图 2-13
注意窗体下方的“当前显示前 50 行(最多 10000 行)”,“最多 10000 行”是 ODPS 系统对数据访问的限制;XLab 默认显示 50 行,用户可以自由设置显示的行数。
在此数据显示窗体上,可以查看数据,还可以进行分析计算。其菜单栏上包含了大部分常用功能,具体功能如图 2-14 所示。

图 2-14

2.2.1 文本显示
用户也可用文本显示数据表的内容,但不可编辑。可以单击菜单项“表格→文本显示”,如图 2-15 所示。

图 2-15
2.2.2 复制部分数据
显示在表格中的数据,可以通过选择区域,并使用“Ctrl-C”组合键复制数据,并粘贴到其他程序。举例如下。
如图 2-16 所示,使用“Ctrl-A”组合键,选中全部显示用的数据;选择使用“Ctrl-C”组合键复制数据,并把 Excel 打开,再使用“Ctrl-V”组合键,便将选中的数据复制到了 Excel 中,如图 2-17 所示。

图 2-16

图 2-17
2.2.3 显示 / 隐藏列
当用户想隐藏某些列时,可以选择菜单项“表格→显示 / 隐藏 列”,选择隐藏的列,如图 2-18 所示。

图 2-18
单击“确定”按钮,即可得到如图 2 19 所示的数据显示。

图 2-19
还可以在数据表上选中一列,单击鼠标右键,并选择“隐藏列”,隐藏选中的列。

书籍介绍:


《大数据是这样计算的:XLab 实例入门》侧重介绍大数据分析方法和算法的应用,选取了 10 个不同领域的真实数据集,针对每个数据的特点,选择适合的方法和算法,和读者一起体验数据探索、数据分析、建模预测的过程;通过实例计算的结果,读者会更加了解各种方法和算法的长处和局限。《大数据是这样计算的:XLab 实例入门》的实例都运行在大数据算法平台 XLab 上。

2016-05-21 20:562990

评论

发布
暂无评论
发现更多内容

机械加工行业MES系统实施步骤

万界星空科技

mes 万界星空科技 机械 机械加工行业 机加工MES

名企测试管理大咖解析沟通管理,多维度经验分享

测试人

软件测试

面试官:说一下零拷贝技术的实现原理?

王磊

java面试

软件测试岗位内推丨京东科技控股股份有限公司岗位开放

测试人

软件测试

CrossOver 24 for Mac(windows 虚拟机)v24.0 b1中文激活版

影影绰绰一往直前

✅快速构建Express服务

派大星

node.js Express

Apache Doris 2.0.4 版本正式发布

SelectDB

数据仓库 数据分析 OLAP 大数据 开源 数据库·

百川终入海 ,一站式海量数据迁移工具 X2Doris 正式发布

SelectDB

数据库 OLAP 数据库迁移 数据同步 大数据 开源

MES系统计划排产功能,助你提升生产效率

万界星空科技

生产管理系统 mes 万界星空科技 万界星空科技mes 排产计划

ScaleFlux与UCloud携手,助力高性能文件存储,实现低成本和高性能的完美平衡

ScaleFlux

高性能 数据压缩 企业存储

名企测试管理大咖解析沟通管理,多维度经验分享

测吧(北京)科技有限公司

测试

教你一键搭建本地服务器,轻松4人以上联机畅玩幻兽帕鲁

华为云开发者联盟

云计算 服务器 华为云 华为云开发者联盟

测试管理 | 京东科技控股股份有限公司岗位开放~

测吧(北京)科技有限公司

测试

软件测试学习笔记丨Linux命令 uniq去重

测试人

软件测试

吴杰庄对话 BTC Inc. 国际业务总监:东西方 Web3 领域的合作与竞争

TechubNews

工厂生产管理MES系统,开源代码+维护

万界星空科技

开源 源码 mes 开源mes 万界星空科技

软件测试|京东科技控股股份有限公司岗位开放~

霍格沃兹测试开发学社

FxFactory 8 Pro for Mac(视觉特效处理包)v8.0.12激活版

影影绰绰一往直前

「我在淘天做技术」2024年看AIGC是如何让1688主图焕发新春的

阿里技术

商品 大模型 1688 AIGC

异常检测、自动告警,业务问题分钟级识别

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟

Redis Desktop Manager for Mac:简单高效的Redis数据库管理工具

影影绰绰一往直前

Photoshop 2024 破解版(ps 2024)正式版下载

影影绰绰一往直前

简单一招竟把nginx服务器性能提升50倍

京东科技开发者

Total Video Converter Pro for Mac(超级转霸)v5.1.0中文激活版

影影绰绰一往直前

复杂SQL治理实践 | 京东物流技术团队

京东科技开发者

Pod/Node 内存高负载故障注入

腾讯云混沌演练平台

k8s 混沌工程

大数据是这样计算的:XLab实例入门_大数据_杨旭_InfoQ精选文章