收录了 structured 频道下的 50 篇内容
Spark团队对Spark Streaming的维护将会越来越少
Apache Spark在2016年的时候启动了Structured Streaming项目,一个基于Spark SQL的全新流计算引擎Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。经过一年多的改进和完善,目前Structured Streaming已经在Databricks内部和客户广泛使用,InfoQ采访了Structured Streaming的核心开发朱诗雄来具体了解这个项目。
为帮助开发者更深入的了解这三个大数据开源技术及其实际应用场景,9月8日,InfoQ联合华为云举办了一场实时大数据Meetup,集结了来自Databricks、华为及美团点评的大咖级嘉宾前来分享。本文整理了其中的部分精彩内容,同时,作为本次活动的承办方,InfoQ整理上传了所有讲师的演讲PPT,感兴趣的同学可以下载讲师PPT获取完整资料 。
Lake(Delta.io)是一个给数据湖提供可靠性的开源存储层软件。在实际生产中的应用与实践以及未来项目规划,本文便整理自此次演讲。
NVMe SSD的性能时常捉摸不定,为此我们需要打开SSD的神秘盒子,从各个视角分析SSD性能影响因素,并思考从存储软件的角度如何最优化使用NVMe SSD,推进数据中心闪存化进程。本文从NVMe SSD的性能影响因素进行分析,并给出存储系统设计方面的一些思考。
将Redis流作为流数据库,Apache Spark作为数据处理引擎,两者怎样共同部署才能做到最佳搭配?
今天给大家介绍一个开源组件libdill,用C编写,实现了Structured Concurrency。
本文介绍了以 Pulsar 做流数据平台,使用 Spark 进行批流一体数据处理的编程实践。
在本文中,作者Amit Baghel讨论了在数据科学领域中,视频流数据分析的角色。他还展现了如何基于OpenCV、Kafka和Spark技术实现一个动作感应示例应用场景。
本文介绍字节跳动对 RocksDB 存储引擎的几方面改进。
本文是实时流计算 2018 年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面、客观的对比,同时对未来流计算可能的发展方向进行预测和展望。
知识图谱的构建包括逻辑建模、隐含空间分析、人机交互和本体模型支撑等多种方法。本文将分析各种构建方法的问题和挑战,指出自动构建的要素和应用场景。
随着企业安全边界的扩大化模糊化、各类威胁新出速度越来越快、影响越来越广,视企业安全边界为静态、仍然依赖各种特征码技术的传统安全思路早已落后,无法实际解决安全问题。必须通过各种创新,整合大数据、人工智能、可视化等领域的最新技术进展,安全产品才能解决目前和将来的企业安全难题。 但如何选择并整合各种技术是复杂系统工程,比常规企业安全软件开发需要考虑更多因素。本次分享中对大数据、人工智能、可视化的最新进展和应用案例做个总结,重点讨论大数据平台云部署运维、交互批处理与实时流处理的关系、有监督学习解决的安全问题和大数据可视化这四个细分领域。
本文希望通过对 LETUS 的深入技术解读,回答读者们普遍关心的关键问题:LETUS 是什么?主要解决哪些问题?为什么坚持用“可验证结构”?为什么要自研?以及未来要走向何处?
本文介绍 Flink和Spark 两种实现方式的异同。
本文介绍了Adobe公司在使用Iceberg时遇到的小文件问题以及高并发写入的一致性问题。针对这两个问题,Adobe给出了有指导意义的解决方案。
本文重点介绍内容是模型压缩关键的技术原理、方法以及在汽车座舱的场景中的应用。同时也介绍了技术团队在模型剪枝方面的突破性工作。
NoSQL图数据库支持连接的数据和关系的数据模型。这篇文章中,作者讨论了安全性对图数据库技术的影响,也谈到一些和隐私和安全相关的用例,如图发现、知识管理和预测。
Google 发布了名为 Bigtable: A Distributed Storage System for Structured Data 的论文
本文来自华为云开发者社区