大数据

收录了大数据频道下的 1523 篇内容
人人都在谈大数据,但理解其真谛的只是少数人。
  • 全部
  • 文章
  • 话题
  • 迷你书
估值62亿美元,Databricks会成为企业AI平台的黑马吗?
估值 62 亿美元,Databricks 会成为企业 AI 平台的黑马吗?

Ali Ghodsi:“这是我经历过的最容易的一次融资”。

五问BERT:深入理解NLP领域爆红的预训练模型
五问 BERT:深入理解 NLP 领域爆红的预训练模型

本文由浅入深,通过理论与案例多角度介绍了 BERT 的理论与使用方法。

极客女孩崛起:神话还是现实
极客女孩崛起:神话还是现实

在数据科学领域,男女比例仍然不平衡,女性担任的领导职位仍然比男性少得多。

知识图谱的下一步:知识指导的预训练模型和图神经网络
知识图谱的下一步:知识指导的预训练模型和图神经网络

当前行业内可用的、公开的知识图谱工具和组件还不够完善。

万字长文浅谈微视推荐系统中的特征工程
万字长文浅谈微视推荐系统中的特征工程

本文主要说明微视,这种富媒体形态的短视频平台,是如何通过视频内容特征以及用户属性和行为数据,来精准预测用户对短视频的喜好的。

Spark诞生头十年:Hadoop由盛转衰,统一数据分析大行其道
Spark 诞生头十年:Hadoop 由盛转衰,统一数据分析大行其道

2019 年是 Spark 诞生的第 10 个年头,统一数据分析的理念始终植根于 Spark 的各个发展阶段。

Spark Streaming源码分析:DStream的内置和运行
Spark Streaming 源码分析:DStream 的内置和运行

本文介绍 Spark-Streaming 的流处理模型,DStream 的内部实现以及其如何构建和运行。

数据库内核杂谈(一):一小时实现一个基本功能的数据库
数据库内核杂谈(一):一小时实现一个基本功能的数据库

数据库内核博大精深,很多子系统的设计初看不知所云,但是细读就会发现其已经做到了极致。但是市面上很少有类似的资源或者课程把数据库内容的精髓讲解出来,因此 Facebook 现任 Tech Lead 顾仲贤撰写了《数据库内核杂谈》的系列文章。

Ceph 发展十年的教训:文件系统不适合作为分布式存储后端
Ceph 发展十年的教训:文件系统不适合作为分布式存储后端

对于分布式存储而言,相比文件系统形式,用定制后端实现可以做到又快又好。

  • 用户头像

    InfoQ技术编辑

  • 用户头像

    InfoQ技术编辑

  • 用户头像

    InfoQ技术编辑