

 写点什么

文本数据

收录了文本数据频道下的 50 篇内容

文本数据的机器学习自动分类方法 (下)

以统计理论为基础，利用机器学习算法对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析，已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本大数据的机器学习自动分类方法》系列文章，为您详细阐述机器学习文本分类的基本方法与处理流程。

作者 : 张健

2016-01-25

7182

文本数据的机器学习自动分类方法 (上)

以统计理论为基础，利用机器学习算法对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析，已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章，为您详细阐述机器学习文本分类的基本方法与处理流程。

作者 : 张健

2016-01-25

22315

如何使用 Scikit-learn 实现用于机器学习的文本数据准备

这篇文章中，我们将介绍如何使用Scikit-learn来实现用于机器学习的文本数据准备。文章主要介绍了三个Scikit-learn自带的文本数据量化工具——CountVectorizer、TfidfVectorizer和HashingVectorizer。

作者 : Jason Brownlee 译者: 马卓奇

2017-10-31

2597

Hugging Face 发布 FineTranslations：一个万亿级的多语言平行文本数据集

Hugging Face发布了FineTranslations，这是一个大规模多语言数据集，包含覆盖英语和其他500多种语言的并行文本、超过1万亿个Token。

作者：Robert Krzaczyński 译者: 平川

01-26

NLP 文本分类缺少训练数据？IBM 提出基于语言模型的数据增强新方法

怎样才能拥有足够多且可供深度学习模型训练用的数据呢？

作者 : 张之栋

2019-11-15

1658

NLP 技术在金融资管领域的落地实践

本文介绍NLP技术在金融资管领域的实践经验。

作者 : DataFunTalk

2020-05-22

信息抽取在知识图谱构建中的实践与应用

本文将从概念辨析、技术路径、实践总结，由虚到实、由浅入深引导大家理性看待知识图谱技术的能与不能，以更好地在实践中运筹帷幄。

作者 : 百分点认知智能实验室

2020-09-13

基于 Spark 的文本情感分析，以《疯狂动物城》为例

本文描述了一个基于 Spark 构建的认知系统：文本情感分析系统，分析和理解社交论坛的非结构化文本数据。

作者 : 江万、英春

2019-10-08

134

学术前沿 | 多个长文本大语言模型长依赖任务准确率低于 40% 通研院 - 北大提出基准数据集 LooGLE

LLMs）在处理和生成自然语言方面取得了一定的进步，但这些模型处理文本的长度有限，在理解和生成长文本方面的能力也受到影响。

北京通用人工智能研究院

2024-05-31

面向中文地址的预训练语言模型 GeoBERT

本文来自微信京东数科技术说公众号。

作者 : 京东数字科技产业AI中心

2020-03-22

生成式推荐系统与京东联盟广告 - 综述与应用

大型语言模型（LLM）正在深刻地影响自然语言处理（NLP）领域，其强大的处理各种任务的能力也为其他领域的从业者带来了新的探索路径。

作者 : 京东零售技术

2024-07-05

百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

我们采集或导出的原始文本数据中，通常包含着大量无关的emoji和url信息，面对大量的无用信息时该怎么办？少量数据通常我们可采用人工剔除的方式，但在数据量较大的情况下，往往就无从下手。

百度大脑

2021-02-07

利用 Elasticsearch 进行文本数据的深度分析

在当今信息爆炸的时代，文本数据的分析变得尤为重要。而Elasticsearch作为一款强大的搜索和分析引擎，提供了丰富的功能和工具，使得对文本数据进行深度分析变得更加便捷和高效。本文将介绍如何利用Elasticsearch进行文本数据的深度分析，探索其在各种应用场景

测试

测吧(北京)科技有限公司

2024-03-27

问答对话文本数据：解锁智能问答的未来

在日常生活中，我们经常面临各种问题和需求，而智能问答系统作为一种人机交互工具，为我们提供了便捷的问题解答和信息获取方式。而问答对话文本数据作为推动智能问答系统发展的关键资源，扮演着重要角色。

数据堂

2023-07-13

复杂场景下的 RAG 架构演进：跨模态知识联邦与统一语义推理实践

在 InfoQ 举办的 QCon 全球软件开发大会（北京站）上，枫清科技合伙人、智能平台事业部总经理王传阳分享了“复杂场景下的 RAG 架构演进：跨模态知识联邦与统一语义推理实践”，他深入剖析了基于跨模态知识联邦与统一语义推理的 RAG 架构，并结合生产实践分享实际应用成效，以及后续技术演进方向做了系统的分享。

作者 : Kitty 策划: QCon全球软件开发大会

2025-06-04