写点什么

文本数据

收录了 文本数据 频道下的 50 篇内容

文本数据的机器学习自动分类方法 (下)

以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本大数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。

文本数据的机器学习自动分类方法 (上)

以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。

如何使用 Scikit-learn 实现用于机器学习的文本数据准备

这篇文章中,我们将介绍如何使用Scikit-learn来实现用于机器学习的文本数据准备。文章主要介绍了三个Scikit-learn自带的文本数据量化工具——CountVectorizer、TfidfVectorizer和HashingVectorizer。

NLP文本分类缺少训练数据?IBM提出基于语言模型的数据增强新方法
NLP 文本分类缺少训练数据?IBM 提出基于语言模型的数据增强新方法

怎样才能拥有足够多且可供深度学习模型训练用的数据呢?

NLP技术在金融资管领域的落地实践
NLP 技术在金融资管领域的落地实践

本文介绍NLP技术在金融资管领域的实践经验。

信息抽取在知识图谱构建中的实践与应用
信息抽取在知识图谱构建中的实践与应用

本文将从概念辨析、技术路径、实践总结,由虚到实、由浅入深引导大家理性看待知识图谱技术的能与不能,以更好地在实践中运筹帷幄。

基于 Spark 的文本情感分析,以《疯狂动物城》为例
基于 Spark 的文本情感分析,以《疯狂动物城》为例

本文描述了一个基于 Spark 构建的认知系统:文本情感分析系统,分析和理解社交论坛的非结构化文本数据。

面向中文地址的预训练语言模型GeoBERT
面向中文地址的预训练语言模型 GeoBERT

本文来自微信京东数科技术说公众号。

手把手教你在JavaScript中使用LangChain,解锁AI应用能力
手把手教你在 JavaScript 中使用 LangChain,解锁 AI 应用能力

带你深入了解LangChain的核心组件以及通过JS如何使用这些组件的能力。

利用 AWS SageMaker BlazingText 对不均衡文本进行多分类
利用 AWS SageMaker BlazingText 对不均衡文本进行多分类

本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。

百度大脑 EasyData 智能数据服务平台上线文本数据清洗功能

我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。

利用 Elasticsearch 进行文本数据的深度分析

在当今信息爆炸的时代,文本数据的分析变得尤为重要。而Elasticsearch作为一款强大的搜索和分析引擎,提供了丰富的功能和工具,使得对文本数据进行深度分析变得更加便捷和高效。本文将介绍如何利用Elasticsearch进行文本数据的深度分析,探索其在各种应用场景

测试
美团餐饮娱乐知识图谱——美团大脑揭秘
美团餐饮娱乐知识图谱——美团大脑揭秘

本文来自美团点评技术文章系列。

Hulu在Content Embedding的探索与实践
Hulu 在 Content Embedding 的探索与实践

Hulu是美国领先的互联网视频流媒体平台,拥有大量的电影、电视剧等视频资源,对这些内容的理解和表示是Hulu的一个重要研究方向。

问答对话文本数据:解锁智能问答的未来

在日常生活中,我们经常面临各种问题和需求,而智能问答系统作为一种人机交互工具,为我们提供了便捷的问题解答和信息获取方式。而问答对话文本数据作为推动智能问答系统发展的关键资源,扮演着重要角色。

使用 Amazon Comprehend 检测客户评论的情绪
使用 Amazon Comprehend 检测客户评论的情绪

如今,公共内容之间的关联越来越密切。

大型模型的重要基石与洞察力之源之文本数据

在当今数字化时代,文本数据已成为人类活动的主要载体,无处不在的信息交流塑造着我们的社会、经济和文化。而正是这些海量的文本数据,为大型模型的训练和应用提供了丰富的资源,成为其重要的基石与洞察力之源。

问答对话文本数据,构建智能问答对话系统的基础

在人工智能领域的发展中,问答对话系统显得尤为重要。一方面,它为我们提供了常用的人机交互方式;另一方面,它也对互联网公司和其他机构提供了一种新的商业模式。不过,对话系统的核心技术之一就是问答对话文本数据的处理,它直接决定对话系统的准确性和可用

对话文本数据是培养大模型的智能与交流之源

对话文本数据,作为人类交流的生动表现,正成为训练大型模型的宝贵资源。这些数据不仅蕴含了丰富的语言特点和人类交流方式,更在模型训练中发挥着重要的意义,从而为其赋予更强大的智能和更自然的交流能力。

播客推荐系统原理解析

Lindsay Vass是2016年1月Insight Data Science远程培训项目的学员,现在是Facebook的数据科学家。在这篇文章中,她描述了如何构建TheSauropod——用于发现新播客的播客推荐库。这些内容最初发表在Lindsay的博客上。

文本数据专题_资料-InfoQ中文网