收录了 文本数据 频道下的 50 篇内容
以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本大数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。
以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。
这篇文章中,我们将介绍如何使用Scikit-learn来实现用于机器学习的文本数据准备。文章主要介绍了三个Scikit-learn自带的文本数据量化工具——CountVectorizer、TfidfVectorizer和HashingVectorizer。
怎样才能拥有足够多且可供深度学习模型训练用的数据呢?
本文介绍NLP技术在金融资管领域的实践经验。
本文将从概念辨析、技术路径、实践总结,由虚到实、由浅入深引导大家理性看待知识图谱技术的能与不能,以更好地在实践中运筹帷幄。
本文描述了一个基于 Spark 构建的认知系统:文本情感分析系统,分析和理解社交论坛的非结构化文本数据。
LLMs)在处理和生成自然语言方面取得了一定的进步,但这些模型处理文本的长度有限,在理解和生成长文本方面的能力也受到影响。
本文来自微信京东数科技术说公众号。
大型语言模型(LLM)正在深刻地影响自然语言处理(NLP)领域,其强大的处理各种任务的能力也为其他领域的从业者带来了新的探索路径。
本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。
我们采集或导出的原始文本数据中,通常包含着大量无关的emoji和url信息,面对大量的无用信息时该怎么办?少量数据通常我们可采用人工剔除的方式,但在数据量较大的情况下,往往就无从下手。
在当今信息爆炸的时代,文本数据的分析变得尤为重要。而Elasticsearch作为一款强大的搜索和分析引擎,提供了丰富的功能和工具,使得对文本数据进行深度分析变得更加便捷和高效。本文将介绍如何利用Elasticsearch进行文本数据的深度分析,探索其在各种应用场景
本文来自美团点评技术文章系列。
Hulu是美国领先的互联网视频流媒体平台,拥有大量的电影、电视剧等视频资源,对这些内容的理解和表示是Hulu的一个重要研究方向。
在日常生活中,我们经常面临各种问题和需求,而智能问答系统作为一种人机交互工具,为我们提供了便捷的问题解答和信息获取方式。而问答对话文本数据作为推动智能问答系统发展的关键资源,扮演着重要角色。
如今,公共内容之间的关联越来越密切。
在当今数字化时代,文本数据已成为人类活动的主要载体,无处不在的信息交流塑造着我们的社会、经济和文化。而正是这些海量的文本数据,为大型模型的训练和应用提供了丰富的资源,成为其重要的基石与洞察力之源。
在人工智能领域的发展中,问答对话系统显得尤为重要。一方面,它为我们提供了常用的人机交互方式;另一方面,它也对互联网公司和其他机构提供了一种新的商业模式。不过,对话系统的核心技术之一就是问答对话文本数据的处理,它直接决定对话系统的准确性和可用
本次演讲将介绍字节跳动视觉基础研究团队在这个方向的探索与进展,包括 LLMs 在图像理解与视频生成上的阶段性结果。