写点什么

Android Smart Linkify API 背后的机器学习

  • 2018-08-23
  • 本文字数:918 字

    阅读完需:约 3 分钟

上周,谷歌发布了代号为 Pie 的 Android 9 。Android 正在推出一系列由人工智能提供支持的新功能。 Android Smart Linkify 是最重要的新 AI 功能之一。

Smart Linkify 建立在先前版本 Android Oreo 发布的 Smart Text Selection 之上。Smart Linkify 可以检测文本中的某些类型的实体(例如地址、电话号码)并添加可点击的链接,允许用户直接启动地图或拨打电话。它由设备内的前馈神经网络提供支持,每种语言大小仅 500KB,推理代码不超过 250KB。这个系统为几近实时的系统,在 Google Pixel 手机上计算时间短于 20 毫秒。

系统首先通过空格将输入文本拆分为单词,并计算最多 15 个单词所有可能的单词子序列。每个子序列被提供给神经网络,神经网络基于其有效性为它们分配 [0 … 1] 范围的值。在删除重叠实体后,系统为子序列打较高的分数。在整个过程的第一部分结束时,每个未知类型都有一个不重复单词子序列。

然后使用第二个神经网络来识别每个单词子序列的类型,无论是电话号码、地址还是未识别的实体。神经网络将上下文中的单词子序列作为输入。通过将子序列的前三个和后三个单词作为实体,将它们前面的五个单词作为左上下文,将随后的五个单词作为右上下文,然后将它们作为不同的特征来识别单词的含义。这个神经网络中一个有趣的优化是使用二进制特征来识别以大写字母开头的单词。其背后的原因是,邮政地址非常独特,使用这种方式更容易识别出来。

为了训练神经网络,谷歌团队从真实数据中生成了虚假样本。他们使用 Schema.org 注解的实体、地址、电话号码和随机单词的自定义列表合成了一个训练集。他们采用可观察的实体并用随机单词围绕它们达到更理想的结果。另外,有意生成负数据训练样本,让神经网络避免将“ID:”识别为电话号码。

国际化是这个功能的一个重要方面,根据测试,一种模型适用于所有拉丁语言,并可以为中文、日文、韩文、泰文、阿拉伯文和俄文添加单独的模型。目前,API 支持 16 种语言,未来几个月将支持更多语言。这些模型使用 TensorFlow 进行训练,自定义的推理库由 TensorFlow Lite 和 FlatBuffers 提供支持。开发人员可以通过 TextClassifier API generateLinks 方法开始使用 Smart Linkify。

查看英文原文 The Machine Learning behind Android Smart Linkify API

2018-08-23 07:441916
用户头像

发布了 731 篇内容, 共 484.2 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

成本下降50%,腾讯音乐StarRocks存算分离大规模实践!

StarRocks

大数据 Druid 存算分离 湖仓一体 Click house

中国互联网大会 | 百度智能云千帆大模型数据安全解决方案荣获“金灵光杯”

百度安全

代码数据两不误,小浣熊请求出战

法医

AI

暑假肯吃苦,秋招猛如虎

王中阳Go

Go 数据库 redis 面试 面经

轻松管理抖音店铺:抖音视频详情数据接口自动化教程

tbapi

抖音API 抖音视频详情接口 抖音视频数据接口 抖音视频数据采集

什么是汽车虚拟仿真vr技术?

3DCAT实时渲染

汽车虚拟仿真 云VR看车 云车展

Solana Blink和SEND的崛起:技术与市场效应的结合

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

信创里程碑:TapData 与 OceanBase 产品完成兼容互认证,加速推进金融等传统行业自主创新与数字化革新

tapdata

oceanbase 信创国产化 TapData 实时数据平台 国产信创数据库

抖音接口推荐:抖音商品详情数据接口(douyin.item_get)

tbapi

抖音 抖音商品数据采集 抖音商品详情数据接口 抖音API

活动回顾|矩阵起源2024WAIC圆满落幕

MatrixOrigin

人工智能 数据库 WAIC

真·我的上班搭子之有小浣熊的一天——分分钟完成万条人事数据分析

Geek_cc71cf

办公小浣熊 代码小浣熊 小浣熊家族 小浣熊

给 「大模型初学者」 的 LLaMA 3 核心技术剖析

Baihai IDP

AI 白海科技 LLMs 企业号 7 月 PK 榜 Llama3

客户在哪儿AI分享全方位锁定客户“追着打”的有效方法

客户在哪儿AI

ToB营销 ToB增长 ToB销售

小间距LED显示屏:未来市场的百亿级潜力

Dylan

技术 发展 LED LED显示屏 市场

金融数据分析优化|实战应用小浣熊

网罗开发

如何预防外部威胁和内部威胁

麦兜

2024-07-13:用go语言,给定一个从0开始的长度为n的整数数组nums和一个从0开始的长度为m的整数数组pattern,其中pattern数组仅包含整数-1、0和1。 一个子数组nums[i.

福大大架构师每日一题

福大大架构师每日一题

Android Smart Linkify API背后的机器学习_移动_Alex Giamas_InfoQ精选文章