【AICon】 如何构建高效的 RAG 系统?RAG 技术在实际应用中遇到的挑战及应对策略?>>> 了解详情
写点什么

DARPA 宣布开源 Memex 搜索技术

  • 2015-05-04
  • 本文字数:1138 字

    阅读完需:约 4 分钟

Memex 项目最早于 2014 年 2 月由美国国防部高级研究计划局(DARPA)发起。DARPA 于 2015 年 4 月 17 日宣布了 Memex 项目,并开源各个组件,使得政府等机构和个人可以进行高度定制化的搜索。 Memex 搜索引擎的研究发起者 Chris White 表示,“互联网比人们想得要庞大得多。据统计分析,Google、微软 bing 以及雅虎搜索只收录了网络上大约 5% 的内容。”“暗网”通常指互联网中无法被搜索引擎抓取到的部分(现在谷歌上已经能搜到一些暗网地址了)通常包含非法内容,包括不限于:色情、枪支弹药、毒品等。参与 Memex 项目的卡耐基梅隆大学教授 Jeff Schneider 之前表示,“该计划目前的重点是贩卖人口。但是用来研究人口贩运的算法也可以应用到其他领域。”

今年 2 月,美国国防部五角大楼的研究机构批准 Scientific American 新闻网对 Memex 进行了报道。美国国防部先进研究项目局的主管 Dan Kaufman 表示,“Memex 的理念简化来说就是——如何挖掘不易被发现的东西。”目前,DARPA 在 Apache 许可证下开源了 Memex 项目开发的工具。其中,大部分软件源代码托管在 GitHub 上。根据福布斯网站的公布,参与 Memex 项目的机构主要有:

  • Uncharted Software 开发了前端接口 TellFinder 和 DIG;
  • ArrayFire 公司开发了通过 GPU 加速计算和网页搜索的软件库 ArrayFile;
  • 卡耐基梅隆大学开发了 TJBatchExtractor,用于在广告中提取名字、位置等数据信息;
  • Diffeo 公司开发了 Dossier Stack,主要负责分析用户的兴趣,为搜索结果的展示提供建议;
  • Hyperion Gray 公司的爬虫用来复制用户与网站的交互情况;
  • Jet Propulsion Laboratory 机构搭建了 ImageCat、FacetSpace、LegisGATE 和 ImageSpace 等四个组件,用于分析和操作图像和文字;
  • MIT 林肯实验室编写了 Text.jl、MITIE 和 Topic 三个自然语言处理工具;
  • 纽约大学联合 JPL 和 Continuum 创建了 Topic 接口来帮组用户与爬虫进行交互;
  • Sotera Defense Solution 创造了 Data Wake,用于收集用户可以点击、可能点击或者已经点击过的链接;
  • SRI International 开发了 Hidden Service Forum Spider 暗爬虫,用于从暗服务中抓取内容;
  • 斯坦福大学开发了 DeepDive,用于把文字和多媒体转变成为知识库,从而在不同人和组织之间创建连接关系。

通过这诸多机构的参与, Christ White 表示,他们想要动摇谷歌、雅虎和微软控制的搜索行业。不过,不论Memex 的能力有多强大,其目的只是降低犯罪率,而不是侵犯大多数人的隐私。同时,它也有助于更好的理解互联网信息的庞大性。


感谢魏星对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-05-04 05:122695
用户头像

发布了 268 篇内容, 共 117.2 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

Java应用程序性能开发工具:JProfiler 14 「Mac」附 注册码

彩云

java开发工具 JProfiler 14

大模型 | 今天聊聊大语言模型幻觉(AI Hallucinations)

澳鹏Appen

数据标注 大模型 生成式AI LLM 大模型幻觉

流行的矿机系统定制开发 | IPFS虚拟矿机源码开发 | 矿机模式挖矿搭建功能开发

V\TG【ch3nguang】

UltraEdit for mac(文本编辑器) v21.00.0.12中文完整版

mac

UltraEdit 文本编辑器 苹果mac Windows软件

终身学习支持非结构化场景 | KubeEdge-Ianvs v0.2 发布

华为云原生团队

云计算 容器 云原生 边缘计算 kubeedge

「燃情大促,年终钜惠」,家人们这一波可以冲!

融云 RongCloud

活动 服务 IM RTC 融云

科技企业正成为外交名片

TE智库

新能源

PDF编辑器:Acrobat Pro DC 2023 「Mac」

彩云

PDF编辑 Acrobat Pro DC 2023

重磅更新!Sermant 1.2.0 release版本新特性速览

华为云开发者联盟

开源 后端 华为云 华为云开发者联盟

DAPP链上质押挖矿分红开发原理

西安链酷科技

区块链 dapp 去中心化 挖矿

混沌工程稳态假说

腾讯云混沌演练平台

混沌工程 稳定性保障

混沌工程GameDay

腾讯云混沌演练平台

混沌工程 GameDay 稳定性建设 混沌演练

VMware Workstation 17安装教程之设置系统模式

小齐写代码

AI 革命:最佳 txt 转纹理工具

3D建模设计

AI自动纹理 AI纹理

Luminar Neo(超强AI图像编辑器)特别版下载mac/win

影影绰绰一往直前

Luminar Neo破解版 Luminar Neo下载 Luminar Neo mac

如何调用API获取你想要的数据

Noah

去中心化交易所开发

西安链酷科技

区块链 去中心化 交易所 合约 合约数字货币

7 款用于训练 AI 模型的合成数据工具

3D建模设计

人工智能模型 合成数据 UnrealSynth

服务器大揭秘:美国服务器为何成为热门选项?

一只扑棱蛾子

美国服务器

利用Docker容器化构建可移植的分布式应用程序

互联网工科生

Docker 容器化

荣耀推送服务 - 发送下行消息能力指导

荣耀开发者服务平台

基础服务 实时推送 API 接口 荣耀开发者服务平台 开放能力

Go的命令行工具开发:使用Cobra库

这我可不懂

cobra go语言

AI PC的时代,英特尔和联想、爱奇艺是怎样玩转AI的?

E科讯

DeFi链上金融借贷系统开发 | DAPP区块链挖矿系统搭建

V\TG【ch3nguang】

GameFi游戏NFT链游开发系统搭建技术

西安链酷科技

区块链 dapp 去中心化 链游开发

堪比文件传输助手!解决文本、图片、视频、音乐跨设备同步难题!

彭宏豪95

软件推荐 文件传输 数据同步 在线白板 浏览器插件

知识图谱与大模型结合方法概述

华为云PaaS服务小智

云计算 软件开发 华为云

速谈Beyond Compare使用的六个步骤

晴雯哥

知识图谱与大模型相结合的3种方法,1+1>2

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 大语言模型

购买小间距LED显示屏需要考虑8个方面

Dylan

领域 LED LED显示屏 实用指南

稳定扩散的高分辨率图像合成

3D建模设计

AI自动纹理 稳定扩散

DARPA宣布开源Memex搜索技术_安全_张天雷_InfoQ精选文章