阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

Jeff Moser 解释.NET 正则表达式的工作方式

  • 2009-04-02
  • 本文字数:1017 字

    阅读完需:约 3 分钟

Jeff Moser 发表了一篇对.NET 中正则表达式工作方式的深入解析。他的文章谈及了微软实现中的一些核心操作原理,如编译正则表达式时使用的机器码。

他首先透露,最近使用的 15 个正则表达式会被缓存起来。对于那些只使用 1 到 2 个正则表达式的小型的应用程序,这意味着没有必要每次都创建一个 Regex 对象。

在编译正则表达式的时候,首先会通过一个扫描器(scanner)来生成(emit)一个 RegexTree。它的叶子节点就好像一种略加扩展的源代码,而下一步便是把它转换为正则表达式引擎所使用的机器码。

这些工作由 EmitFragment 函数完成,其中包含了大约 250 行的 switch 语句。这个函数把 RegexTree 打散成“碎片”再将它们转化为相对简单的 RegexCode

[…]

这些工作生成一个用于描述 RegexCode“操作码”及其参数的整数数组。例如,你可以看到一些例如“ Setrep ”的指令携带了一些字符串参数。这些参数指向了一个字符串表中的偏移量。这就是为什么说,正如我们之前看到的那样,把所有的东西打包成那些不规则字符串是很重要的原因。这是唯一可以传递指令信息的方法。

把代码数组分解之后,我们可以看到:

索引

指令

操作码 / 参数

字符串表的引用

描述

复制代码
[Lazybranch](http://www.koders.com/csharp/fidF4B2B64D471D5B7401063DE2054CB33F28BDA026.aspx#L73)

23

复制代码
延迟扩展至偏移量为 21 的 [Stop](http://www.koders.com/csharp/fidF4B2B64D471D5B7401063DE2054CB33F28BDA026.aspx#L91) 指令。

1

复制代码
21
2

Setmark

31

复制代码
把我们当前的状态放入栈中以便稍后进行回溯。

3

Multi

12

复制代码
对字符串表中的第 0 项(即“http://”)进行一次多字符匹配。

4

复制代码
"http://"

5

Setmark

31

复制代码
把我们当前的状态放入栈中以便稍后进行回溯。

6

Setrep

2

复制代码
对于字符串表中位置为 1 的集合(即\[^\\s/\])进行长度为 1 的反复匹配。

7

复制代码
1

“\x1\x2\x1\x2F\x30\x64”

8

复制代码
1
9

Setloop

5

复制代码
在最多为 Int32.MaxValue 次的循环中对\[^\\s/\] 集合进行匹配。

10

复制代码
1

“\x1\x2\x1\x2F\x30\x64”

11

复制代码
2147483647
12

Capturemark

32

复制代码
捕获组#1,即最近一次 Setmark 所标记的位置,到当前位置的字符串。

13

复制代码
1
14
-1
15

Oneloop

3

复制代码
在最多为 1 次的循环中匹配 Unicode 字符 47

16

复制代码
47
17
1
18

Capturemark

32

复制代码
捕获组#0,即第一次 Setmark 所标记的位置,到当前位置的字符串。

19

复制代码
20
-1
21

Stop

40

复制代码
停止匹配。

可以看到,正则表达式已经被转化为一个稍后可供运行的简单“程序”。

Jeff Moser 的博客中描述了有关这个过程的更多信息。他的文章还讨论了:

  • 前缀优化
  • 解释器
  • 回溯
  • 已知错误

查看英文原文: Jeff Moser’s How .NET Regular Expressions Really Work

2009-04-02 21:081345
用户头像

发布了 157 篇内容, 共 52.6 次阅读, 收获喜欢 6 次。

关注

评论

发布
暂无评论
发现更多内容

“数据要素×” 行动计划要做的几件小事,可都不是小事啊!

用友BIP

数据要素

Mybatis 拦截器实现单数据源内多数据库切换 | 京东物流技术团队

京东科技开发者

解锁前端新潜能:如何使用 Rust 锈化前端工具链

京东科技开发者

应对 DevOps 中的技术债务:创新与稳定性的微妙平衡

禅道项目管理

DevOps 自动化测试 技术债务 禅道项目管理

拥抱梦想夏令营:2024年暑假招生计划发布,助力青少年成长

科技热闻

大模型Chatbots评估新视角:结合定性与程序方法的实践经验

Baihai IDP

程序员 AI LLM 白海科技 Chatbots

XPET宠物游戏系统开发

l8l259l3365

打造新一代云原生"消息、事件、流"统一消息引擎的融合处理平台

洛神灬殇

RocketMQ 云原生 消息队列 2024年第五篇文章

“云+冷链”新场景,华为云助力前海粤十“物畅其流”

华为云开发者联盟

后端 物联网 华为云 华为云开发者联盟

文心一言 VS 讯飞星火 VS chatgpt (174)-- 算法导论13.3 3题

福大大架构师每日一题

福大大架构师每日一题

即将取代你的数字人到底是什么?

青否数字人

数字人

“青否数字人”的应用领域!

青否数字人

数字人

文件备份和同步软件推荐:Syncovery 最新激活版

胖墩儿不胖y

Mac软件 同步备份软件

泰开集团总会计师杜艳春:浅谈设备制造企业数智化之路

用友BIP

企业数智化

Dynamic Wallpaper for Mac v17.1中文版下载

影影绰绰一往直前

DevSecOps|极狐GitLab IaC 安全扫描,保障云原生安全

极狐GitLab

IPQ6000 series IPQ6010 and IPQ6018: Explore infinite possibilities, when will your smart connection evolve?

wallysSK

8种超简单的Golang生成随机字符串方式

华为云开发者联盟

开发 华为云 Go 语言 华为云开发者联盟

XMind for mac (XMind思维导图)v24.01中文版下载

iMac小白

AlDente Pro for Mac v1.24激活版下载

iMac小白

Serato DJ Pro for Mac(专业DJ软件)v3.0.3中文激活版下载

影影绰绰一往直前

商业智能、数据分析和需求预测在现代零售管理中的关键运用

第七在线

App Cleaner & Uninstaller for mac v8.2.5中文激活版下载

影影绰绰一往直前

Illustrator 2021 for mac v25.4.1中文直装版下载

影影绰绰一往直前

企业数字化转型是什么?数字化转型的痛点又是什么?怎么转?从哪里转?转了有哪些好处?

天津汇柏科技有限公司

数字化转型峰会

Navicat Premium 15 for Mac v15.0.36中文激活版下载

iMac小白

AlDente Pro for Mac v1.24激活版下载

影影绰绰一往直前

【领先实践之离散制造行业】MOM全场景,助力光伏单晶行业降本增效

用友BIP

领先实践 光伏单晶行业

龙蜥副理事长张东:潮蜥共引,繁荣系统软件生态 | 2023龙蜥操作系统大会

OpenAnolis小助手

操作系统 算力 系统软件 龙蜥社区 浪潮信息

青否数字人系统源码到底怎么样?

青否数字人

数字人

对话式搜索:基于OpenSearch向量检索版+大模型的实践

百度开发者中心

人工智能 大模型 对话系统

Jeff Moser解释.NET正则表达式的工作方式_.NET_Jonathan Allen_InfoQ精选文章