对话UNIX :正则表达式_unix 正则表达式 匹配-程序员宅基地

技术标签: 正则表达式  文件处理  UNIX  

非常奇怪,直到今天我仍然能重复周六早上的经典歌曲“Conjunction Junction”。这是好事(看了太多电视)还是坏事(也许是我现在职业的先兆)仍然有待讨论。不管怎样,这首小调在欢快的节奏下传递了基本的信息。

我还没有为学习 UNIX 构想出与“Conjunction Junction”相似的作品,但是我会在未来的几个月里尝试亲手编写这样的歌曲。与此同时,趁着快乐回忆所带来的好心情,我们继续以 Schoolhouse 摇滚的传统学习方式攻克命令行。

现在开始上课。吐出嘴里的口香糖,回到您的座位上,然后拿出一根二号铅笔。还有您,Spicoli。

模仿秀

您可以将 UNIX 命令行看作是一句话:

  • 可执行命令,如 cat 或 ls,是动词——操作。
  • 命令的输出是名词——要查阅或使用的数据。
  • Shell 操作符,如 |(管道)或 >(重定向标准输出),是连词——用于连接句子。

例如,命令行:ls -A | wc -l 用于计算当前目录下的条目数(忽略特殊条目 . 和 ..),它包含两个句子。第一个句子 ls -A 是动词结构,列举当前目录下的内容,第二个句子 wc -l 是另一个动词结构,用于计算行数。第一个句子输出的结果作为第二个句子的输入,并由连接词(管道)连接这两个句子。

在本系列文章以及其他文章中展示的许多您可能已经学习过的命令行句式都具有这种句子结构。

但是,如果缺少了文法上的修饰语,命令行将显得不专业。当然,基本句子也能完成工作,但是这样显得不优美。(在此对高中英语演唱二人组 Rad 女士和 Perlstein 女士表示歉意。)解决更有趣的问题需要用到形容词

几乎所有重要问题都需要从无用数据中过滤出有用数据。虽然属性的数量和种类会有所不同,但是每种方案都通过某种方式(形式或格式),隐式或显式地描述了它要查找并处理的信息,从而生成另外一种形式的其他信息。

在命令行中,正则表达式 的作用相当于形容词——一种描述或限定词。在应用到输出时,正则表达式可辨别相关数据和无关数据。

标点概述

让我们看一个示例问题。

grep 实用工具逐行过滤输入并寻找匹配。grep 的最简单应用是打印那些包含与某个模式匹配的文本的行。grep 可以查找具有固定顺序的字符组合,甚至可以通过使用 -i 选项来忽略大小写。

因此,假定文件 heroes.txt 包含以下行:

Catwoman
Batman
The Tick
Spider Man
Black Cat
Batgirl
Danger Girl
Wonder Woman
Luke Cage
The Punisher
Ant Man
Dead Girl
Aquaman
SCUD
Spider Woman
Blackbolt
Martian Manhunter

命令行:

grep -i man heroes.txt

将生成:

Catwoman
Batman
Spider Man
Wonder Woman
Ant Man
Aquaman
Martian Manhunter

其中 grep 扫描 heroes.txt 文件中的每一行并查找字母 m,后面紧跟 a,然后紧跟 n。除了必须保证相邻,这些字母可以出现在行的任何位置,甚至可以位于较大的单词中间。在不考虑大小写的情况下(-i 选项),Catwoman、Batman、Spider Man、Wonder Woman、Ant Man、Aquaman 和 Martian Manhunter 都包含字符串 man

grep 实用工具包含其他可优化搜索的内置选项。例如,-w 选项限制于匹配整个单词,因此 grep -i -w man 将排除 Catwoman 和 Batman(举例来说)。

该工具还有一个优秀的功能,可以排除而不是包括所有匹配的搜索结果。使用 -v 选项来排除 匹配的行。例如:

grep -v -i 'spider' heroes.txt

将打印除了包含字符串 spider 之外的所有行。

Catwoman
Batman
The Tick
Black Cat
Batgirl
Danger Girl
Wonder Woman
Luke Cage
The Punisher
Ant Man
Dead Girl
Aquaman
SCUD
Blackbolt
Martian Manhunter

但是,对于以下这些情况,您该如何处理?只希望得到那些开头为“Bat”的单词;或者以“bat”、“Bat”、“cat”或“Cat”开头的单词?或者希望知道有多少漫画复仇者的名字以“man”结束。在这些实例中,类似于上述三个示例的简单字符串搜索将无法满足要求,因为这些搜索不区分位置。

位置、位置、位置和备选项

正则表达式可以 过滤特定的位置,例如行的开始或结束,以及单词的开始和结束。正则表达式(通常简写为 regex)还可以描述:备选项(您可将其称为“this”或“that”);固定长度、可变长度或不定长度的重复;范围(例如,“a-m 之间的任意字母”);还有字符的类别或种类(“可打印字符”或“标点符号”),以及其他技术。

表 1 显示了一些常用的正则表达式操作符。您可以连接表 1 中显示的元素(以及其他操作符)并加以组合使用,从而构建(非常)复杂的正则表达式。

表 1. 常用的正则表达式操作符
操作符 用途
.(句号) 匹配任意单个字符。
^(脱字号) 匹配出现在行首或字符串开始位置的空字符串。
$(美元符号) 匹配出现在行末的空字符串。
A 匹配大写字母 A
a 匹配小写字母 a
\d 匹配任意一位数字。
\D 匹配任意单个非数字字符。
\w 匹配任意单个字母数字字符,同义词是 [:alnum:]
[A-E] 匹配任意大写的 A、B、C、D 或 E
[^A-E] 匹配除A、B、C、D 和 E 之外的任意字符。
X? 匹配出现零次或一次的大写字母 X
X* 匹配零个或任意个大写 X
X+ 匹配一个或多个字母 X
X{ n} 精确匹配 n 个字母 X
X{ n,m} 匹配最少 n 个并且不超过 m 个字母 X。如果省略 m,表达式将尝试匹配最少 n 个 X
(abc|def)+ 匹配一连串的(最少一个) abc 或 defabc 和 def 将匹配。

以下是一些使用 grep 作为搜索工具的正则表达式示例。许多其他 UNIX 工具,包括交互式编辑器 vi 和 Emacs、流编辑器 sed 和 awk,以及所有现代编程语言都支持正则表达式。在您学会正则表达式的语法(也许相当晦涩)之后,就可以将您的专业知识灵活运用到不同的工具、编程语言和操作系统。

查找以“Bat”开头的名称

要查找以“Bat”开头的名称,请使用:

grep -E '^Bat'

可以使用 -E 选项来指定正则表达式。^(脱字号)字符匹配行首或字符串的开头,这是一个出现在每行或每个字符串开头字符之前的假想字符。字母 Ba 和 t 只具有字面含义并且仅匹配那些特定的字符。因此,命令 grep -E '^Bat' 将生成:

Batman
Batgirl

由于许多 regex 操作符也为 Shell 所使用(其中一些具有不同的用途,另外一些则有类似的用途),因此一个好的习惯是使用单引号将命令行中的每个 regex 括起来,以保护 regex 操作符免遭 Shell 的误解。例如,*(星号)和 $(美元符号)都是 regex 操作符,并且对于您的 Shell 具有特殊的含义。

查找以“man”结尾的名称

要查找以“man”结尾的名称,可以使用 regex man$ 来匹配序列 ma 和 n,并且后面紧接与 regex 操作符 $ 匹配的行(字符串)。

查找空行

基于 ^ 和 $ 的作用,您可以使用 regex ^$ 来查找空行(相当于在开始之后立即结束的行)。

备选项或集合操作符

要查找以“bat”、“Bat”、“cat”或“Cat”开头的单词,可以使用以下两个技巧。首先是备选项,如果备选项中的任意 模式匹配,都会产生匹配的结果。例如,命令:

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

可实现这一技巧。regex 操作符 |(竖线)表示备选项,因此 this|that 匹配字符串 this 或字符串 that。因此,^(bat|Bat|cat|Cat) 表示“行首紧跟 batBatcat 或 Cat之一。”当然,可以使用 grep -i 来简化该 regex,这样可以忽略大小写,从而将命令简化为:

grep -i -E '^(bat|cat)' heroes.txt

匹配“bat”、“Bat”、“cat”或“Cat”的另一个方法是使用 [ ](方括号)集合 操作符。如果将一组字符放在一个集合中,则可以匹配那些字符中的任意一个。(您可以将集合 看作是字符备选项的简写法。)

例如,命令行:

grep -E '^[bcBC]at' heroes.txt

与以下命令生成的结果相同:

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

您可以再次使用 -i 将 regex 简化为 ^[bc]at

而且,还可以使用 -(连字符)操作符在集合中指定包含的字符范围。例如,用户名通常以字母开头。假定要在提交给您的服务器的 Web 表格中验证这样的用户名,可以使用类似于 ^[A-Za-z] 的 regex。此 regex 表示“字符串的开头后紧跟任意大写字母 (A-Z) 或任意小写字母 (a-z)。”顺便说明一下,[A-z] 与 [A-Za-z] 作用相同。

还可以在集合中混合使用范围和单个字符。regex [A-MXYZ] 将匹配任意大写的 A-M、X、Y 和 Z

并且,如果希望反转集合(即排除集合中的任意字符),可以使用特殊集合 [^ ] 并包含要排除的范围或字符。以下是反转集合的示例。要查找所有名称中包含 at 的超级英雄,并排除 Dark Knight 和 Batman,请键入:

grep -i -E '[^b]at' heroes.txt

此命令生成:

Catwoman
Black Cat

由于某些集合需要经常使用,所以设计出简化符号以代替大量字符。例如,集合 [A-z0-9_] 十分常用,因此可以简写为 \w。与此类似,操作符\W 是集合 [^A-z0-9_] 的简写。还可以使用符号 [:alnum:] 代替 \w,使用 [^[:alnum:]] 代替 \W

顺便说明一下,\w(以及同义词 [:alnum:])是特定于区域的,而 [A-z0-9_] 即表示字母 A-z、数字 0-9 和下划线。如果要开发国际化应用程序,请使用区域特定的格式以使代码可以在许多区域之间移植。

跟我一起重复:重复,重复,重复

到目前为止,已经介绍了字面值、位置和两种备选项操作符。仅使用这些内容,就可以匹配大多数具有可预测 长度的模式。现在回到用户名,通过以下 regex 命令可以确保每个用户名以字母开头并紧跟恰好七个字母或数字:

[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]

但是这样有点笨拙。而且,它只匹配恰好八个字符的用户名。它不会匹配三到八个字符之间的名称,这通常也是有效的用户名。

正则表达式还可以包括重复修饰符。重复修饰符可以指定数量,如没有、一个、多个、一个或多个,零或一个、五到十个,以及恰好三个。重复修饰符必须与其他模式组合,修饰符本身没有含义。

例如,regex:

^[A-z][A-z0-9]{2,7}$

可以实现前面描述的用户名过滤功能。用户名 是以字母开头,后面紧跟至少两个,但不超过七个字母或数字的字符串,并且紧跟字符串结尾。

此处的位置定位点非常重要。如果没有两个位置操作符,则会错误地接受任意长度的用户名。为什么呢?请考虑 regex:

^[A-z][A-z0-9]{2,7}

此命令辨别:字符串是否以字母开头并紧跟二到七个字母?但是它未提到终止条件。因此,字符串 samuelclemens 满足条件,但是它的长度显然超出了有效用户名的范围。与此类似,省略开始定位点 ^,或同时省略两个定位点将分别匹配以类似 munster1313 结束或包含该字符串的字符串。如果必须匹配特定的长度,请记得在要求的模式的开头和结尾分别加上分隔符。

以下是其他一些示例:

  • 可以使用 {2,} 查找两次或多次重复。regex ^G[o]{2,}gle 匹配 GoogleGooogleGoooogle 等等。
  • 重复修饰符 ?+ 和 * 分别查找零次或一次、一次或多次,以及零次或多次重复。(例如,您可以将 ? 看作是 {0,1} 的简写法。)

    regex boys? 匹配 boy 或 boys;regex Goo?gle 匹配 Gogle 或 Google

    regex Goo+gle 匹配 GoogleGooogleGoooogle 等等。

    construct Goo*gle 匹配 GogleGoogleGooogle 等等。

  • 可以将重复修饰符应用到单个字符(如上所示),还可以应用到更复杂的组合。使用 ( 和 ) 圆括号(就像数学中的用法)将修饰符应用到子表达式。下面是一个示例:给定文本文件 test.txt:
    The rain in Spain falls mainly 
    on the the plain.
    
    It was the best of of times;
    it was the worst of times.

    命令 grep -i -E '(\b(of|the)\W+){2,}' test.txt 将生成:

    on the the plain.
    It was the best of of times;
  • regex 操作符 \b 匹配单词边界 或 (\W\w|\w\W)。该 regex 表示“一连串完整单词‘the’或‘of’后面紧跟非文字字符。”您可能会提出疑问,为什么\W+ 是必需的:\b 是位于单词开头或结尾的空字符串。在单词之间必须包括这一(或这些)字符,否则该 regex 将无法找到匹配。

捕获需要注意的内容

查找文本是常见的问题,但是更常见的问题则是希望在找到文本之后将其提取出来。换句话说,您希望去粗取精。

正则表达式通过捕获 来提取信息。如果希望将需要的文本与其他内容分开,请使用圆括号将模式括起来。实际上,您已经使用圆括号收集术语;在默认情况下,圆括号自动进行捕获。

要查看捕获,请切换到 Perl。(grep 实用工具不支持捕获,因为其目标是打印包含模式的行。)

以下命令:

perl -n -e '/^The\s+(.*)$/ && print "$1\n"' heroes.txt

将打印:

Tick
Punisher

使用命令 perl -e 可以直接从命令行运行 Perl 程序。perl -n 命令针对输入文件的每一行运行一次程序。命令的 regex 部分,即位于斜杠之间的文本(/)表示“匹配字符串的开头,然后字母‘T’、‘h’、‘e’后紧跟一个或多个空格字符 \s+,然后捕获直到字符串结尾的所有字符。

Perl 捕获内容被放在以 $1 开头的特殊 Perl 变量中。Perl 程序的其余部分打印捕获的内容。

每个嵌套的括号对,从左开始算起,每个左圆括号加一,放在下一个特殊的数字变量中。例如:

perl -n -e '/^(\w)+-(\w+)$/ && print "$1 $2"'

将生成:

Spider Man
Ant Man
Spider Woman

捕获感兴趣的文本仅仅是隔靴搔痒。如果能够准确确定材料,就可以使用其他材料改变其外观。类似于 vi 和 Emacs 的编辑器将模式匹配与替换组合,从而将查找和替换文本组合成一步操作。还可以使用模式、替换和 sed 从命令行更改文本。

丰富的主题

正则表达式非常强大;可供使用的操作符的数量庞大,种类繁多。它包含如此丰富的信息和实践知识,我们在这里所能列举的实属凤毛麟角。

幸运的是,有以下三种优秀的正则表达式理论来源可供使用:

  • 如果在您的系统上有 Perl,可以参阅 Perl Regular Expression man 页面(键入 perldoc perlre)。它会提供 regex 的精彩介绍,并包含许多有用的示例。许多编程语言都已采用 Perl 兼容的正则表达式 (PCRE),因此您在此 man 页面读到的内容已被直接转换到 PHP、Python、Java 和 Ruby 编程语言,以及许多其他最新工具。
  • Jeffrey Friedl 编著的《正则表达式》(第三版)被认为是 regex 用法方面的圣经。该书细致、准确、清晰、务实地说明了匹配的工作方式、所有的 regex 操作符、多数优先性(限制 + 和 * 匹配字符的数量),以及更多内容。此外,Friedl 的书还包括一些令人惊叹的正则表达式,可以准确地匹配完全限定的电子邮件地址和其他 Request for Comments (RFC) 特定的字符串。
  • Nathan Good 编著的 Regular Expression Recipes 一书提供了针对许多常见数据处理和过滤问题的有用的解决方案。如果需要提取邮政编码、电话号码或引用的字符串,请尝试 Nathan 的解决方案。

在命令行中,可以采用许多方法使用正则表达式。几乎每个处理文本的命令都支持某种形式的正则表达式。大多数 Shell 命令语法还或多或少地扩展正则表达式以匹配文件名(尽管操作符的功能可能有所不同)。

例如,键入 ls [a-c] 以查找名为 a、b 或 c 的文件。键入 ls [a-c]* 以查找以 a、b 或 c 开头的所有文件名。此处的 * 在 Shell 中不像 grep的解释器那样修饰 [a-c]* 被解释为 .*? 操作符在 Shell 中也可以工作,但是被解释为 .,即匹配任意单个字符。

查看您最喜欢的实用工具或 Shell 的文档以确定哪些 regex 操作符受支持,以及操作符可能具有的独特性。




http://www.ibm.com/developerworks/cn/aix/library/au-speakingunix9/

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/pianzif/article/details/25482599

智能推荐

ubuntu20.04安装配置VNC远程桌面_ubuntu安装vnc远程桌面-程序员宅基地

文章浏览阅读1.4k次。Ubuntu20.04配置VNC远程桌面_ubuntu安装vnc远程桌面

用CocoaPods做iOS程序的依赖管理_ios 依赖cocoapods-程序员宅基地

文章浏览阅读401次。文章目录1.文档更新说明2.CocoaPods 简介3.CocoaPods 的安装和使用介绍3.1.安装3.2.使用 CocoaPods 的镜像索引3.3.使用 CocoaPods3.4.查找第三方库3.5.关于 Podfile.lock4.为自己的项目创建 podspec 文件5.使用私有的 pods6.不更新 podspec_ios 依赖cocoapods

caffe学习笔记1源码阅读步骤_如何有效阅读caffe源码-程序员宅基地

文章浏览阅读153次。caffe学习笔记1:源码阅读步骤本文系转载,原文地址 https://ymgd.github.io/codereader/201..._如何有效阅读caffe源码

poj-1699-Best Sequence-dfs+子状态_1161142536-程序员宅基地

文章浏览阅读1k次。这道题目竟然真的ac了,好神奇啊。当时算的时间复杂度为O(T*N!),理论值达到7kw。做法:预处理dp数组,使得dp[i][j]代表j放在i后面长度的增加值。然后dfs,dfs的时候要注意,用一个二进制数标记当前状态。二进制中0代表当前位置已取,1代表当前位置未取。每次查找二进制的子状态。然后看看哪个位置在子状态消失了。一定要直接查找子状态。查找方法详参我的另一篇_1161142536

第四篇:mmpose之各类Demo测试及自定义数据原理(强推)-程序员宅基地

文章浏览阅读4k次,点赞5次,收藏9次。博主本人做关键点检测的思路主要是Top-down,即先用检测算法得到目标框,在用mmpose里的网络得到关键点坐标并可视化。那么如果我们想用自己的检测网络,那么怎么和MMpose整合到一起呢?首先要做的第一步是得把官方Demo跑通,下面将会分别以2D人体图像关键点检测、2D人体图像全身关键点检测,2D动物图像关键点检测、2D面部图像关键点检测、3D人体分割、3D手部关键点检测、3D姿态估计的顺序,分别教大家如何用自己的数据、通过标注制作数据集实现官方Demo的跑通。第一节:2D人体图像关键点检测_mmpose之各类demo测试及自定义

RedrawWindow 和 InvalidateRect 刷新_redrawwindow与invalidaterect-程序员宅基地

文章浏览阅读1k次。当父窗体设置了 WS_CLIPCHILDREN 的属性后, 默认状态下,RedrawWindow 和 InvalidateRect 不会导致子窗体重绘,因此,如果子窗体同时设置了 WS_EX_TRANSPARENT 属性,子窗体就会被父窗体刷没了。解决的办法是 RedrawWindow 的时候添加 RDW_ALLCHILDREN 标志,强制子窗体也重绘,而不要使用默认的 RedrawWindow 和 InvalidateRect(当然也包括 Invalidate)。Red_redrawwindow与invalidaterect

随便推点

MyEclipse2017支持struts2_myeclipse2017 struts2报错-程序员宅基地

文章浏览阅读1.2k次,点赞3次,收藏2次。背景:最近学习struts框架,struts1 MyEclipse是支持的,但是struts2在网上好多人都说不支持,但是自己却看到有支持struts2的功能,所以就没有下jar包直接用的MyEclipse里面的。工具:MyEclipse2017过程:1.新建一个web项目2.在项目右键选择如图所示3.导入啦struts后会自动生成两个xml文件和一个jar包,web.xml和s..._myeclipse2017 struts2报错

《Linux多线程muduo》读书笔记2——如何从零开始写一个日志_linux 多线程写日志-程序员宅基地

文章浏览阅读259次。从零开始写一个日志工具本文主要将muduo中的日志库剥离下来,挑选出关键的东西,给大家在写自己的日志工具时候提供一些思路。文章目录从零开始写一个日志工具1. 版本11.1 思路1.2 源代码2. 版本22.1 设置日志工具的全局级别1. 版本11.1 思路在构造函数中根据日志级别完成format重载operator <<,将一句话中的多条日志信息append到buffer..._linux 多线程写日志

Fedora22 下移植opencv-2.4.10_依赖关系解决。 无需任何处理。 完毕!-程序员宅基地

文章浏览阅读1k次。在Fedora22下移植opencv-2.4.10首先到官网或其他地方获取opencv-2.4.10。在opencv-2.4.10里面已经包含了cmake了,等会直接用就可以。在Fedora22下安装编译环境,因为这些操作我已经做完,所以下面都显示跳过。一、安装编译环境:[root@localhost cpp]# dnf install gcc gcc-c++ ncurse_依赖关系解决。 无需任何处理。 完毕!

国科大人工智能学院《计算机视觉》课 —三维视觉—三维表达与语义建模_ai 语义 三维建模-程序员宅基地

文章浏览阅读705次,点赞4次,收藏8次。一、三维建模的方式:SFM+MVS、X(明暗、光度立体、纹理、焦点)二、点云网格建模1. 小场景的点云网格化算法2. 大场景的点云网格化算法:分布式点云网格化三、三维语义建模1. 三维语义分割:基于几何特征2. 三维语义分割:基于模板匹配3. 三维语义分割:端到端分割4. 二维图像分割的三维融合5. 语义和几何的联合优化四、三维矢量建模..._ai 语义 三维建模

GDAL影像重采样_c++使用gdal读取,对影像下采样-程序员宅基地

文章浏览阅读5.9k次,点赞4次,收藏21次。学习过程中,用到重采样,感觉不错,转载过来供大家学习,原文地址:http://blog.csdn.net/giselite/article/details/7792620 #include "gdal_priv.h" #include "ogrsf_frmts.h" #include "gdalwarper.h" /*** _c++使用gdal读取,对影像下采样

LeetCode刷题复盘笔记—一文搞懂0 - 1背包之494. 目标和问题(动态规划系列第九篇)_0-1背包目标和-程序员宅基地

文章浏览阅读855次。LeetCode刷题复盘笔记—一文搞懂0 - 1背包之494. 目标和问题(动态规划系列第九篇)运算结果等于 target 的不同 表达式 的数目。示例 1:输入:nums = [1,1,1_0-1背包目标和