C++正则表达式

在实际应用中,有效得利用正则表达式可以极大地提高工作效率。借着LeetCode每日一题,今天学习一下C++语言中的正则表达式。

学习自:

  1. C++正则表达式
  2. LeetCode复数乘法

C++正则表达式

一 简介

​ C++ 中的regex 库提供了用于表示正则表达式和匹配结果的基本类型,以及搜寻、匹配、替换等函数。使用正则表达式处理字符串的流程包括:

  1. 用正则表达式定义要匹配的字符串的规则
  2. 然后对目标字符串进行匹配
  3. 最后对匹配到的结果进行操作。

二 基本类型

2.1 basic_regex 及其实例化类型 regexwregex

模板类型 basic_regex 用于表示正则表达式对象,<regex> 库提供了它的两种实例化类型:

1
2
Copytypedef basic_regex<char>     regex;
typedef basic_regex<wchar_t> wregex;

构造函数一般接受一个字符串作为参数,如

1
Copystd::regex reg ("[0-9A-Z]+");

构造函数中还有一个默认参数flags,默认值为 std::regex::ECMAScript,该参数可以用来设置正则表达式所采用的语法,如 std::regex::grep, std::regex::awk 等,也可以设置 case insensitive。flags 的多个值用比特位 OR 操作|连接,如

1
Copystd::regex ninth ("\\bd\\w+", ECMAScript | icase );

但是正则语法的flag只能设置一种。

具体的构造函数声明及fags值的定义参考basic_regex::basic_regex - C++ Reference

2.2 match_resultssub_match 及其实例化类型

match_results 是一种 container-like 的模板类,用于存放对目标串执行完 regex matching 操作后匹配到的结果,其中的每个元素(即每个匹配结果)是一个 sub_match 的实例化对象。

match_results 的实例类型有下列四种:

1
2
3
4
Copytypedef match_results<const char*> cmatch;
typedef match_results<const wchar_t*> wcmatch;
typedef match_results<string::const_iterator> smatch;
typedef match_results<wstring::const_iterator> wsmatch;

match_results 相似,sub_match 的实例化类型也有四种:

1
2
3
4
Copytypedef sub_match<const char*> csub_match;
typedef sub_match<const wchar_t*> wcsub_match;
typedef sub_match<string::const_iterator> ssub_match;
typedef sub_match<wstring::const_iterator> wssub_match;

sub_match 对象存储的不是匹配到的字符串本身,而是指向这个串开始(initial)和结束后一个字符(past-the-end)的 bidirectional iterators,但是它们表现起来类似于一个字符串:

  • 成员函数 length 返回字符串长度;
  • compare 用于和一个字符串或另一个 sub_match 对象比较,相等则返回0,不等则:若它比参数小(字典序)返回一个负值,否则返回一个正值;
  • str 返回对应的字符串。

根据一次匹配的结果,match_results 可能为空也可能不空,使用 match_results::empty() 来判空,使用 match_results::size() 来获取元素个数。对于一个不空的 match_results 对象,其第一个 sub_match 元素([0])对应着整个完整匹配,后续的元素对应着正则表达式中的 sub-match(即用()括起来的各个分组匹配),未匹配的部分可以通过 prefixsuffix 来获取。下面是一个简单的例子,参考自 boost的文档

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
Copy#include <regex>
#include <iostream>
#include <string>

int main() {
std::string target = "@abc def--";
std::regex e("(\\w+)\\W+(\\w+)");
std::smatch sm;
std::regex_search(target, sm, e);

std::cout << "sm.prefix: " << sm.prefix() << std::endl;
for (int i = 0; i < sm.size(); ++i) {
std::cout << "sm[" << i << "]: " << sm[i] << std::endl;
}
std::cout << "sm.suffix: " << sm.suffix() << std::endl;

return 0;
}
CopyOutput:
======================================
sm.prefix: @
sm[0]: abc def
sm[1]: abc
sm[2]: def
sm.suffix: --

三 正则操作

3.1 regex_match

用于将目标串和正则表达式匹配,返回一个 bool 值,true 为匹配,false 为不匹配。匹配的含义是目标字符串必须完全和正则表达式相匹配,不能有多余的字符,如果需要部分匹配则应使用regex_search。函数签名有很多,详见cplusplus.com

构造函数分成两种:

  • 一种接受一个 match_results 作为对象,参数顺序为:
    - 待匹配的字符串,
    - match_results 对象,
    - 正则表达式对象;
  • 另一种没有 match_results,参数顺序为:
    - 待匹配的字符串,
    - 正则表达式对象。
    此外,构造函数还接受一个可选的 flags 参数,用于控制匹配选项,详见上述链接。

只要目标字串中有一个字串(无论该子串在字符串中什么位置)能和正则表达式相匹配就返回true。函数签名同regex_match相似。

3.3 regex_replace

该函数有多个重载版本,常用的版本中参数顺序基本上为 srgxfmtflags,其中:

  • s 为要处理的字符串,
  • rgx 为要匹配的正则表达式,
  • fmt 为要替换的字符串,其中可以包含格式化字符,
  • flags为可选的参数,用于设置一些选项。

参数 fmt 中可以包含下列格式化字符:

characters replacement
$n 表示第n组匹配,n大于0
$& 表示整个匹配
$` prefix
suffix
$$ 表示$这个字符本身

在替换时,会先将参数 fmt 中的格式化字符替换成相应的内容,然后再将这个字符串替换掉目标字符串中的完整匹配(相当于 $&match_results[0])。


LeetCode例题 : 复数乘法

题目:复数 可以用字符串表示,遵循 “实部+虚部i” 的形式,并满足下述条件:

  • 实部是一个整数,取值范围是 [-100, 100]
  • 虚部也是一个整数,取值范围是 [-100, 100]
  • $i^2 == -1$

给你两个字符串表示的复数 num1 和 num2 ,请你遵循复数表示形式,返回表示它们乘积的字符串。

示例 1:

1
2
3
输入:num1 = "1+1i", num2 = "1+1i"
输出:"0+2i"
解释:(1 + i) * (1 + i) = 1 + i2 + 2 * i = 2i ,你需要将它转换为 0+2i 的形式。

示例 2:

1
2
3
输入:num1 = "1+-1i", num2 = "1+-1i"
输出:"0+-2i"
解释:(1 - i) * (1 - i) = 1 + i2 - 2 * i = -2i ,你需要将它转换为 0+-2i 的形式。

自己写的不用正则表达式的笨办法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
#include <string>
class Solution {
public:
string complexNumberMultiply(string num1, string num2) {
int a1 = 0, b1 = 0, a2 = 0,b2 = 0;
string temp_num_str = "";
bool aflag = false;
int temp_num = 0;
int temp_flag = 1;
for(int i=0;i<num1.size();i++){
if(num1[i]=='-'){
temp_num_str = "";
temp_flag = -1;
}
else if(num1[i]=='i'){
temp_num = stoi(temp_num_str);
temp_num_str = "";
b1 = temp_flag * temp_num;
temp_flag = 1;
}
else if(num1[i]=='+'){
temp_num = stoi(temp_num_str);
temp_num_str = "";
a1 = temp_flag * temp_num;
temp_flag = 1;
}
else{
temp_num_str+=num1[i];
}
}
temp_num_str = "";
aflag = false;
temp_num = 0;
temp_flag = 1;
for(int i=0;i<num2.size();i++){
if(num2[i]=='-'){
temp_num_str = "";
temp_flag = -1;
}
else if(num2[i]=='i'){
cout<<temp_num_str<<endl;
temp_num = stoi(temp_num_str);
temp_num_str = "";
b2 = temp_flag*temp_num;
temp_flag = 1;
}
else if(num2[i]=='+'){
cout<<temp_num_str<<endl;
temp_num = stoi(temp_num_str);
temp_num_str = "";
a2 = temp_flag*temp_num;
temp_flag = 1;
}
else{
temp_num_str+=num2[i];
}
}

string ret = to_string(a1*a2-b1*b2) + "+" + to_string(b1*a2+a1*b2) + 'i';
return ret;
}
};

这样的代码,真可谓是又臭又长;接下来看一下LeetCode官方给出的解法

1
2
3
4
5
6
7
8
9
10
11
12
13
class Solution {
public:
string complexNumberMultiply(string num1, string num2) {
regex re("\\+|i");
vector<string> complex1(sregex_token_iterator(num1.begin(), num1.end(), re, -1), std::sregex_token_iterator());
vector<string> complex2(sregex_token_iterator(num2.begin(), num2.end(), re, -1), std::sregex_token_iterator());
int real1 = stoi(complex1[0]);
int imag1 = stoi(complex1[1]);
int real2 = stoi(complex2[0]);
int imag2 = stoi(complex2[1]);
return to_string(real1 * real2 - imag1 * imag2) + "+" + to_string(real1 * imag2 + imag1 * real2) + "i";
}
};

官方题解使用了正则表达式,代码简洁高效。

取巧解法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
class Solution {
public:
string complexNumberMultiply(string a, string b) {

int a1, b1, a2, b2;
sscanf(a.c_str(), "%d+%di", &a1, &b1);
sscanf(b.c_str(), "%d+%di", &a2, &b2);

int aa = a1 * a2 - b1 * b2;
int bb = a1 * b2 + a2 * b1;

return string(to_string(aa) + "+" + to_string(bb) + "i");
}
};
打赏
  • 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!
  • © 2019-2022 guoben
  • PV: UV:

微信