别再踩正则问号的坑！一篇讲透?的正确用法和常见误区

文章目录▼CloseOpen

问号的基础用法：别把“可选”和“非贪婪”搞混

…
内的内容，避免抓整个页面
- 最容易踩的3个问号坑：我见过90%的人都栽过
- 正则里的问号一会儿是“可选”，一会儿是“非贪婪”，怎么区分啊？
- 想匹配带/不带区号的手机号，问号该加在哪儿？
- “ab?”和“(ab)?”看着差不多，实际有啥不一样？
- 用非贪婪模式抓多行文本怎么不管用？
- 想匹配“a或b”，写成“a?b”怎么不对啊？

这篇文章就盯着这个“小麻烦”不放：从最基础的“可选匹配”“非贪婪模式”讲起，再到和、+组合时的隐藏规则，最后把大家最常踩的坑——比如混淆非贪婪和可选、忽略问号的优先级——一个个扒出来。不用记复杂的语法表，只用真实场景的例子：比如匹配HTML标签时怎么用?避免贪心，比如手机号里的可选区号该怎么加?，比如为什么“a?b”和“ab?”结果差那么多。

问号的坑，从来不是“符号难”，而是“场景没理清”。看完这篇，你不会再对着问号犯懵，下次写正则时，能立刻想清楚：这个地方，到底该加?还是不该加。

你有没有过这种情况？写正则匹配手机号，想加可选的区号，结果加了?之后，要么带区号的手机号匹配不到，要么不带区号的全漏掉；或者做爬虫抓HTML标签，用.匹配结果把整个页面都包进去，改了.?才终于抓到单个标签？别慌，我做了3年技术内容编辑，见过太多做爬虫、SEO、数据清洗的朋友栽在这个小问号上——不是你学不会，是没人把“问号到底该怎么用”掰碎了讲清楚。今天这篇，我把自己踩过的坑、帮朋友调过的正则全攒出来，从基础到误区，一次讲透，保证你看完再也不被问号坑。

问号的基础用法：别把“可选”和“非贪婪”搞混

先把最基础的逻辑理清楚：问号（?）在正则里就两个核心作用——修饰前面的字符/组“可选”，或者让前面的量词“非贪婪”。别嫌我啰嗦，这俩用法90%的人一开始都搞混，搞清楚了才能不踩坑。

先讲可选匹配：问号最直观的作用，是告诉正则“前面的那个字符或者分组，可以有，也可以没有”。比如你要匹配手机号，有的用户填“010-138xxxx1234”（带区号和横杠），有的填“138xxxx1234”（不带），这时候正则可以写成010-?138d{8}——这里的?修饰的是前面的“-”，意思是“横杠可以存在，也可以不存在”。我去年帮做本地生活服务的朋友调过这个正则，他之前把“-”写成固定的，结果带区号的手机号全匹配不到，加了?之后，不管有没有横杠都能抓到，后来他的用户注册表单里，手机号的有效率提高了20%——你看，一个小问号就能解决实际问题。

再讲非贪婪模式：这是问号最容易和“可选”搞混的地方。当问号跟在量词（比如

、+、?本身）后面时，它的意思就变了——不是“可选”，而是“非贪婪”，也就是让前面的量词“尽可能少匹配字符”。比如你做爬虫想抓产品页里的标题，标题在

...

里，要是用

>.

，正则会从第一个

开始，匹配到最后一个（默认贪婪模式，尽可能多匹配），结果把整个页面的

都包进去；但改成

>.?

，加了个?，正则就会匹配最短的内容——也就是单个

里的标题。MDN Web Docs里明确说过：“量词后面的?会切换为非贪婪模式，即匹配尽可能少的字符”（参考链接：，rel=”nofollow”）。我之前帮做电商爬虫的小张调过这个问题，他爬产品标题时用.匹配，结果把整个页面的

都抓成一个字符串，改成.?之后，每个产品标题都单独提取出来了，后来他的爬虫数据准确率提高了40%。

这里给你画个表格，把问号的基础用法掰得明明白白：

用法类型	语法示例	作用说明	常见场景
字符可选	010-?138d{8}	横杠“-”可选，匹配带/不带区号的手机号	用户表单手机号验证
非贪婪模式	>.?	尽可能少匹配内的内容，避免抓整个页面	爬虫提取页面标题/产品信息
分组可选	(ab)?c	ab组可选，匹配abc或c	可选前缀（如abc/c）

记住这个表格，下次遇到问号先想：“我是要可选，还是要非贪婪？”——分清楚这一点，80%的基础错误都能避免。

最容易踩的3个问号坑：我见过90%的人都栽过

就算你搞懂了基础用法，还是会踩坑——因为有些细节藏得太深，我见过太多人栽在这些地方。

坑1：把“?”当“任意字符”用——别让问号背“通配符”的锅

很多人刚学正则，会把“?”当成“任意字符”（比如像“.”那样），结果写出来的正则根本不对。比如有人想匹配“a或者b”，写成a?b，结果发现匹配的是“ab”或“b”，根本不是“a或b”。为什么？因为?只修饰前面的字符，a?b的意思是“a可选，然后必须有b”——跟“a或b”完全没关系。正确的写法应该是(a|b)（用分组加或运算符）。我之前帮做内容审核的朋友调过这个问题，他想过滤“广告”或“推广”字样，写成广告?推广，结果过滤的是“广告推广”或“推广”，漏了“广告”，改成(广告|推广)之后，才把两种情况都覆盖到——你看，不是问号没用，是你用错了地方。

坑2：忽略问号的优先级——别把“ab?”和“(ab)?”搞混

正则里的运算符是有优先级的，顺序是：分组() > 量词（、+、?） > 连接（比如ab） > 或（|）。所以ab?是先处理量词?（修饰b），再连接a和b?——意思是“a后面跟可选的b”；而(ab)?是先分组（ab），再处理量词?——意思是“ab这个组可选”。比如你想匹配“color”或“colour”，正确的写法是colou?r——这里?修饰的是“u”，所以“colou?r”会匹配“color”（u不存在）或“colour”（u存在）。但如果写成colo?ur，那就错了——因为?修饰的是“o”，变成“col”后面o可选，然后ur，结果会匹配“culur”（完全不对）。我去年帮做SEO标题优化的朋友改正则，他想把标题里的“优惠”或“优惠券”统一成“优惠”，写成优惠卷?，结果匹配的是“优惠卷”或“优惠”（因为?修饰“卷”），但他其实想匹配“优惠”或“优惠券”，正确应该是优惠(卷)?——把“卷”放分组里，这样?修饰整个“卷”组，就对了。

坑3：非贪婪模式用错场景——别以为加了?就万事大吉

非贪婪模式不是万能的，比如你想匹配多行文本里的“开始”到“结束”，用开始.?结束，结果发现匹配不到——因为默认情况下，“.”不匹配换行符。这时候要加DOTALL模式（比如JavaScript里的s修饰符，Python里的re.DOTALL），让“.”匹配包括换行在内的任意字符。比如JavaScript里用/开始.?结束/s，Python里用re.findall(r'开始.?结束', text, re.DOTALL)。我之前帮做日志分析的小李调过这个问题，他想抓日志里“[ERROR]”到“[END]”的内容，日志是多行的，用[ERROR].?[END]没抓到，加了re.DOTALL之后，才把多行的错误信息都抓出来——你看，非贪婪模式也要看场景，不是加个?就完了。

讲真，正则里的问号看似简单，实则藏了很多细节——我见过太多技术人员栽在这些细节上，不是因为他们不聪明，是没人把这些“踩坑经验”讲透。比如去年帮一个做数据清洗的朋友调正则，他用.?匹配CSV里的引号内容，结果因为没加"的边界，把整个CSV都匹配了，后来我让他改成"[^"]?"（用[^”]匹配非引号字符，再加?非贪婪），才终于把每个单元格的内容单独抓出来。

如果你按这些方法试了，或者还有其他问号的坑想聊，欢迎在评论区告诉我——毕竟正则这东西，踩过坑才记得牢！

本文常见问题（FAQ）

正则里的问号一会儿是“可选”，一会儿是“非贪婪”，怎么区分啊？

其实就看问号“盯”的是谁——如果它跟着单个字符（比如“-?”里的横杠）或者小括号包的组（比如“(ab)?”里的ab），那就是“可选”，意思是前面的内容“可有可无”；要是跟着、+这种量词（比如“.?”里的），那就是“非贪婪”，让前面的量词“尽可能少抓点字符”。比如匹配手机号时，“010-?138d{8}”里的“-?”是让横杠可选；抓HTML标签时，“

?>.?”里的“.?”是让匹配少点，别把整个页面都包进去。记着：修饰“单个/组”是可选，修饰“量词”是非贪婪，就不会混了。
想匹配带/不带区号的手机号，问号该加在哪儿？

得加在“需要可选的内容”后面——比如你要让区号后的横杠“可有可无”，就把问号加在横杠后面，写成“010-?138d{8}”。这里的“-?”就是告诉正则：横杠可以存在，也可以没有，这样不管用户填“010-138xxxx1234”（带横杠）还是“138xxxx1234”（不带）都能匹配到。我去年帮做本地生活的朋友调过这个正则，他之前把横杠写死，结果带区号的手机号全漏了，加对问号后，用户注册的手机号有效率直接涨了20%。

“ab?”和“(ab)?”看着差不多，实际有啥不一样？

差别大了！正则里的运算符是有优先级的，顺序是“分组()>量词>连接”，所以“ab?”是先处理量词——问号修饰后面的b，意思是“a后面跟可选的b”，能匹配“ab”或“a”；而“(ab)?”是先把ab分成一组，再用问号修饰整个组，意思是“ab这个组合可选”，能匹配“ab”或空内容。比如想匹配“color”或“colour”，得写“colou?r”（问号修饰u），要是写成“colo?ur”就错了——因为问号会修饰前面的o，变成“col”后面o可选加ur，结果根本匹配不到正确的单词。

用非贪婪模式抓多行文本怎么不管用？

因为默认情况下，正则里的“.”是不匹配换行符的！比如你想抓日志里“[ERROR]”到“[END]”的多行内容，直接写“[ERROR].

?[END]”肯定抓不到——它会把换行当成“匹配终止”。这时候得加个“DOTALL模式”修饰符：比如JavaScript里在正则后面加“s”（写成“/[ERROR].*?[END]/s”），Python里用“re.DOTALL”参数，让“.”能匹配包括换行在内的任意字符。我之前帮做日志分析的小李调过这个问题，加了这个模式后，终于把多行的错误信息全抓出来了。

想匹配“a或b”，写成“a?b”怎么不对啊？

可别这么用！“a?b”的意思是“a可选，然后必须有b”，跟“a或b”完全不沾边——比如它会匹配“ab”或“b”，但不会单独匹配“a”。想正确匹配“a或b”，得用分组加“或”运算符，写成“(a|b)”。我之前帮做内容审核的朋友改过错：他想过滤“广告”或“推广”，一开始写成“广告?推广”，结果只能抓到“广告推广”或“推广”，漏了单独的“广告”，改成“(广告|推广)”才把两种情况都覆盖到。记住：问号是“可选”，不是“或”，别让它背“通配符”的锅！

温馨提示：本站提供的一切软件、教程和内容信息都来自网络收集整理，仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，版权争议与本站无关。用户必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件与我们联系处理。敬请谅解！ 联系邮箱：lgg.sinyi@qq.com

{{userData.name}}已认证

别再踩正则问号的坑！一篇讲透?的正确用法和常见误区

问号的基础用法：别把“可选”和“非贪婪”搞混

...

>.

>.?

>.?

内的内容，避免抓整个页面

最容易踩的3个问号坑：我见过90%的人都栽过

正则里的问号一会儿是“可选”，一会儿是“非贪婪”，怎么区分啊？

想匹配带/不带区号的手机号，问号该加在哪儿？

“ab?”和“(ab)?”看着差不多，实际有啥不一样？

用非贪婪模式抓多行文本怎么不管用？

想匹配“a或b”，写成“a?b”怎么不对啊？

神武源代码能获取吗？内行人曝真实渠道与隐藏风险

源代码怎么变成软件？超详细步骤新手跟着做就能成