正则表达式 在数据清洗、数据规整、批量处理等方面是非常有用的,本文就总结一下常用的正则表达式:

1. 正则表达式的主要规则

2. 正则表达式在SQL中的应用

示例代码:

select

    regexp_extract('测试1注册10天未登录', '\d+') as test1,  --提取数字
    
    regexp_extract('测试2注册10天未登录', '\d+天') as test2,  --提取以天结尾的数字
    
    regexp_replace('测试3', '\n') as test3,  --替换换行符
    
    regexp_replace('测试4', '\s') as test4,  --替换空格、换行符、制表符等空白符
    
    regexp_replace('测试5浦东新区a浦电路98号B', '[a-zA-Z]') as test5,  --去除字母
    
    regexp_extract('{"phone":"16612345678", "address": "xxx"}', '\d{11}') as test6  --提取手机号

代码结果:

以上是正则表达式在SQL中的简单应用,使用Presto SQL执行,正则函数结合正则表达式即可实现取数目的。基于正则表达式的规则,我们可以组合出很多模式,如果记不住规则,可在遇到实际问题时,再对着规则有的放矢地进行代码编写。



原创文章,欢迎转载,转载请注明出处并留下原文链接。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注