SisMaker
/
eAcs

eAcs=====
    基于ac算法实现的快速高效的敏感词匹配,检查,过滤功能, 另外特殊字符不参与敏感词匹配,检查和替换, 替换是会按照原位置保留
Build-----
    $ rebar3 escriptize   ->   genAcs    $ rebar3 compile
Notice-----
    编译acsTree.erl 时不要加debug_info 选项 减少编译后的大小和加载后内存占用
Uses-----
    敏感词预处理 去除特殊字符和去掉重复的敏感词 （SWordFile 和 OutputDirFile) 可以同名         脚本生成：./genAcs -f/-F SWordFile OutputDirFile        函数调用： genAcs:main(["-f"/"-F", SWordFile, OutputDirFile])    创建 acsTree.erl        脚本生成：./genAcs SWordFile OutputDir        函数调用： genAcs:main([SWordFile, OutputDir])    匹配 检查 过滤 敏感词        eAcs:matchSw/1               %% 返回匹配的敏感词列表        eAcs:isHasSw/1               %% 检查是否包含敏感词        eAcs:replaceSw/1             %% 替换敏感词        eAcs:isHasRpSw/1             %% 检测并替换敏感词
性能-----     实际测试中        基于在一个2万敏感词构造的ac状态树中测试 匹配耗时为 50-100ns 一个字 算下来1秒可以匹配上千万的文本    测试示例(测试前先注释掉测试代码打印的参数和eAcs matchSw匹配输出的列表构造):         下载了一个比较火的动漫小说 吞噬星空.txt          查看该小说有多少字        {ok, DataStr} = file:read_file("吞噬星空.txt"),        eAcs:strSize(DataStr, 0).           -> 5729268        测试匹配        acTest:test4(100, "./src/test/吞噬星空.txt").        =====================        execute Fun :matchSw        execute Mod :eAcs        execute LoopTime:100        MaxTime:  450278766(ns)   0.450279(s)        MinTime:  428782619(ns)   0.428783(s)        SumTime: 4345761036(ns)   43.45761(s)        AvgTime: 434576103.(ns)   0.434576(s)        Grar   :         43(cn)       0.43(%)        Less   :         57(cn)       0.57(%)        =====================        ok                It's really fast!!!
算法说明-----[算法说明](https://www.cnblogs.com/cmmdc/articles/7337611.html)