[发明专利]一种流式在线日志解析方法有效
申请号: | 201810805285.4 | 申请日: | 2018-07-20 |
公开(公告)号: | CN109189840B | 公开(公告)日: | 2021-01-19 |
发明(设计)人: | 王晨旭;赵志远;饶巍;陶敬;马小博;秦涛 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/18 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 安彦彦 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 日志 解析 方法 | ||
本发明公开了一种流式在线日志解析方法,该方法利用分区的思想将日志按照其长度进行分区,即同一长度的日志被分配到同一个分区中;日志分区后,快速匹配阶段通过求取日志与日志类型的交集是否满足一个阈值,来判断日志是否属于当前的日志类型;快速匹配到日志所属的日志类型后,日志类型提取阶段通过求取日志与日志类型的最长公共子序列来提取出日志类型与日志的参数。本发明可有效解析系统日志,将日志由非结构化的文本解析为结构化的日志类型,结果可用于日志的异常检测,方法简单有效。
技术领域
本发明属于系统日志安全监测领域,涉及一种流式在线日志解析方法。
背景技术
系统日志由非结构化文本到结构化日志类型的解析,在系统日志安全监测、网络异常检测等领域具有重要的应用,根据日志解析的结果,可以明确了解系统中程序的运行顺序,进一步可以用于系统中程序工作流的构建与异常的检测;经典的日志解析方法可以较有效地解析日志,目前已有的方法可分为两类:离线方法与在线方法:离线即首先需要收集一段时间内产生的日志,一次性对这些日志进行解析,如果有新产生的日志需要解析,那么就需要重新训练;在线方法可不需要一次性载入所有需要解析的日志,而是一条一条地对日志以流式的方式进行处理。
Tang方法(参考Tang的方法:L.Tang,T.Li,and C.-S.Perng,“Logsig:Generatingsystem events from raw textual logs,”in Proceedings of the 20th ACMinternational conference on Information and knowledge management.ACM,2011,pp.785-794.)提出了一种离线解析日志的方法,该方法首先利用聚集技术根据日志的距离分为不同的组,然后日志类型从这些不同的组中产生。此方法需要日志类型的个数作为输入来进行日志解析,然而使用者大多很难知道日志文件中含有的日志类型的个数。Makanju方法(参考Makanju的方法:A.A.Makanju,A.N.Zincir-Heywood,and E.E.Milios,“Clustering event logs using iterative partitioning,”in Proceedings of the15th ACM SIGKDD international conference on Knowledge discovery and datamining.ACM,2009,pp.1255-1264.)也提出了一种离线日志解析方法,该方法首先会计算日志中每一个位置出现的词的频率,然后日志类型中的词语候选词将从最频繁出现的词中选出。以上两种都是离线的日志解析方法,它们都需要将所有的日志一次性载入内存,随着系统日志规模的不断增长,它们会受到单台计算机内存的限制。
Du方法(参考Du的方法:M.Du and F.Li,“Spell:Streaming parsing of systemevent logs,”in Data Mining(ICDM),2016IEEE 16th International Conferenceon.IEEE,2016,pp.859-864.)提出了一种流式的日志解析方法,该方法利用最长公共子序列来求取日志类型。然而在此方法中,每次处理一条日志时,需要将此日志与所有现有的日志类型进行一一求取最长公共子序列(时间复杂度为O(n2)),随着解析工作的进行,日志类型会不断增加,所以该算法十分耗时。He方法(参考He的方法:P.He,J.Zhu,Z.Zheng,andM.R.Lyu,“Drain:An online log parsing approach with fixed depth tree,”in WebServices(ICWS),2017IEEE International Conference on.IEEE,2017,pp.33-40.)提出了一种基于固定深度树的在线日志解析方法,该方法通过日志的首个词的不同将其分配至不同节点,然后每次有新的日志,直接进行匹配。然而此方法在准确率上还需要有很大提升,而且树的深度作为一个参数往往使用者很难确定如何设置。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810805285.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于大数据平台的多层业务模型
- 下一篇:一种多数据源访问方法及系统