《大规模时间序列分析框架的研究与实现》PDF+DOC
作者:滕飞,黄齐川,李天瑞,王晨,田春华
单位:中国科学院计算技术研究所;中国计算机学会
出版:《计算机学报》2020年第07期
页数:14页 (PDF与DOC格式可能不同)
PDF编号:PDFJSJX2020070060
DOC编号:DOCJSJX2020070069
下载格式:PDF + Word/doc 文字可复制、可编辑
工业互联时代,每天数以亿计的传感器源源不断生成时间序列,用以记录工业设备的温度、振动、压力、曲度和张力等参数.如何从这些非结构化的时间序列中挖掘出有价值信息,并运用于状态监测、故障诊断和控制决策,引起了广泛的关注和研究.随着数据规模日益增长,能够提供较为完备数据分析算法库的主流单机环境如Matlab、R等已无法较好地应对大规模时间序列分析场景下的数据处理需求.而现有的并行分析算法数量有限,常与平台相互绑定,更换平台需对算法进行二次开发,可扩展性较差.本文旨在设计一种通用的近似解分析框架,支持第三方算法快速实现并行化,解决因数据规模过大而导致的算法适用性问题.分析框架主要包含任务划分、治理和合并三个步骤.任务划分通过冗余保留了数据的局部相关性,生成相互独立的子任务,减少分布式节点之间的数据通信和同步开销.对于任务划分问题,本文提出了近似解代价模型,得到了最优的任务划分方案.基于Spark平台设计并实现了原型系统,实验结果表明,该系统在确保分析结果准确性的前提下,其加速能力随着并行程度保持近似线性的增长,解决了单机算法的数据规模受限问题.同时,该系统易于集成与.....。
提示:百度云已更名为百度网盘(百度盘),天翼云盘、微盘下载地址……暂未提供。