网络信息空间的大数据计算 作者:胡春明、马帅、怀进鹏 ,中国计算机学会通讯
大数据有什么特征?怎么产生的?这些特征带来了哪些影响?大数据时代的研究方法是不是要变化一下?有了大数据,我们需要用它来做计算,那么大数据计算在不同的层次(数据-算法-系统)又会遇到什么样的挑战?
通常认为大数据具有“4V”特征:
Volume
:规模庞大Variety
:种类繁多Velocity
:变化频繁Value
:价值巨大但价值密度低。这些特征有什么影响吗?
这些特征对发现事实、揭示规律并预测未来提出了新的挑战,并将对已有计算模式、理论和方法产生深远的影响。
首先,网络信息空间大数据数量庞大,数据的统计特征分布不均匀。(采样精度问题)
其次,大数据种类繁多,变化频繁。(分类问题)
最后,大数据研究不同于传统的逻辑推理研究,是对巨大的数据做统计分析和归纳。(推理与统计归纳问题)
文章作者自己又总结了大数据计算的特征。
大数据计算具有“近似处理、增量计算、多源归纳”的计算属性,并可进一步归纳为大数据计算的“3I”特征
近似性(Inexact)
增量性(Incremental)
归纳性(Inductive)
三个特性分别在数据层面、算法层面和系统层面给大数据计算带来了“可表示”“可计算”和“可操作”三大问题。
传统计算复杂性理论认为的易解问题在大数据时代下已成为难解问题。
由于数据本身的异构和噪声,很难按照传统精确处理的思路来进行大数据的挖掘。
此外,许多应用需求旨在寻找数据间的潜在关联关系和宏观趋势特征,允许解的质量在一定区间内近似。
因此,从数据层面,需要综合考虑数据的语义特征、结构特征与质量特征,理解并量化度量数据的价值分布;
从算法理论层面,需要建立大数据下的算法复杂性理论及近似算法理论,识别数据量对算法质量的关联关系;
从系统层面,需要设计满足用户需求的非精确计算架构,达到用户需求与计算效能的均衡
网络信息空间大数据动态持续产生,不断更新,很难形成大数据的统一视图。
此外,许多大数据处理对实时性要求越来越高,全量式的批处理和迭代处理方式在时间上难以满足需求,增量式处理成为一种解决办法。
例子:
因此,从数据层面,需要量化度量数据的动态复杂性;
从算法理论层面,需要考虑数据动态性及其对解的质量的影响,并设计增量式处理算法;
从系统层面,需要设计支持增量计算的存储和处理架构及相关机制。
大数据的多源异构特征对网络信息空间数据挖掘提出新挑战并带来机遇。
寻找同一实体在多源数据之间的潜在关联性,有助于进一步规避数据中的噪声干扰,并通过多源数据处理的智能归纳融合,修正非精确数据处理引入的偏差,同时获得比单一数据源更好的处理效果。
大数据下单一源头数据计算的结果可能不准确,可以依靠别的数据源的结果来进行修正
例子:
因此,从数据层面,一方面要研究多源异构数据的表示、度量与语义理解方法,努力减少多源异构数据带来的难题,另一方面需要关注多源数据间的潜在关联性和融合方法;
从算法层面,需要寻找新的多源数据处理和智能归纳融合算法,并提高算法精度及效率;
从系统层面,需要研究多源数据间可迁移学习的数据挖掘新方法,探索融合机器挖掘和人群分析的多种数据处理机制。
网络信息空间的大数据计算 作者:胡春明、马帅、怀进鹏
Update your browser to view this website correctly. Update my browser now