笔趣阁 > 其他类型 > 离语 > 第286章 快跑

第286章 快跑

    数据是指对客观事件进行记录并可以鉴别的符号Y

    是对客观事物的性质状态以及相互关系等进行记

    载的物理符号或这些物理符号的组合Y是可识别的

    抽象的符号

    ?数据和信息是两个不同的概念Y信息是较为宏观

    的概念Y它由数据的有序排列组合而成Y传达给读

    者某个概念方法等Y而数据则是构成信息的基本单

    位Y离散的数据没有任何实用价值。

    数据也被称为“未来的石油”

    涉及到国家安全等方面。

    计算机系统中的数据组织形式主要有两种Y即文件和

    数据库

    ?

    1?文件x计算机系统中的很多数据都是以文件形式

    存在的Y比如一个woRd文件一个文本文件一个

    网页文件一个图片文件等等

    ?

    2?数据库x计算机系统中另一种非常重要的数据组

    织形式就是数据库Y数据库已经成为计算机软件开发

    的基础和核心。

    过去x一旦数据的基本用途实现了Y往往就会被

    删除Y一方面是由于过去的存储技术落后Y人们

    需要删除旧数据来存储新数据Y另一方面则是人

    们没有认识到数据的潜在价值

    现在x数据的价值不会因为不断被使用而削减Y

    反而会因为不断重组而产生更大的价值

    将来x各类收集来的数据都应当被尽可能长时间

    地保存下来Y同时也应当在一定条件下与全社会

    分享Y并产生价值。

    人类进入信息社会以后Y数据以自然方式增长Y其产生不以人

    的意志为转移

    从1986年开始到2010年的20年时间里Y全球数据的数量增长

    了100倍Y今后的数据量增长速度将更快Y我们正生活在一个

    数据爆炸的时代。

    数据分析过程包括x数据采集与预处理数据存储与管理数据处理与

    分析数据可视化等

    ?

    1?数据采集与预处理x采用各种技术手段把外部各种数据源产生的数

    据实时或非实时地采集预处理并加以利用

    ?

    2?数据存储与管理x利用计算机硬件和软件技术对数据进行有效的存

    储和应用的过程Y其目的在于充分有效地发挥数据的作用

    ?

    3?数据处理与分析x数据分析是指用适当的分析方法?来自统计学

    机器学习和数据挖掘等领域?Y对收集来的数据进行分析Y提取有用信

    息和形成结论的过程

    ?

    4?数据可视化x将数据集中的数据以图形图像形式表示Y并利用数据

    分析和开发工具发现其中未知信息的处理过程。

    数据采集与预处理包含了数据采集和数据预处理两大任务

    数据采集是指从传感器和智能设备企业在线系统企业离线

    系统社交网络和互联网平台等获取数据的过程需要采集的

    数据包括RFId数据传感器数据用户行为数据社交网络交

    互数据及移动互联网数据等各种类型的结构化半结构化及非

    结构化的海量数据

    数据采集技术是大数据技术的重要组成部分Y已经广泛应用于

    国民经济各个领域Y随着大数据技术的发展和普及Y大数据采

    集技术会迎来更加广阔的发展前景。

    数据预处理目标是为后续的数据分析工作提供可靠和高质量的

    数据Y减少数据集规模Y提高数据抽象程度和数据分析效率

    数据预处理任务主要包括数据清洗数据集成数据转换和数

    据脱敏等经过这些步骤Y我们可以从大量的数据属性中提取

    出一部分对目标输出有重要影响的属性Y降低源数据的维数Y

    去除噪声Y为数据分析算法提供干净准确且有针对性的数据Y

    减少数据分析算法的数据处理量Y改进数据质量Y提高分析效

    率。

    数据采集Y又称 数据获取

    Y是数据分析的入口Y也是数据分

    析过程中相当重要的一个环节Y它通过各种技术手段把外部各

    种数据源产生的数据实时或非
新书推荐: 四合院:老丈人竟然跑路了 艾莉丝传奇故事 封神:开局收服妲己 我不是人,我是神,经质 携夫带崽流放后,霸气归来掌天下 诸神! 铠甲:开局路法救了我 这一世的你格外难追 拜托,都末世了,求你当个人 末日危机:机器人反噬人类