大数据的来源非常广泛,可以来自各种不同的数据源,包括但不限于以下几个方面:
互联网:随着互联网的发展,网站、移动应用、社交网络等的用户产生了大量数据。这些数据包括用户行为数据、搜索记录、购买记录、评论、社交关系等。
物联网:随着物联网技术的普及,各种设备、传感器、智能家居等产生的数据也呈爆发式增长。这些数据包括传感器数据、GPS定位数据、天气数据等。
企业应用系统:企业的管理信息系统、客户关系管理系统、供应链管理系统等都会产生大量数据。这些数据包括订单数据、库存数据、销售数据、客户数据等。
科研数据:科研机构、学术出版机构、医疗机构等会产生大量科学研究数据、学术论文数据、临床数据等。
网络上大部分数据都可以免费访问,与此类似的是一些门户网站。
从各种网站搜索和信息数据对比,我们发现大数据不仅仅与数据量有关。 它还包括种类繁多且速度很快的数据。 2001 年,有行业分析师阐明了大数据的 3V,即速度、数量和多样性。
如今,数据流的速度是前所未有的,因此很难及时处理。 智能计量、传感器和 RFID 标签使得有必要几乎实时地处理数据洪流。大多数组织发现很难对数据做出快速反应。
就在几年前,拥有太多数据只是一个存储问题。 然而,随着存储容量的增加和存储成本的降低,有的行业参与者现在正在关注相关数据如何创造价值。
与几年前相比,今天的数据种类更多。 数据大致分为结构化数据(关系数据)、半结构化数据(XML 表形式的数据)和非结构化数据(媒体日志和 PDF、Word 和文本文件形式的数据)。 许多公司不得不努力解决管理、管理和合并不同数据种类的问题。
准确性(数据的质量)、可变性(数据有时显示的不一致)和复杂性(处理来自不同来源的大量数据时)是数据的其他基本特征,也就是大数据的三个V特性。
总之,大数据来源的种类非常多样,可以来自各个行业和领域,而这些数据的应用也越来越广泛,覆盖了商业、医疗、科学研究、政府管理等各个方面。