首页>>新闻资讯>>行业新闻

带你探索、学习大数据平台架构
   来源:    添加日期:2019-07-29    

       随着云时代额到来,大数据除了拥有特殊的价值还吸引了越来越多的关注。换而言之,除了目前的人工智能,5G,AI智能应用等等,如果把大数据作为一种产业开研究的话,它具有信息资产和增值的能力。我们先来看看大数据平台的构架。
大数据平台在工作中的应用有三种:
与业务相关,比如用户画像、风险控制等;
与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;
与工程相关,如何实施、如何实现、解决什么业务问题,这是数据工程师的工作。

郑州软件开发公司


       从整个大的生态圈可以看出,要完成数据工程需要大量的资源,数据量很大需要集群;要控制和协调这些资源需要监控和协调分派,面对大规模的数据怎样部署更方便更容易,还牵扯到日志、安全、还可能要和云端结合起来,这些都是大数据圈的边缘,同样都很重要。 数据源的特点决定数据采集与数据存储的技术选型,而数据源的特点将其分为四大类: 从来源来看分为内部数据和外部数据;从结构来看分为非结构化数据和结构化数据;从可变性来看分为不可变可添加数据和可修改删除数据;从规模来看分为大量数据和小量数据。而我们常常说的内部数据来自企业内部系统,可以采用主动写入技术(push),从而保证变更数据及时被采集;那么相对应的外部数据,企业要做大数据的话肯定不会只局限于企业内部的数据,比如银行做征信,就不能只看银行系统里的交易数据和用户信息,还要到互联网上去拉取外部数据。 (其中外部数据分为两类: 一类是要获取的外部数据本身提供API,可以调用API获取,比如微信;另一类是数据本身不提供API,需要通过爬虫爬取过来。这两类数据都不是我们可控制的,需要我们去获得,它的结构也可能跟我们企业内部数据的结构不一样,还需要进行转换,爬虫爬取的数据结构更乱,因此大数据平台里需要做ETL,由ETL进行数据提取、转换、加载,清洗、去重、去噪,这个过程比较麻烦。爬虫爬过来的数据往往是非结构性的、文档型的数据,还有视频、音频,这就更麻烦了。 ) 
        接下来看看大数据平台特征的展现方式:相同的业务数据会以多种不同的表现形式,存储在不同类型的数据库中,先把数据源进行分类,然后根据其特点判断用什么方式采集,采集之后要进行存储。数据存储的技术选型依据有三点: 第一点取决于数据源的类型和采集方式。比如非结构化的数据不可能拿一个关系数据库去存储。采集方式如果是流失处理,那么传过来放到Kafka是最好的方式;第二点取决于采集之后数据的格式和规模。比如数据格式是文档型的,能选的存储方式就是文档型数据库;第三点是分析数据的应用场景。根据数据的应用场景来判定存储技术选型。

河南软件开发公司


从不同的角度来看数据处理有不同的方式:
一类是从业务的角度,细分为查询检索、数据挖掘、统计分析、深度分析,其中深度分析分为机器学习和神经网络。
第二类是从技术的角度,细分为Batch、SQL、流式处理、machine learning、Deep learning。
第三类是编程模型,细分为离线编程模型、内存编程模型、实时编程模型。

睿格软件

服务热线

0371-56086616

13213119956(24小时)

微信客服

点击或微信扫一扫
马上联系

收起 >