如何洞察大数据的关联性
发布时间:2015-08-25 | 浏览量: 6405
标签: 互联网 IT
越来越多的人开始重视“数据技术(DT )”, 也就是从传统IT的以事务处理技术为核心,逐步转向专注于数据本身。“数字化”,“物联网”和“云计算”让一切皆可“量化”,所有的系统和设备每时每刻都在产生大量的、不同格式的、混杂的数据。利用好这些数据,可以让我们更全面的了解我们身处的世界。
利用大数据的关键在于缩短业务人员和数据之间的距离。我观察到国内越来越多的客户在计划实施大数据项目,他们其中大多数都有在“小”数据时代建设传统数据仓库(Data Warehouse)、数据挖掘(Data Mining)和商业智能(Business Intelligence)的经验,但由于缺少对大数据思维变革的理解,往往事倍功半。究其原因,主要是忽略了大数据所要处理的,不仅有传统结构化的高价值密度的业务数据,还包括规模巨大且结构多样化的低价值密度数据。因此,做大数据分析所采用的分析策略和技术手段,必然有所不同。打个比方,如果我们传统的结构化数据分析项目主要做的是1+1=2的因果关系分析,那么大数据其实更需要做的是A+B+C+D=?的关联度分析。换言之,传统的数据分析项目做的通常是可以预知的事情,提高的是业务管理效率,而大数据探索是要寻找潜在的业务规律,和可能带来的业务创新。
可视化探索+关联性分析=“全数据”洞察
在“小”数据时代,做好数据关联关系分析和因果分析已属不易。数据很难得到,收集整理过程也往往耗费巨大。从了解需求、建立假设、创建模型,再通过实验来验证假设。由于一切都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。
如果用这样的方法去做大数据项目,通过数据整合、治理、清洗、建模、挖掘分析和展现的过程,业务用户距离数据仍然是比较遥远的。而一旦人们依赖主观的经验对低价值大数据进行清洗,必然客观上会导致数据价值的无辜流失。所以,对于大数据项目来说,如果你能对大数据有基于全数据(而不是清洗后的数据)的可视化探索洞察,就能在理解数据关联基础上,更好地进行高效的数据价值发现。甲骨文作为数据管理与业务分析软件领域的市场领导者,为客户提供最全面、集成度最高的大数据解决方案,帮助各种规模的企业组织发现大数据的关联价值,帮助更好制定和调整业务战略、优化运营、抓住新的市场机遇。甲骨文的大数据信息探索工具Endeca和新一代的面向Hadoop技术的甲骨文大数据发现(Oracle Big Data Discovery, Oracle BDD)是强大的可视化大数据探索工具,是集发现、探索、转变、挖掘、展现和共享为一体的端到端大数据关联分析平台。
汽车行业大数据应用:实现高效售后服务
为了方便大家理解,我这里与大家分享两个生动的Oracle BDD的应用案例。我们有一个汽车集团的用户,这个企业的大数据系统非常复杂,汇集了包括零部件采购数据、产成品数据、库存数据、销售数据、售后维修维护数据、售后T&M开销数据、客服中心受理数据、客户网上投诉数据、多个汽车论坛的互联网舆情数据等等。
我们的客户通过Oracle BDD进行大数据探索,可以成功地了解到哪些问题和哪些部件的关联性高、哪些问题和维修量关联性高等有价值的信息。当客户的业务分析师进入BDD的应用界面,首先可以看到所有220个数据属性(维度)的面貌,包括生产了多少车、有多少车在库、有多少车在修、花费多少人工在修、各种产成是多少等等。在这些基本信息之外,也会看到各种从非结构化数据中提炼出的“云标签”属性,即客户哪些抱怨比较多、哪些车存在哪些问题,而且是通过不同大大小小的标签文字来直观地表达出来,那些大一些的标签代表发生概率比较高的数据对象。
其中有一个典型的场景,客户发现一些用户常常抱怨汽车冒烟的问题,于是就在BDD的搜索框中输入“冒烟”,BDD实时搜索关联出所有与冒烟有关的信息,包括冒黑烟冒白烟、哪些车冒烟、哪些用户投诉汽车冒烟、已有汽车维修记录中有多少是和冒烟有关的、冒烟车集中在哪个时间段、冒烟和哪些部件有关、导致冒烟的部件是哪些供应商的、维修冒烟车的成本是多少等等一系列关联的信息结果。通过这些数据,他们可以马上发现关联最多的是两家配件供应商(+本站微信networkworldweixin),在过去一个月左右的时间里,几个型号的零件,以及类似的客户抱怨数据。这就让业务人员迅速将客户的投诉和配件供应商以及相关零件批次关联起来。像BDD这种用户自助式的灵活的关联探索分析,用其它的大数据分析工具是很难做到的。
医疗大数据应用应用:用大数据破解疑难病症
我要和大家分享的另外一个Oracle BDD案例,是个医院大数据项目。这个医院的大数据系统涵盖了医院信息系统HIS和临床信息系统CIS两大系统,具体包括了门诊管理、收费与帐务管理、医嘱管理、门诊电子病历、临床记录与文档、医疗质量控制、病案管理等二十多个应用子系统,也是包括了结构化、半结构化与非结构化的200多个数据属性(维度)。我们可以在下面图片中看到当前消化道科的患者人数为3830人,这些患者住院人次为4160、平均住院天数7.97天、31天再住院人数80、再住院率1.92%。
OracleBDD案例——医院大数据系统截屏
医院各科室的业务用户可以根据访问权限,方便灵活地以自助的探索形式,通过搜索,关联、筛选、钻取等操作来发现自己所关心的数据结果,并实时地形成各种分析图表。譬如某个医生遇到了一个罕见 病例,患者可能得了克罗恩病,但这名医生却没有关联的医治经验,BDD可以怎么帮助他呢?医生只要在BDD的搜索框里输入克罗恩病,BDD就会搜索寻找出有关联的所有信息,包括医院曾经接诊过哪些克罗恩病患者、哪些医生诊治过克罗恩病患者、克罗恩病患者做了哪些化验、医生都开了什么药、是否有病情严重者住院或手术、这些患者中是否有回诊等等。从下图中你会发现医院过去曾经接知过31位克罗恩病患者,83%是男性,40岁以上的患者占了87%,100%住院治疗,平均14天,住院而且克罗恩病患者的再住院率是2.78%。
医院大数据系统病例探析分析界面截屏
这些关联的信息恰恰给了医生最好的参考,也辅助医生做出判断的预测。医生可以浏览所有患者的电子病例和用药情况做为参考和借鉴。可以说,Oracle BDD正在大大地提高了大数据在医院门诊医治、医疗质量控制、医疗科研、流行病防治、资源使用效率和医院的管理水平和效率。
Oracle BDD能够使大数据关联性分析化繁为简,同时还能加快数据价值的获取速度。BDD还支持地理位置服务和语言情感分析,让信息的关联进一步拓展到空间和情感。通过Oracle BDD可让包括分析团队和业务用户在内的更多人员轻松访问,实现大数据关联分析的普及化。
如果您正在实施的大数据项目还没有获得成效,或是正在计划实施一个大数据项目,相信您可以在大数据解决方案中找到一种便捷有效的方式,从庞杂的大数据系统中获取有价值的商业洞察。