大数据分析:方向、方法与工具

2017-09-12 来源:《情报理论与实践》 作者:曾忠禄

  作者简介:曾忠禄(1955- ),男,博士,澳门理工学院教授。

  内容提要:[目的/意义]大数据分析正成为学术界的热门课题。但现有的研究主要集中在大数据的意义和现象上,对大数据分析本身,包括分析的方向、分析方法等讨论甚少。本研究希望部分填补该空白,本研究对我国大数据分析的发展具有重要的参考价值。[方法/过程]从情报学的角度,通过总结国外的论文、研究报告和案例,结合笔者长期情报分析的经验,总结共识和提出建议。[结果/结论]大数据分析首先需要确定分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围。获得数据常常需要创造性的方法,大数据分析是情报分析的一部分,需要将大数据分析发现的关系置于相关背景和宏观环境下解读。分析没有统一的分析工具,因分析的目标、处理的数据量不同而不同。

  关 键 词:大数据分析 分析方向 分析方法

  最近几年大数据成为学术界的一个热门题目。笔者于2016年7月18日在中国期刊全文数据库搜索篇名中有“大数据”一词的核心期刊论文,共有3239篇,其中2011年及以前,仅77篇,2012年26篇,2013年增长到359篇,2014年达到861篇,2015年达到1297篇,2016年截至7月18日收录的论文,已有612篇。按百分比计算,有关大数据的论文,59%是2015年和2016年7月发表的,27%是2014年发表的。2012年以前(不含2012)发表的仅占3%(见图1)。这显示,大数据研究,过去两年在我国已非常火热。但由于研究的时间太短,发表的论文大部分都不是基于充足的知识积累撰写的。

  根据论文的标题和摘要,以及重点选读部分论文,笔者发现,现有的研究重点主要集中在讨论大数据意义、大数据现象和大数据软件技术方面。而有关大数据分析方法的讨论则较少。在标题中有“大数据分析”短语的文章有90篇,但讨论大数据分析方法的论文只有两篇。涉及分析方向、数据来源、分析方法、分析工具的研究都非常缺乏。而要让大数据分析进入政府机构或企业的实际运作之中,这些内容非常重要。本文希望能部分弥补这方面的缺陷,从情报学的角度来审视大数据分析的方向与方法,并通过总结国外的期刊论文、博士论文、政府和咨询公司的报告的成果,结合笔者在竞争情报分析方面的经验,对上述问题进行了讨论和评价。

  http://www.cssn.cn/glx_tsqbx/201709/W020170904367461878462.jpg  

  图1 有关大数据文章数量的增长趋势

  1 分析方向

  在讨论大数据的文献中,很多人认为,大数据分析就是让数据说话,不需要有任何方向或任何假设。为证明这一点,人们最常引用“啤酒与尿布”的故事:多年以前,沃尔玛决定将它的会员卡系统中的数据同它的销售点系统中的数据结合起来。前者主要是沃尔玛顾客的人口统计数据,后者则是顾客消费的数据:这些顾客在什么时间、什么地方、购买了什么东西。数据合并之后的数据挖掘发现了许多相关关系。有些关系是预料之中的,如买杜松子酒的人通常也买柠檬和通宁水(Tonic,用来与烈酒调配鸡尾酒)。但也有预料之外的关系:买婴儿尿布的年轻男性也喜欢买啤酒。沃尔玛超市于是将啤酒与尿布摆放在一起,从而大大增加了销售。

  但该案例并不是现实的真实情况。随后的研究发现,故事的原型不是沃尔玛而是Osco连锁药店,该连锁店的分析员确实模糊地记得发现了啤酒和尿布之间的关系。但发现并不是靠电脑软件偶然发现的,而是分析员给软件程序确定了方向去发现的。而且该发现被认为是非正常状况,Osco连锁店因此没有根据发现采取任何行动[1]。

  该案例的真实故事告诉我们,在数据量非常大的今天,单靠“让数据说话”,其实是偏颇的。要有效地实施大数据分析,首先需要确定分析的方向,确定要解决的问题。正如邓白氏首席数据官斯克里费加诺(A.Scriffignano)所指出的那样,最重要的不是数据,而是问题。分析应以问题为导向。这些问题包括“有没有可能发现新的商业行为,什么样的企业在增长,什么样的企业在走下坡路”。是否有“新的商业模式、新的合作伙伴、新的服务重点、新的顾客”[2]。曾经领导纽约市的大数据分析小组的M.Flowers也指出,大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题[3]。而要确定方向,提出问题,需要对行业的深入理解。

  美国最成功的大数据分析例子是纽约市的政府大数据分析和拉斯维加斯博彩公司哈乐斯公司(Harrah’s)的大数据分析。纽约市的大数据分析非常成功,是因为当时的纽约市长布隆伯格就是做大数据出身的。他的公司,彭博公司(包括后来的彭博通讯社),都是通过做大数据分析为金融公司和银行提供服务而发达起来的[4]。纽约市是在他的推动下成立了“市长大数据分析办”,负责利用大数据解决纽约市面临的一些实际问题。而大数据分析办的Flowers在领导纽约市大数据分析的时候,为寻找问题,首先是花几个月的时间率领团队到各政府部门调研、观察,然后才找出可能能够利用大数据解决的问题。美国的哈乐斯公司是拉斯维加斯客户数据分析做得最好的博彩公司,截至2009年其数据库已收集了4000万顾客的资料[5]。而哈乐斯公司当时的首席运营官Loveman曾是哈佛大学教市场营销的教授,对客户关系管理的数据分析系统非常了解;哈乐斯公司的大数据的分析、试验,大都是在他的指导下进行的。正如Loveman总结的那样,哈乐斯的大数据分析的成功,除了得益于其掌握的顾客在其娱乐场、酒店、餐馆、商店消费的大数据而外,更得益于其主要管理人员掌握的决策科学的理论[6]。

  大数据分析需要数据挖掘专家、统计专家和行业专家的结合,或同时掌握这些知识的专家[1]。而大型的大数据分析项目,需要的技能可能包括领导能力、数据管理能力、行业领域专长、数据挖掘专长、项目管理能力和沟通能力。要使大数据分析结果得到有效的利用,还需要有经验的“变化”管理者、运动管理者[6]。因此,大数据分析要成功,不是仅仅靠电脑专家就能实现的。

  大数据分析也是有很大的投资风险的活动,因为分析得到什么结果常常具有很大的不确定性,完全有可能出现达不到预期的结果甚至没有价值的结果的情况[7]。即使能在事前准确地确定要解决的问题,明确分析的方向,这种不确定性仍不能消除。不确定性的来源包括,大数据里面是否真的包含有原来不知道的新知识?如果没有,不管如何分析都不会有新发现。是否有适当的分析方法或适合的分析工具?如果方法不对或工具不对,大数据里面包含有再多的宝贵知识也可能发现不了。因此对大数据的投资需要谨慎尝试,逐步推进,以避免投资失误的风险。

  2 数据来源

  大数据的数据有多种来源,包括公司或机构的内部来源和外部来源。数据来源可分为五大类。

  1)交易数据。包括POS机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

  2)移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更即报告一个新的地理编码)等。

  3)人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。

  4)机器和传感器数据。来自感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(IoT)的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为(如当传感器值表示有问题时进行识别),提供规定的指令(如警示技术人员在真正出问题之前检查设备)等。

  5)互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。

  尽管上面列出了大量的数据源,但要满足具体企业或机构的具体需要,也常常有困难。这种情况在我国更加突出。因为我国政府公开的数据非常有限。比如,即使号称为我国三大数据平台的北京、上海、贵州的政府数据网,公布的数据都非常少,非常粗略,很难被视为大数据。而非政府机构和民间企业,更不会轻易对外公布数据。此外单是获得数据还不够,还需要获得有关资料的很多细节,如对资料的说明,资料的背景,以及其他能帮助分析员理解数据的信息。如果没有这些细节,对数据的正确解读就可能有困难,数据就失去价值。而我国政府提供的很多数据常常缺乏这些细节。

  因此,大数据分析的数据来源及其细节信息常常需要数据分析员的创新发现。即使对信息最开放的美国也是如此。以美国著名的娱乐城市拉斯维加斯的公司为例。尽管该市的政府已有非常详细的游客统计数据、游客调查数据,以及各研究部门的分析数据,但企业要深入了解具体游客的消费行为,仍需要采取各种创新的手段来收集数据。以前面提到的哈乐斯公司为例,为尽可能地了解游客(公司的主要顾客),他们采用的创新方法包括:通过提供各种积分,奖励和优惠鼓励游客成为公司的会员。成为会员需要填写会员申请,提供比较详细的各种个人资料,包括:姓名、电话号码、出生年月、家庭住址等。一旦有了游客的这些数据,只要游客使用会员卡消费,公司就能够获得游客的“可辨识个人行为资料”(Personally Identifiable Information)。什么游客在什么时间什么地方消费了什么,消费了多久都详细记录在案,这样公司就可以针对具体的个人提供营销和服务。即使这样,公司收集的数据仍有缺陷:公司难以收集不愿意成为会员的游客的行为数据。针对这些游客,哈乐斯公司采取的创新方法是让游客免费使用WiFi,但前提是每天使用都需要申请,在酒店房间里使用和房间外使用要分别申请。由于游客入住酒店时公司已掌握了游客的姓名、年龄、性别、国别等资料,接下来游客只要使用WiFi,公司就知道什么游客什么时间在房间里,什么时间离开房间,离开房间后光顾了酒店的什么餐馆、剧院、商店等(通过手机定位系统)。

  如果大数据分析涉及一个地区或城市的人口的情况,收集资料就需要了解获得的数据与有关总体的关系,以了解获得的数据有多大代表性,占总体数据的比重有多大,等等。比如,一个机构有能力收集大量的微信数据,但这并不一定能代表了解一个地方整体居民的情况,因为使用微信的人再多,也只是所有的人里面的一部分,而不是“所有的人”。同样的,互联网公司掌握的网民的数据再大,这些数据也只是一部分习惯上网的民众的数据,不一定能代表另一些没有上网习惯的人群的情况。因此,获得的任何大数据如果没有考虑样本的代表性,要根据这些数据做宏观决策就可能出现偏差。

  大数据的数据收集,需要避免如下错误:不加区别地收集数字信息,而没有收集模拟资料和自然人领域的资料;缺乏分析模型来将注意力集中在重要信息上,发现缺口。没有使所有大数据都有地理空间特征;没有一个全面的分析框架,使所有语言的所有信息都在超大规模(Exoscale)环境下工作[8]。

  3 大数据分析

  大数据分析是将描述性的、诊断性的、预测性的和规定性的模型用于数据,来回答特定的问题或发现新的见解的过程。分析技术的范围从告诉决策者最近发生了什么的历史报告,到展望未来,预测什么事情发生,以及相应的行动路线建议等[7]。

  大数据分析的第一步是数据的“抽取—转换—加载”(the Extract-Transform-Load,ETL),这就是所谓的数据处理三部曲。该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。它们常常是同步进行的。数据的质量可能差异很大,比如缺乏邮政编码的地址,或拼写错误的地址,不同来源数据格式不匹配等。这些都需要在数据清洁过程中解决。清洁主要是数据工程师借助半自动化的工具人工处理。由于数据量和数据种类大量增加,数据工程师往往需要花大量的时间来做清洁,然后才能储存和分析。有的花的时间占整个分析时间的80%[9]。根据垃圾进、垃圾出的原则,清洁数据是大数据情报流程中非常关键的步骤。该过程完成之后,不同来源的数据已成为一个整体,数据的表达是单一的、统一的。

  由于数据源的数量和种类的增加同日益增加的近实时或实时的商业情报任务的需要联系在一起,这就涉及实时数据的分析。实时数据分析一般采用“复杂事件处理”(Complex Event Processing,CEP)技术。这种基于事件流的技术将系统数据看作不同类型的事件,通过分析事件间的关系,建立不同的事件关系序列库,利用过滤、关联、聚合等技术,最终由简单事件产生高级事件或商业流程。该技术的目标是发现对组织是机会或威胁的重要事件,然后对它们尽快做出回应。这些事件可能在整个组织中不同层次发生,如销售线索、订单或客户服务电话。也可能是新的信息,包括文本信息、社交媒体粘贴、股市反馈、流量报告、天气报告,或其他类型的数据。当一个测量超过预设的标准时间、温度或其他值时的情况,该事件就可被定义为“状态的变化”,就需要采取行动。CEP在实时风险管理、实时交易分析、网络攻击、市场趋势分析等方面都具有较高的适用性。

  大数据分析的一个重要概念是“关键绩效指标”(KPI)。关键绩效指标定义一组针对整个组织或一个业务单位、业务部门,或特定项目、具体员工的绩效定期测量的标准值。通过建立关键绩效指标,企业为其各部门界定了“成功”的标准和一套明确的优先事项标准。定期对照企业的绩效指标评估企业的业绩往往会发现潜在的问题和需要改进的领域。互联网或数据库也需要关键绩效指标,以确保数据库的绩效能得到度量和追踪。比如,一个为居民服务的网站,其关键绩效指标可能是:每次交易手续的成本、用户满意度、完成率、数字渗透率[10]。

  大数据分析需要创新。需要有关人员以新的、富有想象力的方式利用数据、分析数据。需要有探索、试验、评价和反馈的动态文化。因此,对数据的分析需要大量的试验。比如美国最大的金融控股公司之一“第一资本金融公司”(Capital One)每年进行3万多次试验,来了解不同的利率,奖励和直邮的打包对最大限度增加潜在的顾客签信用卡和付款的方法的影响[8]。

  需要指出的是,尽管大数据分析有它的优势,但也有很大的局限性。很多时候,大数据产生的相关关系可能是虚假的:在完全随机的数据中显示了某些规律或模式。这是因为数据的量非常大,因此可能产生向各个方向辐射的各种联系。正如Leinweber所显示的那样,只要数据足够大,数据挖掘总能发现一些相关关系。比如,通过将1983~1993年的标准普尔500股票指数和联合国140个国家的经济数据整合,数据挖掘发现标准普尔500股票指数同孟加拉国的黄油生产之间存在很强的相关关系,相关度(R[2])达到75%,同美国的绵羊数量的相关度更达到99%。难道能用孟加拉国的黄油产量或美国的绵羊数量来预测标准普尔股票的走势?当然不行。它们的相关关系是伪相关关系[8]。因此,大数据分析需要有行业专家来控制数据的范围,以及分析的方向。

  此外,大数据分析只能是传统竞争情报分析的补充而不是替代。大数据分析发现的相关关系,可以帮助我们发现趋势和异常情况,但大数据分析不能取代传统的情报分析所必要的因果关系分析。在大多数情况下,情报分析员需要将大数据分析得出的相关关系,置于经营领域的商业背景和宏观环境的背景(历史的、政治的、经济的、社会的、文化的与语言的)之下来加以解读,从而将相关关系提升为因果关系。

  4 数据分析工具

  大数据分析目前并没有适合所有场合的分析软件与工具。由于不同的公司有不同的需要,处理的数据规模和种类也不同,因此具体使用什么分析软件或工具不同的公司是不同的。有的项目可能只需要简单的电子表格,比如纽约市政府的大数据分析,开始的分析就仅仅采用了电子表格。有的需要多种大型软件和工具的组合。比如纽约市政府的大数据分析随着项目的深入和复杂化,同时用到的工具和软件包括:Application Programming Interfaces,DataShare,DataBridge,the Data Element Exchange Program(安全传递信息的软件),Geo-tagging(Geo-coding)等。美国的情报机构也是使用多种分析软件和工具的组合。比如对公开信息的分析和度量,用到的软件组合包括:Visible,Socializing the Enterprise,Geofeedia(社交媒体分析软件)、Open Source Indicators(利用公开信息预测政治动乱、经济危机,传染病爆发等软件)、Information Volume and Velocity(美国国防部资助的互联网信息收集系统),以及一些商业性的公开信息情报软件:Recorded Future,Palantir,Aggregative Contingent Estimation(ACE)(通过筛选各种博客、推特、卫星图像等提供社会动乱的预警的软件)等[10]。

  美国大数据分析专家Devenport和Harris在他们的《分析学》一书中列举的分析工具包括:电子表格、在线分析处理(OLAP)、统计或定量算法、规则引擎(Rule Engines)、数据挖掘工具、文本挖掘工具、模拟工具、文本分类(Text Categorization)、遗传算法(Genetic Algorithms)、信息提取(Information Extraction)、群智能(Swarm Intelligence)[1]。

  总体而言,大数据分析工具通常非常复杂、程序密集,需要多种技能才能有效应用。按分析流程划分,大数据分析软件可分为:查询与报告软件(Query and Reporting)、联机分析处理(OLAP)软件、数据挖掘软件、可视化软件(包括“仪表盘”软件)[11]。所谓数据仪表盘(Dashboard),主要指监控型的信息显示。它的功能是展示“正在发生的”情况。例如网络营销人员需要监控百度或者Google的关键字推广状况,人力资源总监需要监控各个员工的KPI考核情况,销售总监需要监控每个业务员的绩效达标情况,等等。

  目前最流行并有可能为下一代大数据处理确定标准的软件系统是Hadoop,比如中国移动的详单实时查询,就是使用的该系统。一般认为最好的大数据分析系统应具有磁性、灵活性和深刻性(Magnetic,Agile,and Deep,MAD)三大特征[12]。磁性指该系统能抓取所有数据,不管其结构和质量;灵活性指系统具有适应性和对不同数据的应变性;深刻性指该系统能支持传统的商业情报以及机器学习和复杂的统计分析。根据Herodotou等[13]的研究,Hadoop具有上述三大特征:①Hadoop被认为是磁性的,因为在Hadoop中获取数据的唯一步骤是将文件复制到Hadoop的分布式文件系统中。②Hadoop被认为是灵活的,因为它使用了一个所谓的“MapReduce”的方法。“Map”将计算任务分成小型的和并行的任务并分配适当的结构予大数据,而“Reduce”则通过组合共享同一个Key的所有值而获得所有的大数据[14]。③Hadoop被认为是深刻的,因为用Hadoop和第三方扩展的Hadoop,用户可以使用Java,Python,R和SQL等通用编程语言做计算。因此,Hadoop可帮助企业、商业分析师、数据科学家和开发者找到良好的相关性和关系,变得更加MAD,并从他们现有的大数据集获得更多的远见。

  5 结束语

  过去几年来,我国大数据分析已成为炙手可热的研究主题,但由于研究的时间短,大部分成果都不是基于充足的知识积累基础上撰写的。大部分论文都偏重“务虚”而不“务实”,有意无意地避开了大数据分析的具体操作涉及的关键问题。希望能部分弥补这方面的缺陷。本文分别从分析方向、数据来源、分析方法和分析工具的角度,讨论了大数据分析需要解决的一些关键问题。希望有助于纠正现有的论文中的一些错误看法,包括“让数据说话”(不需要理论或假设指引);“要全部不要部分”(忽略人或工具处理信息的局限性)等,从而使政府或企业能更实际地推动大数据利用。本文的观点,除了基于笔者对现有的文献的研究而外,还基于笔者自身长期的数据分析经验和对情报分析的理论研究。

  参考文献:

  [1]DEVENPORT T H,HARRIS J G.Competing on analytics—the new science of winning[M].Massachusetts:Harvard Business School Press,2007:131-132.

  [2]FORREST C.Big data vs.smart data:dun & bradstreet chief data scientist breaks it down[EB/OL].[2016-08-23].

  http://www.techrepublic.com/article/big-data-vs-smart-data-dunbradstreet-chief-data-scientist-breaks-it-down/.

  [3]LEE P.Big apple,Big data,Big lessons for the DON[EB/OL].[2016-08-23]. http://www.secnav.navy.mil/innovation/Documents/2015/10/MODA.pdf.

  [4]COPELAND E.Big data in the big apple[J/OL].[2016-08-23].Capital City Foundation,2015.

  http://www.spatialcomplexity.info/files/2015/06/Big-Data-in-the-Big-Apple.pdf.

  [5]GILL C K.Patron data privacy and security in the casino Industry:a case for a U.S.[J].Data Privacy Statue,UNLV Gaming Law Journal,2012(3):81-110.

  [6]From big data to better decision[EB/OL].https://www.domo.com/assets/downloads/15_bi-guide.pdf.

  [7]Australian Public Service.Better practice guide to big data[M].Commonwealth of Australia,2014.

  [8]LEINWEBER D.Stupid data miner tricks:over fitting the S & P500[J].The Journal of Investing,2007,16(1):15-22.

  [9]LOVEMAN G W.Diamonds in the data mine[J].Harvard Business Review,2003(5):109-113.

  [10]LIM K.Big data and strategic intelligence[J].Intelligence and National Security,2015,31(4):1-17.

  [11]RAGHUPATHI W,RAGHUPATHI V.Big data analytics in healthcare: promise and potential[J].Health Information Science and Systems,2014(2):3.

  [12]COHEN J,DOLAN B,DUNLAP M,HELLERSTEIN J M,WELTON C.MAD Skills:new analysis practices for big data[C]//Proceedings of the VLDB Endowment,2009:1481-1492.

  [13]HERODOTOU H,LIM H,LUO G,BORISOV N,DONG L,CETIN F B,BABU S.Starfish:a self-tuning system for big data analytics[C]//Proceedings of the 5th Biennial Conference on Innovative Data Systems Research(CIDR 2011),2011:261-272.

  


精彩热点

排行榜

版权所有:福建省社会科学界联合会 技术支持:东南网

联系电话: 0591-83701727 邮箱:master@fjskl.com.cn

闽ICP备15001769号