挖掘数据价值-挖掘大数据:双11前后都涨价,售假多在大牌代工处

一 : 挖掘大数据:双11前后都涨价,售假多在大牌代工处

  中国家庭金融调查与研究中心主任甘犁长年为中国画像,试图解决“中国不知道中国人有多穷,也不知道中国人有多富”的问题。中国家庭金融调查与研究中心是西南财经大学于2010年成立的集数据采集与数据研究于一身的公益性学术调研机构,包含中国家庭、小微企业和基层治理三大数据库。

  从2009年起,甘犁对中国家庭进行金融抽样调查,发现中国家庭收入严重不均,收入最高的一成家庭拥有近六成的人群总收入。这首次填补了中国家庭资产调查领域的空白。

  但当大数据时代崛起后,“很多人来问我,甘教授,这样的做法是不是没有必要了”。

  这是数据收集最便利的时代:人们刷一张信用卡,用手机下一单外卖,就向平台提交自己的所在地、年龄、性别、消费行为等信息。大数据的挖掘者写一个爬虫程序,通过网络抓取,数据就滚滚涌来。

  这也是传统调查受质疑的时代:相比之下,甘犁在做的事情太过昂贵——调查一家小微企业需投入1000多元,调查一个家庭600多元,他4万户家庭的数据库,意味着几千万元调查成本的投入。在大数据的浪潮中,“他们觉得我有些老派”。

  大数据带来了前所未有的机遇,清华大学通过网络抓取物价数据,已经可以每天发布物价变动情况,而国家统计局的传统方法,只能在次月延迟发布上月的CPI。阿里巴巴也在改写自己电商公司的形象,致力于把自己定义为一家数据公司。

  2016年,甘犁与阿里研究院合作,从阿里巴巴的大数据入手,去实地调查电子商务对农村经济的影响。他认为直到现在,中国也尚未勾勒出清晰的自画像。大数据能够提供农村电商的信息,却不能说明电商正在怎样改变村庄的生态,这正是传统抽样调查应该去寻找“厚数据”的地方。

  互联网CPI显示:双十一前后都涨价

  大数据已经对传统的物价统计发起了挑战。

  天猫双十一证明了低价对消费的吸引力,一秒之间,有12万笔交易近乎同时发生。在阿里巴巴安全部总监连斌看来,双十一前几分钟的交易量,足以构成一波对计算机系统的攻击。

  这场降价在2016年双十一的24小时内,促成了1207亿元的交易额,却难以在国家统计局的物价指数中有清晰刻画。根据国家统计局的传统统计和发布方法,每月的物价指数变动,需要延迟到下一个月才能够发布,更不可能看到每天各项物价的涨落情况。

  但大数据则可以细化到食品、服装、每项统计商品的每日价格波动。3月12日,在浙江大学大数据与厚数据研讨会上,清华大学经济学研究所所长刘涛雄,用基于互联网的消费者物价指数(清数-iCPI),证明了双十一前后的涨价现象。

  清数-iCPI的价格曲线,在2016年双十一的前一天,环比上升了0.58个百分点,而在双十一过后的第二天,物价则大幅反弹了近1.62个百分点。而在变动的物价中,服装的价格变动最大,而食品和日用品的价格变动则相对较小。

  大数据显示的物价变动证明,虽然商家在双十一提供了大幅折扣,但在节前,商家的确上调了商品价格,在双十一之后,商品价格也经历了大幅度的反弹。

  

 

  清数-iCPI显示2016年双十一前后物价上涨

  清华大学经济学研究所依照国家统计局的统计方法,对相同的一篮子商品进行价格追踪,通过爬虫程序,抓取互联网商务平台上和价格信息平台上的商品价格信息,实现了在每天凌晨发布前一天的物价变动指数。

  刘涛雄认为从网络上抓取的每日物价“打开微观世界,能够看到细胞”,清数-iCPI的周数据显示,春节一周的价格指数最高,涨价最明显。每日数据显示,在雾霾严重的日子里,口罩和医疗器械等价格指数也灵敏随之变动。而这些都是传统物价指数不可能刻画的现象。

  大数据不能显示:电子商务缓解留守之痛

  甘犁认为,大数据终究有无法提供的信息。

  “大数据对一个人的画像,如果是手机的话,一般能够做到性别、你在哪里工作、你在哪里生活、大概的教育水准,像阿里巴巴这样,会有你的网购行为,像腾讯这样的,则会有你的朋友圈信息。”

  甘犁告诉澎湃新闻(www.thepaper.cn),在这些可以通过大数据获得的信息之外,很难获取家庭结构、工作情况、收入情况、资产情况,其他消费情况、金融状况等信息。而如果需要获得这些关键的信息,就需要以抽样调查去获得更深入的数据,而抽样数据的代表性,也是大数据所难以替代的。

  2016年,甘犁与阿里研究院合作,对农村的电商发展进行调查。他首先通过阿里巴巴的数据,找到了有活跃电子商务活动的村庄与村民。

  他也在寻找大数据中缺失的信息:“你有网上的数据,你只知道这个正在做电商家庭的情况,你却不会知道,这个家庭在淘宝上卖产品,会带动周围的产业链。”

  甘犁通过抽样调查和线下数据的收集,发现电子商务带动了当地的基础设施建设和物流发展。最终报告显示,网商排名前5%的地区,村民的交通满意度、义务教育满意度和医疗满意度,分别达到56.58%、69.10%和56.21%,均高于城市居民。

  

 

  资料来源:《农村网商发展研究报告2016》

  此外,甘犁也在实地调查中发现,电子商务能够让村民减少外出务工,平均来看,有网商外出务工的人数,比无网商的村庄要少133人。而在全国,农村电子商务的发展,减少了约1200万外出务工的人口。这让这些村庄的留守老人和儿童问题,得到了很好的缓解。  

 

  

 

  资料来源:《农村网商发展研究报告2016》

  抽样调查与大数据也能够互相验证,甘犁曾对北京地区的房屋空置率做过调查,通过抽样调查了解了每个家庭的住房拥有量和空置情况,又通过抽取北京地区水、电的使用率大数据,发现北京确实有大量房屋,用电率为零。

  雨伞与降雨术

  连斌所在的阿里巴巴安全部门对全国假货中心做了画像。他在浙江大学大数据研讨会上表示,阿里巴巴通过挖掘大数据,在1.1平方公里的区域内,找出了售假卖家的高度集中区域,比如北京秀水街、深圳华强北。

  然后阿里巴巴派出了线下的调查队伍,去确认这些地方是否确是售假中心。

  一个规律从数据中浮现出来:售假的中心正是国际大牌产品的代工中心。

  连斌推测造假的根源:当国际品牌向劳动力更为低廉的东南亚转移,在中国留下了代工工厂,成熟的产线,技术经受考验的工人,还有失去订单之后,日益严重的生存问题。

  他也在质疑假货的根源:如果中国有良好的国产品牌,如果这些技术熟练的工人,不需要冒着风险造假就能生存下去,那他们是否还会铤而走险,去生产假货?

  甘犁认为,大数据能够看到现象之间的关联,还需要通过田野调查和实验,去确认因果关系。他在四川乐山做扶贫实验,不再直接给贫困人口发放补助,而是去奖励生产率更高的村民,找到因果关联,去改变贫困人口甘于贫穷和懒惰,以免失去补助的情况。

  甘犁认为,在大数据不能提供完全信息的问题上,比如中国家庭的资产与行为,需要抽样调查的数据来刻画清楚。其他一些大数据所无法确定的因果关系,机理和机制,也需要抽样调查的数据去验证。

  刘涛雄认为,在政策研究的时候,经常会提到两个问题,一个是降雨术的问题,一个是雨伞的问题。从非结构化的大数据中,可以挖掘现象,做出预测,在下雨前备一把伞。而在结构化的抽样数据中,则可以验证因果,就像在干旱缺水的时候,需要掌握打干冰降雨的技术。

  “打多少干冰降多少雨,依靠大数据是说不清楚的,而在预测风向的时候,大数据却是非常有用的。”

二 : 从0到1构建数据生态系列:数据价值挖掘

这估计《从0到1构建数据生态系列》的最后一篇,主题是数据价值。

在之前,我们所有做的一切一切,都是基础,那么其最终的目的是什么?

当然,结果很明显,就是数据价值,那么,作为数据生态的最上层,所谓的数据价值又是以什么形式体现的呢?

BI体系

在 大数据职位画像–看看你是不是白混了贼多年 这篇对于大数据职位分析的文章中,我们知道,大数据中很大一部分人的角色定位就是“数据分析”。

对应的职位岗位的名称也多样,“数据分析师”,“大数据分析师”,“BI数据分析”,“BI工程师”等等,五花八门。

这些岗位对应所创造的最上层数据应用价值就是,意图通过数据分析的手段,来带数据化的运营监测,数据化的决策指导,以及趋势性的预测等等。

对于前一点,即数据化的运营,这是最常规的应用手段,通过数据的反馈情况,进行运营策略的动态修正,以期获取最大化运营效果。

对于上层来说,他需要把控公司企业整体的事态走向,来制定未来的战略规划,这也是数据分析带来的好处。

通常,我们在构建起数据生态链路之后,第一需要支撑的就是BI分析体系,用于运营以及决策。

此外,结合分析以及深化一些的数学模型,我们还可以做到一些趋势性的预测,对于未来的策略做更进一步的指导,这就属于BI体系更深入的应用了。

画像体系

除了BI体系之外,画像体系是上层应用的重要核心支持,在此之上可以演变各种有效的实际业务应用。

所谓画像体系,即一方面是指针对于公司用户构建起能够全面描述用户特征的用户画像,另一方面,对于实体目标,即除了用户之外的实体,我们同样可以构建起画像,例如品牌画像,内容画像,产品画像等等。

基于这些画像,我们其实是可以做很多事的。

例如针对于电商,我们可以结合推荐系统,做更个性化的商品推荐;结合活跃时段,地域,购物特征等,进行更加个性化的推送服务,以及做个性化的EDM等;又诸如品牌画像,可以更好的为品牌进行制定推广策略;针对产品画像,剖析产品结构,优化产品内部逻辑,指导产品快速迭代等等。

画像是基石,在基石之上可以做更多可扩展性的实际应用,当然,前提是你的画像维度足够丰富,属性足够准确。

并且,需要注意的一点就是,我们在构建画像体系的时候,对于画像维度进行分层次的拆解,有助于我们填充画像属性,以及更好的实用指导。

至于说如何填充画像的属性,其实方法就很多了,部分是很明显的属性,部分是统计维度的属性,部分是需要通过机器学习以及挖掘的手段进行获取。

当然,更多的细节我们就不放在这里讨论了。

推荐系统

在网络兴起之前,用户能够接触到的信息实体(所谓信息是泛指,商品之类的也算)都是通过线下的实际展示,能够直接获取的范围有限。

在网络兴起之后,虚拟空间的概念兴起,信息实体可以放在虚拟空间中,这意味着实体(包括商品等一系列相关实体)的数量可以无限扩充。

在很早之前,用户获取信息的主要手段有两种:结构化的目录导航,搜索。

但在虚拟空间的兴起之后,随着海量实体的增长,这种以用户主动触发为主的获取实体模式弊端越来越大:筛选时间变长、可选项增大带来选择困难现象。

在时间成本越来高的现在,必然追求更加高效的实体信息获取方式,最本质的目的是:缩短用户与目标实体之间距离,减少无效信息的获取,以及提升效率。

所以,以个性化被动信息推动为模式的推荐系统则受到了欢迎。

而推荐系统,在是建立在数据的基础上,融合适应场景的各种模型算法,最终以精准信息推送为目的,提升用户的点击转化,或者其他更明确的商业目的。

推荐系统是数据得以应用的最常见的方式之一,也算是在国内应用的相对成熟的场景。

数据时代的搜索引擎

就信息检索来说,搜索引擎早就存在,而且一直存在,但早期的搜索引擎只有一个目的,那就是检索与检索词相关的信息。

这里所说的相关,纯属于信息实体属性相关。当然,这样做当然是无可厚非的,信息检索的本质本来就是检索相关的信息。

但随着数据进一步应用,以及机器学习等技术的推广,搜索引擎的模式也在悄然发生改变,只是你或许并没有过多关注而已,只是感觉搜索越来越好用了。

我们知道,中文博大精深,一句话,稍微改动一下,或者说重新组织一下,意思都可能发生巨大的变化,甚至是相同的一个词,理解的角度不同,其意义都是不相同的。

在过去,这种情景是很难处理的,而如今,随着对数据的进一步应用,以及算法模型的进一步开发,搜索意图识别已经算是“正经”搜索引擎的标配了。

除此之外,还有诸如搜索纠正,相关搜索推荐等基本的优化点,用于提升用户的体验。

最大的改变在于,过去的搜索是一个“点”,而现在的搜索结果是一个“面”。

所谓的“点”即是你所搜索直接关注的目的,也就是信息本身,而“面”则是一个多维结构,在你关注的点的同时,扩散所有的相关信息。

这就是知识图谱在搜索中的应用,产生的搜索结果是一整个相关的知识图谱结构。

实现业务的数据化、自动化、智能化

相对于上面描述的几个相对明确的数据价值应用,这里描述的就相对于偏业务层,并没有说具体涉及到某种模型,具体的算法,而是一种业务驱动模式。

我们希望通过数据,能够构建起业务驱动的自动化流程,并且这整个业务流程是可数据化观测的,然后在一些关键环节是可以智能化运作的,这样就能够提升业务的精准性。

当然,更重要的是提升商业转换价值。

期间,我们可以利用各种统计分析的手段,让业务流转是可以数据可观测的,也可以通过诸如画像属性的进一步业务化,也可以使用诸如推荐、预测等相关相对底层的技术,甚至是可以利用更复杂的神经网络深度学习等自动学习、自动优化的手段。

关键在于使用数据,再结合机器学习的手段来优化整个流程,这才是我们所需要的。

结语

最后,随着数据的价值在逐渐被挖掘,上层将会越来越多的应用模式被探索出来。

但可以预见的是,数据价值的使用,必然会从单纯的数据本身价值,逐渐延伸到更多的其他方面,而作为数据价值探索的手段,机器学习相关的技术和数据的结合也会越来越紧密。

 

三 : 分析工具很难选? 看他们如何挖掘大数据价值

预测建模,机器学习和其他先进的分析应用程序,有助于挖掘大数据系统的商业价值,但对于许多用户来说,这需要使用大量的工具,并付出一定努力才能达到预期。

零售商Macy's五年前部署了Hadoop集群,在此之前,它面临着一个严峻的问题,那就是如何有效处理各种系统生成的销售和营销数据。Macy's这些年一直在积极扩展在线业务,数据处理的问题也变得越来越严重,因为需要进行处理分析的数据量一直在增加。

该公司的传统数据仓库架构有着严格的处理限制,无法处理非结构化的信息——如文本。历史数据基本上也是无法自由访问的,通常这些数据会被归档到磁带上,运往异地存储设备。“数据科学家和其他分析师只能在特定时间段的数据上进行数据查询”,Macy's负责市场分析和客户关系管理(CRM)系统的主管Seetha Chakrapany说道,“他们受到了严重的束缚,无法很好地完成工作。”

Hadoop系统部署后,上述问题得到了一定的缓解,该系统提供了大数据分析架构,也支持基本的商业智能(BI)和报表流程。“Hadoop集群能够真正成为Macy's企业数据分析平台”,Chakrapany 说道。现在,分析团队一直在使用Hadoop平台,市场营销、销售业务,产品管理等部门的数千名用户得以访问上百个BI仪表板,这些仪表板的数据都来源于Hadoop平台上的分析。

但Macy's的大数据环境可不仅仅只有Hadoop集群。例如在前端,Macy's已经部署了多种分析工具来满足不同的应用需求。在统计分析层面,这家零售商则使用SAS和Microsoft R Server完成,后者基于R开源统计编程语言。

还有其他一些工具负责提供预测分析,数据挖掘和机器学习能力。包括H2O,Salford Predictive Modeler,Apache Mahout开源的机器学习平台和KXEN——三年前由SAP收购,已经集成到SAP BusinessObjects预测分析软件中。数据展示上,Macy's使用Tableau提供的数据可视化工具以及AtScale提供的基于Hadoop技术的BI软件。

更好地分析大数据

这些不同的工具是确保大数据分析架构准确有效的关键要素,Chakrapany 在2016年Hadoop峰会上的演讲和随后的采访中说到,使用统计方法和机器学习来进行高级分析过程自动化是大势所趋,他强调。

Chakrapany说,“我们一直处于实验状态。由于数据量巨大,不可能采用人工的方式来分析这些数据。所以,我们使用大量的统计算法来帮助我们认清业务情况。包括客户分析、订单分析、产品和市场的数据分析,此外还有从网站捕获的客户点击行为记录。”

类似的情况也越来越多地出现在其他企业中。作为大数据平台,如Hadoop,NoSQL数据库和Spark 处理引擎被企业广泛采用。部署先进的分析工具,帮助企业分析业务数据流,这类方式被越来越多的企业所接受。

2016年11月,TechTarget针对企业应用BI和分析软件进行的一个调查显示,7000的受访者中,26.7%的人表示,他们的企业已经部署了预测分析工具。接下来预测分析软件在企业未来一年的计划投资榜单中高居榜首。有39.5%的受访者表示,预测分析软件与数据可视化、自助服务BI和企业报表等所有更主流的BI技术对于企业来说不可或缺,甚至更为重要。

2015下半年进行的一项TDWI调查还发现,越来越多企业计划使用预测分析软件来支持业务。在这种情况下,309 名BI,分析和数据管理方面的专业人士受访者中,有87%的人表示,他们的企业已经是上述技术的活跃用户,或预计在三年内实施这些技术。其他高级的分析形式,例如模拟和指令性分析,用户数量也在逐渐增长。

预测分析的使用增长情况

用算法找到数据隐含的意义

机器学习工具和其他类型的人工智能技术——深度学习,认知计算也越来越多地受到关注,这些关注主要来源于技术用户和供应商,他们的分析团队期望使用自动化算法来帮助他们进一步探索数据集的意义。

Progressive Casualty Insurance Co是已经开始接触这些技术的公司之一。这家保险公司使用 Hadoop集群来加速其Snapshot程序, 该程序主要负责受保人的保险费用折扣,折扣力度则基于驾驶员的安全驾驶情况,其驾驶数据采集于车载诊断设备。

集群是基于Hadoop的 Hortonworks分布式框架的,它使用了60个计算节点用于提升 Snapshot程序的速度,Progressive的大数据分析架构包括一系列的工具,如SAS,R和H2O,该公司的数据科学家使用这些工具,在Hadoop系统中进行数据分析和处理。

数据可视化软件会备份大量的数据,数据科学家在这些数据上运行预测算法,以帮助参与该计划的用户评估其安全驾驶情况。他们还使用分析结果确定不良的驾驶习惯和可能的机械问题,如发电机的信号异常,该问题可以通过分析电压异常波动数据来判定。

预测分析和机器学习的功能十分强大,Pawan Divakarla——Progressive负责数据分析业务的主管说道,“你有那么多的数据,并且你具有很好的模型用于分析。你 需要一些东西来帮助你,让工作变得更为有效。”

更深入的大数据分析

Yahoo在2006年成为第一个将Hadoop应用于生产环境的用户,当时,Hadoop的开发者之一Doug Cutting正在这家网络搜索和互联网服务公司工作,Yahoo宣传自己是当今Hadoop平台最大的用户。Yahoo的大数据分析架构,包括40000多个节点,300多个应用,40个集群,Yahoo将Hadoop与Apache HBase数据库,Apache Storm 实时处理引擎和其他大数据技术结合使用。但这家公司并不满足于现状,它一直在努力将这些技术扩展到新的领域。

Yahoo负责大数据和机器学习架构的副总裁Andy Feng说道,“即使在10年后,我们仍然会发现这么做的好处,在过去的三年里,他花了大约95%的时间专注于机器学习工具和应用上。在过去,可以构建并运行现有机器学习技术上的自动算法不足以在Hadoop集群处理如此庞大的数据集,其准确性无法令人满意。”

“我们一直尝试机器学习,但我们的尝试有着一定的约束,所以产生的结果是有限的,Yahoo负责云计算和大数据平台产品开发的高级总监Sumeet Singh补充说道。不过,他和Feng都表示,近年来,情况已经大为好转。“我们看到,人工智能和机器学习重回人们的视线,其中一个主要原因就是数据量的增长,”Singh指出。

例如,Yahoo现在正在运行一个机器学习算法,该算法使用语义分析过程,更好地将付费广告搜索结果页面与用户输入的搜索关键字进行匹配,它将每个搜索的营收提升了9%。另一个使用机器学习的应用可以让Yahoo Flickr在线照片和视频服务的用户能够按照视觉内容来对图像进行组织,而在以前,他们只能按照拍照日期排序。该算法还可以标记那些不适合在工作中查看的照片,以帮助用户避免在办公室看照片时产生的尴尬情况,Feng说。

Hadoop集群节点新增了图形处理单元,让这些应用成为了可能。Feng表示,GPU可以进行传统CPU无法完成的图像处理。Yahoo在大数据分析架构中新增了Spark处理引擎,接管了一些处理工作。

此外,Yahoo还部署了MLlib,Spark的机器学习算法内置库。然而,这些算法太过于基础,Singh说。这促使大数据团队开发了一个深度学习算法库CaffeOnSpark, Yahoo已经在GitHub网站上传了该算法库,使用者可以自由下载。

 

下页更精彩: 1 2 3 4
上一篇: 怀念高中生活的文章-怀念高考 下一篇: 脚出汗怎么办-脚出汗多怎么办

优秀文章