记者从工信部、发改委等部委了解到,两会前后,大数据系列推进政策将密集推出,国家政策将为今年大数据产业的快速成长提供良好的发展环境。
业内预期,我国大数据产业正在从起步阶段步入黄金期,2020年中国有望成世界第一数据资源大国,但数据开放度低、技术薄弱、人才缺失、行业应用不深入等难题亟待解决。
数据成为关键生产要素
新年伊始,中央网信办、国家发改委、工业和信息化部联合印发《公共信息资源开放试点工作方案》,确定在北京、上海、浙江、福建、贵州5省份开展公共信息资源开放试点。
上述方案要求,试点地区要结合实际抓紧制定具体实施方案,明确试点范围,细化任务措施,积极认真有序开展相关工作,着力提高开放数据质量、促进社会化利用,探索建立制度规范,于2018年底前完成试点各项任务。
工信部信软司副司长李冠宇表示,“我国大数据产业顶层设计不断加强,政策机制日益健全。发改委、工信部、网信办等46个部委共同建立了促进大数据发展部际联席会议制度,全国有30多个省市制定实施了大数据相关的政策文件。”
业内预期,2018年,随着国家大数据战略推进实施以及配套政策的贯彻落实,大数据产业发展环境将进一步优化,社会经济各领域对大数据服务的需求将进一步增强,大数据的新技术、新业态、新模式将不断涌现,产业规模将继续保持30%以上的高速增长态势。
记者从工信部了解到,今年,随着八大国家大数据综合实验区建设不断加快,产业发展将推动形成特色领域。围绕京津冀和珠三角跨区域类综合试验区,将更加注重数据要素流通,以数据流引领技术流、物质流、资金流、人才流,支撑跨区域公共服务、社会治理和产业转移,促进区域一体化发展;围绕上海、重庆、河南和沈阳四大区域示范类综合试验区,将更加注重数据资源统筹,加强大数据产业集聚,发挥辐射带动作用,促进区域协同发展,实现经济提质增效;围绕内蒙古基础设施统筹发展类综合试验区,将在充分发挥区域能源、气候、地质等条件基础上,加大资源整合力度,强化绿色集约发展,加强与东、中部产业、人才、应用优势地区合作,实现跨越发展。此外,结合地方产业发展和应用特色,大数据产业集聚区和大数据新型工业化产业示范基地建设也将持续推进。
权威数据显示,预计2020年,我国大数据市场规模将超过8000亿元,未来中国将成为全球数据中心。IT技术的持续创新促使大数据时代加速到来,在此大背景下,数据成为关键的生产要素,预计到2020年,全球的数据总量将达到40ZB,中国的数据量将占全球数据总量的20%,成为世界第一大数据资源大国。
目前,我国大数据产业生态系统日趋完善,大数据技术、交易、开放共享、工业大数据等产业链纵向发展逐步延伸;重点区域产业布局有效推进。在行业应用中,预计到2020年,工业大数据的占比将达到6.64%。
中关村大数据产业联盟副秘书长陈新河表示,中国大数据产业发展呈现出政府与企业联动的态势,近几年国内培育出了一批大数据创新企业,发展势头良好。
在美国纳斯达克上市的中国第一家大数据公司——国双公司财报显示,其净收入增速是行业平均水平的2倍,预计2018年营收将达10亿元。
国双迄今不仅为包括中国政府网、国家发改委、农业部、北京市等在内的3000多家政府网站提供大数据分析服务,还为国家发改委、国家林业局、税务总局等众多单位提供政策大数据互联网分析服务,同时也为旅游、政府招商引资、地方产业促进、电子政务等垂直领域提供大数据整体解决方案。
“在新媒体领域,主要针对传统广电系统新媒体转型、三网融合、三屏互动的需求,提供融合媒体大数据解决方案,为新媒体运营与运维、节目创新、全媒体收视考核及领导决策提供即时的全媒体数据支持。”国双公司有关负责人表示。
中关村大数据产业联盟有关人士表示,国内另外一家大数据创新公司——百分点集团已率先构筑行业领先、涵盖多个行业的人工智能场景解决方案,尤其是工业和政务大数据解决方案,对国内工业和政务大数据转型起到了良好的助推作用。
百分点集团副总裁兼EBG事业部总裁高体伟介绍,百分点智能制造全价值链一体化平台已成功应用于汽车制造、3C制造、消费品制造等众多行业,帮助企业实现设备异常监控与预测、零件生命周期预测、良品保固分析、产品精准营销、个性化推荐,以及产品购买用户的情感分析、产品优化设计、品质追溯查询等,助力制造企业在生产、管理和营销各环节的转型。
据了解,百分点通过对用户数据、日志数据、家电机器状态等数据的分析发现,智能电视用户使用VGA接口的人不到1%,为一家生产制造企业节约几千万元成本。
四大难题亟待破解
去年,菜鸟和顺丰的“数据断交”事件,暴露出大数据发展中的数据共享难题。当前,我国大数据产业正在从起步阶段步入黄金期,数据开放度低、技术薄弱、人才缺失、行业应用不深入等都成为产业发展中亟待解决的问题。
首先,记者通过在贵阳、杭州、北京等地的采访了解到,我国信息数据资源80%以上掌握在各级政府部门手中。近年来,在《关于推进公共信息资源开放的若干意见》《政务信息系统整合共享实施方案》等文件的推动下,政府数据加快了共享开放的步伐,惠民成绩单亮点不断。然而,由于我国大数据发展还处在起步阶段,不少基础性、关键性数据仍被政府部门束之高阁,共享开放程度低,这已经成为现代化治理进程中的“路障”。
据贵州省大数据发展管理局相关负责人介绍,部分政府部门在数据收集的过程中,由于缺乏统一的标准,收集到的数据虽然量大,但质量不高,可利用价值低。据此前媒体报道,长江上游地区一些省份的交通管理部门、运输公司不愿与其他省市共享物流信息,造成联运衔接的信息壁垒,甚至出现了同样1吨货,一百公里公路运费比经济发达地区高60元的现象。
据了解,截至2016年底,广东省全省87个省直部门有6988类数据资源、62332项信息项,居全国各省(区、市)首位。但各部门提出的共享需求仅3649类,省级编目共享仅477类,数据难以真正发挥利民惠民、支撑政府决策的作用。
此外,尽管部分数据已接入共享开放平台,但由于不能被机器读取,成为无法释放应有活力的“休眠数据”。《2017中国地方政府数据开放平台报告》显示,截至去年4月,全国19个地方政府数据开放平台的8398个开放数据中仍有约25%的机器可读性较差。
中国科学院院士、北京大数据研究院院长鄂维南表示, “理论上我国有很多数据,但实际做数据分析会发现利用起来非常困难。”贵阳大数据交易所有关人士透露,不少企业以保护商业机密或节省数据整理成本等为由,不愿意交易自身数据。部分政府部门也缺乏数据公开的动力:有的是因懒政而让数据沉睡,有的则是已经利用数据开展商业化应用,不愿共享。
其二是技术创新滞后。我国大数据产业虽然与国际大数据发展几近步伐相同,但是仍然存在技术及应用滞后的差距,在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面与国外仍存在较大差距,对开源技术和相关生态系统影响力弱。市场上,由于国内大数据企业技术上的不足,用户更加青睐Google、IBM、Oracle、SAP等国外IT企业。
微软大中华区董事长兼CEO柯睿杰认为,数据智能并非那么触手可及。大数据来源众多、数量巨大、形式各异,要从中获得一目了然的信息,就需要真正高效、可靠的数据管理和分析平台。
如何处理巨量数据是中国大数据产业面临的首要技术问题。鄂维南表示,“中国的数据体量特别大,比如,中国的视频比任何国家都要多,这些数据储存困难,需要用的时候往往就没了”。再以基因测序领域为例,中国每年新增的基因组测序原始数据超过20PB(1PB相当于100万GB),面临数据量大、数据处理流程长等技术挑战。
目前,我国大数据技术创新能力还有待提升。《大数据产业发展规划(2016-2020年)》指出,我国在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面与国外仍存在较大差距,对开源技术和相关生态系统影响力弱。同时,大数据应用水平不高。我国发展大数据具有强劲的应用市场优势,但是目前还存在应用领域不广泛、应用程度不深、认识不到位等问题。
“我国大数据在底层技术上和国外差距特别大,技术都来源于谷歌等国外大公司。”国务院发展研究中心信息中心研究处处长李广乾说,很多时候我们的商业模式走在了技术前面,但并没有通过技术手段来推动创新。
第三是人才不足限制了大数据产业创新发展的成效。清华大学计算机系教授武永卫透露的数据显示,未来3至5年,中国需要180万数据人才,但截至目前,中国大数据从业人员只有约30万人。
同时,大数据行业选才的标准也在不断变化。初期,大数据人才的需求主要集中在ETL研发、系统架构开发、数据仓库研究等偏硬件领域,以IT、计算机背景的人才居多。随着大数据往各垂直领域延伸发展,对统计学、数学专业的人才,数据分析、数据挖掘、人工智能等偏软件领域的需求加大。
其四,行业应用不深入。赛迪顾问股份有限公司大数据产业研究中心提供的数据显示,互联网、金融和电信三大领域的大数据应用在各行业总规模中所占比重超过70%;健康医疗领域和交通领域近年不断“上架”新应用,但行业规模占比相对较小;而在其他众多民生领域,大数据应用仍处于浅层次信息化层面,行业发展水平参差不齐。
“目前,大数据在多个行业尚未与业务实现深度融合,应用场景创新不足,大数据技术人员需要提升行业业务知识和经验。”百分点首席数据科学家杜晓梦表示,国内很多行业仍仅在局部业务上使用大数据技术,仅掌握数据挖掘和分析技术,如不能将技术与业务全面、深度地融合,则无法完全发掘出数据应用的真正价值。
顶层设计牵引产业发展
对于数据开放和共享,工信部赛迪研究院软件所所长潘文建议,应建立完善大数据发展协调机制,加快政府数据开放共享,稳步推动公共数据资源开放。同时,统筹规划大数据基础设施建设,推动制定公共信息资源保护和开放的制度性文件,并加强大数据标准化顶层设计,逐步完善标准体系。
在数据共享方面,贵阳大数据交易所已经做出成功的尝试。贵阳市政府有关人士表示,若想打通城市现存的信息壁垒,就要让城市多方资源联动起来,搭建城市数据共享的平台,从而激活大数据价值,充分发挥数据资源整合的优质效应,用信息化手段辅助科学决策。
潘文表示,国家层面应支持大数据共性关键技术研究,加强海量数据存储、数据清洗、数据分析发掘、数据可视化等领域关键技术攻关,并支持自然语言理解、机器学习、深度学习等人工智能技术创新。
记者注意到,在高端人才稀缺的现实情况下,目前国内企业多选择从海外和传统行业挖掘跨界人才,但仍然无法满足国内市场的大量需求。针对大数据人才供应不足的现象,各种培训机构和各大高校也开始强化大数据人才的培养。但培养大数据人才需要时间,短期内大数据领域的高端人才仍然会呈现供不应求的状态。
对于大数据人才建设,多位业内专家表示,应建立适应大数据发展需求的人才培养和评价机制,并建立健全多层次、多类型的大数据人才培养体系。同时,还要完善配套措施,培养大数据领域创新型领军人才,吸引海外大数据高层次人才来华就业、创业。
去年,教育部公布了第二批获准开设“数据科学与大数据技术”的高校名单,加上第一批获批的北京大学、对外经济贸易大学、中南大学,一共有35所高校获批开设该专业。今年开始,部分院校将招收第一届大数据专业本科生。
在行业应用方面,《大数据产业发展规划(2016—2020)》提出,到2020年,大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持30%左右,大数据在创新创业、政府管理和民生服务等方面广泛深入应用。未来如何在搜集、储存大数据的基础上更好地整合、分析和应用,将成为优化“数据大脑”的重点课题。
清华大学新闻与传播学院教授沈阳表示,目前国内的大数据应用侧重于数据收集,在基础统计分析、风险感知和预测方面还有较大提升空间。同时,也不能在尚未明晰具体业务应用场景的情况下盲目追求大数据,而要以应用场景为牵引,只汇集不分析或者片面追求大而全,都不利于大数据发挥其对生产力提升的促进作用。此外,在大数据广泛运用于创新创业、政府管理和民生服务等方面的同时,也应认识到,大数据对社会的冲击有多大,社会对于大数据发展的回应、规范和约束就应有多大。