全国政协委员、中国科学院院士陈松蹊：建议加强数据分析人才培养力度

2024-03-17 09:40已围观次

　　数据是国家或企业的战略资源，只有掌握了数据，并通过分析让数据说话，数据才能真正产生价值。但目前，我国数据分析人才缺口非常大。

　　数据分析人才缺失是什么原因造成的？如何加大培养力度？针对这些问题，新京报记者在全国两会前夕专访了全国政协委员、中国科学院院士、北京大学讲席教授陈松蹊。

　　谈统计学人才培养

　　建议将统计学纳入基础学科

　　新京报：去年全国两会上，你提出“加强统计学基础研究人才培养”的建议。今年，你带来的《关于“加强数据分析人才培养力度”的提案》也和统计学人才相关。统计学为何重要？可以应用于哪些热门领域？

　　陈松蹊：统计学是指导数据收集、数据分析、数据推断的学科，是整个数据科学的基础，数据分析的基础是统计学。在数据驱动的时代，无论是学术研究还是商业决策，都离不开统计学的指导。

　　统计学的应用领域非常广泛。目前热门的人工智能有两个基础，一个是计算机科学，一个是统计学。随着国家将数据列为第五大生产要素，数据赋能的重要性日益凸显。而要实现数据的有效赋能，就需要大量的数据分析人才。统计学正是培养数据分析人才的学科。

　　新京报：你今年提案的背景是什么？目前我国数据分析人才面临什么样的问题？

　　陈松蹊：近些年，我国在数字基础设施建设方面进行了很好的布局，拥有海量存储和强大算力。但是，数字中国建设不只是存储平台、计算平台等硬件方面的建设，更多的是软实力建设，需要把收集的数据用起来，分析出门道，释放数据的生产力。

　　目前，我国数据分析人才缺口非常大。据人力资源和社会保障部估计，预计“十四五”期间需求总量将达到2000万人左右。与此形成巨大反差的，是我国数据分析人才培养能力严重不足。

　　这主要体现在四个方面：首先，统计学在数据分析人才培养中的主力军作用未得到充分发挥。在全国120多个一级学科中，统计学是仅有的把数据作为唯一研究对象的学科，是数据分析人才培养的核心主干学科。但受到学位点数量和招生名额的限制，我国统计学硕士及博士研究生的培养规模还十分有限，不能满足各行各业的需求。

　　同时，统计学未被列入基础学科，这不利于吸引优秀高中生选择统计学专业，不利于国家的人工智能核心技术的创新发展，特别是大语言模型、生成式AI等领域，也不利于培养能引领数据分析国际发展的战略科学家，不利于培养能带领企业创新发展、实现数据赋能的数据分析师。

　　师资严重短缺也是一大问题。为了更好地培养数据分析人才，高校需要大量的统计与数据科学师资。从近10年统计学博士生的就业市场看，业界和学界对统计学博士毕业生的需求旺盛，业界的薪酬待遇相对较高，一半以上的博士毕业生选择在业界就业，进一步加剧了高校数据分析人才培养能力不足。比如北京大学，每年统计学博士毕业生也就十几个，最终可能只有一半到各个学校从事教学工作。

　　此外，国家和地方统计局及调查总队、政府部门的统计专业机构、医疗卫生行业等均严重缺乏高层次专业统计分析人才，这非常不利于数字中国和数字政府建设。

　　新京报：你认为应该如何加大数据分析人才培养力度？

　　陈松蹊：我建议，将统计学纳入现有强基计划试点高校强基招生专业中，加大对统计学基础研究人才培养的支持力度；明确将统计学纳入“基础学科拔尖学生培养计划”，尽快在全国高校中遴选补充一批统计学基础学科拔尖学生培养基地，补齐统计学基础研究创新拔尖人才培养短板。

　　将统计学纳入国家“101计划”，集中全国优势力量，系统性建设统计学教材体系，加快形成适应数字中国建设的统计与数据科学核心课程体系，并在全国高校中逐步推广。

　　加大统计学一流学科建设的支持力度，增加统计学“双一流”建设学科点；在经费投入、招生名额、推免比例、长江学者和教学名师评审等方面给予统计学以其他基础学科同样的政策倾斜。

　　谈共享公共数据

　　建议按数据风险等级有序开放共享公共数据

　　新京报：今年上会，你还准备了什么提案？

　　陈松蹊：我计划提交《关于“共享公共数据实现科学数据自立自强”的提案》。

　　《数字中国建设整体布局规划》提出，要畅通数据资源大循环，构建国家数据管理体制机制，健全各级数据统筹管理机构。推动公共数据汇聚利用，建设公共卫生、科技、教育等重要领域国家数据资源库。

　　公共数据是指国家授权的公共管理或服务组织，收集、产生的涉及公共品并不含个人隐私的数据。公共数据具有公共性和非竞争性特征，通常包括各类地理空间、气象、大气环境、生态、流行病、经济、农业、交通、人口和社会数据等。

　　数据驱动的研究范式正在深刻改变科研生产力。公共数据作为重要的科技资源，是众多科技领域，如人工智能、大气环境、统计学、医疗健康和经济管理学等，在解决国家重大需求、“卡脖子”问题中所必需的研究基础。

　　但目前，我国科技工作者在获取公共数据上面临诸多困难。比如公共数据获取渠道不畅。近十年来，我国一些公共数据的可获取性得到了提升，一些数据的实时播报为通过网络实时下载数据提供了可能。但是网络下载无法获取历史数据，下载数据的通道并不稳定，数据格式时有变化，易造成数据缺失，研究成果的数据源容易被挑战。目前，一般科技工作者缺乏国内历史公共数据的有效获取途径，而提供公开下载的数据来源是科研发表的基本要求。

　　同时，由于国内公共数据获取困难，我国科学家大量使用国外的公开数据集进行科学研究。经常使用的数据集有英国生物银行基于大样本人群的遗传、生活环境和健康数据；欧洲中期天气预报中心发布的自1951年的高分辨率全球气象再分析数据；世界卫生组织发布的各国流行病数据等。过度依赖外部数据，不利于我国科学技术自立自强，且存在关键时刻数据获取中断的风险。

　　还有一个问题是缺乏高质量的再分析科学数据集。观测数据普遍存在空间分布不均、时间延续性差、观测种类不全等缺陷。再分析数据使用先进的统计方法，将物理模型与多源观测数据进行融合，是现有技术条件下的最优数据集。再分析数据的构造高度依赖稳定的数据源与职能机构有序公开的数据政策。目前，再分析数据是人工智能算法训练的数据基础，华为盘古气象大模型就是基于欧洲气象中心公开的再分析数据集训练成功的。

　　新京报：你认为应如何有序开放公共数据？哪些可以优先开放？

　　陈松蹊：我建议按照数据风险等级，有序开放共享公共数据。不涉及国家安全的数据，如高分辨率气象、大气环境、环保、生态、经济社会等可以优先考虑公开。对一些敏感数据，可以签署标准化协议，对数据的使用进行不同程度的规范，之后再对国内学者和企业开放。有序开放共享公共数据，能够使国内科研人员、企业及时获取长时期历史数据，提高我国大数据分析和数据赋能能力。

　　统计学未被列入基础学科，这不利于吸引优秀高中生选择统计学专业，不利于国家的人工智能核心技术的创新发展，特别是大语言模型、生成式AI等领域，也不利于培养能引领数据分析国际发展的战略科学家，不利于培养能带领企业创新发展、实现数据赋能的数据分析师。 ——全国政协委员、中国科学院院士陈松蹊

　　新京报记者张璐