中国科学院计算技术研究所先进计算机系统研究中心的前身是成立于2011年9月的先进计算机系统实验室,于2013年11月成为计算所科研实体,并更名为先进计算机系统研究中心。中心部门负责人为张科正高级工程师。
中心目前主要从事开源芯片、开源计算机系统研究,下设四个实验室:前沿系统实验室、系统结构实验室、数据系统实验室、数据计算实验室。
目前中心固定在编人员38人,其中高级职称15人,在读和访问研究生超160人。研究中心常年招聘博士后、工作人员及访问学生。以中心老师为主承担中国科学院大学本科计算机系计算机组成原理和操作系统两门核心课程的理论和实验课程教学。近年中心主要承担中国科学院战略性先导科技专项、国家自然科学基金项目、国家重点研发计划等。
中心下设4个实验室:
前沿系统实验室:主要研究方向为开源芯片生态,软硬件协同的云计算数据中心系统。在科技部重点研发计划、自然基金委国际重点合作、中国科学院战略先导项目、深圳鹏城实验室、北京智源研究院、华为阿里腾讯等企业的资助下,团队在RISC-V处理器设计、处理器敏捷设计方法等方面开展一系列前沿研究,已在国内外形成一定的影响力,与华为、阿里、腾讯、美团等公司长期合作开展云计算数据中心领域的软硬件优化技术研究。团队成员在ASPLOS、FOCS、HPCA、ISCA、MICRO、SIGCOMM、SIGMETRICS等国际一流计算机系统会议期刊发表了40余篇论文,入选2022年度IEEE MICRO Top Picks精选论文。
目前实验室开展的核心项目有:(1) 高性能RISC-V处理器核“香山”,国际上同期性能最高的开源高性能RISC-V处理器核,是国际上最受关注的开源硬件项目之一,得到国内外企业的积极支持——16家企业联合发起开源芯片创新联合体,围绕“香山”进一步联合开发,形成示范应用,加速RISC-V生态建设;(2)“一生一芯”项目,大规模芯片人才培养计划,通过融合EE、CS的教学方案指导学生独立设计一款可流片的RISC-V处理器芯片,锻炼学生的软硬件系统能力和全链条芯片设计能力,培养人才输送到高性能处理器“香山”、开源EDA、开源IP等团队和社区,为攻关“卡脖子”领域持续培养优秀的后备军;(3)信息高铁测调管控系统,信息高铁是计算所面向人机物三元融合的智能时代提出的一种新型信息基础设施,测调管控系统是信息高铁中的核心系统,通过标签化区分隔离优先化机制、OODA控制测调回环等,为应用提供云网边端全链路确定性低延迟、高通量访问等性能保障;(4)开源EDA项目,构建支持28nm工艺芯片设计的全流程(RTL到GDSII)开源EDA软件工具链,实现自动化和智能化的芯片设计流程,助力打造“使用开源EDA设计开源芯片”的生态体系,降低芯片设计门槛。
主要研究人员有:包云岗研究员、唐丹高级工程师、王卅副研究员、赵地副研究员、石侃副研究员、解壁伟助理研究员、李赫助理研究员、余子濠工程师、姚治成工程师。
系统结构实验室:实验室前身为2003年成立的国家智能计算机研究开发中心先进系统研究组,2011年转入先进计算机系统研究中心。实验室研究方向以高性能计算机体系结构为核心,包含系统软件、硬件和算法优化等。目前研究的主要方向为内存系统的访问、组织和优化,计算机系统硬件加速及云服务、数据中心网络结构及软硬件协议栈,安全计算机体系结构等。
目前实验室开展的核心项目有:(1)异步消息式访存体系结构MIMS (2) SERVE FPGA 云服务平台 (3) ”青云“高性能用户态网络议栈和高并发网络负载发生器 (4) DASICS 区域动态硬件安全隔离机制 (5) “玉泉”开源内存控制器
主要研究人员有:陈明宇研究员、张科正高级工程师、刘宇航副研究员、张文力高级工程师、常轶松高级工程师、刘珂副研究员、卢天越助理研究员、赵阳洋工程师。
数据系统实验室:以高性能数据存储系统为研究目标,面向云计算、大数据、AI应用和新兴应用对数据存取的需求,以及存储设备、网络和处理器等硬件的技术变革对软件带来的新挑战,对存储软硬件全栈展开研究,包括系统设计和原型实现。代表性工作包括数据中心分布式存储系统QWin、高性能键值数据库HiKV和LightKV、基于RISC-V的开源SSD主控器、向量化大数据分析平台VEE、全时域数据的行列混合存储系统CStream等。数据系统实验室具有浓厚的学术氛围和优秀的研究成果,先后在ATC、ICDCS、SC、MSST、PACT、ICS、IPDPS、TPDS、TACO等一流国际会议和期刊上发表论文60余篇,已授权国家发明专利50余项,发表软件著作版权10余项,获得1项国家科学技术进步二等奖和1项中国科学院杰出科技成就奖(集体)。已培养毕业生30余名,去向包括华为、腾讯等企业、Google总部和Twitter总部等外企、国外大学读博、以及自主创业等。实验室研究工作先后得到科技部国家重点研发计划项目、973计划、863计划、中国科学院战略先导项目、国家自然科学基金的资助,并与华为、阿里巴巴、百度、蚂蚁金服、商汤科技等公司开展合作研究。实验室主页:http://acs.ict.ac.cn/storage/。
目前实验室开展的核心研究项目有:(1)面向算力网的用户个人数据空间——流觞(LiuShang);(2)面向混合负载的延迟可控的分布式存储系统——扶摇(FuYao);(3)高性能分布式内存池系统——天池(TianChi);(4)基于RSIC-V的开源SSD主控平台——OpenFlash
主要研究人员有:熊劲研究员、蒋德钧副研究员、马留英工程师、张咪助理研究员、王盈助理研究员。
数据计算实验室:围绕数据库系统、大数据处理、云计算和大模型训练加速开展研究,由数据管理系统团队和云计算团队组成。
数据库系统团队:陈世敏研究员带领的数据库系统团队,从新硬件技术和新应用需求两个出发点,开展新型数据库系统的研究。在新硬件技术方面,利用非易失持久主存、多核众核处理器、软硬件协同设计等,优化数据处理的核心数据结构和算法、事务处理系统、数据分析系统。在新应用需求方面,优化数据库和大数据系统以支持高并发事务处理、大规模数据分析、以及丰富的数据类型(包括JSON、图、时序等),并利用AI技术在数据结构设计、性能调优等方面进行优化。成果发表在SIGMOD/VLDB/TODS/VLDB Journal等国际顶会顶刊,承担或参与科技部、基金委等多项纵向项目,并与华为、阿里、美团、腾讯等开展横向合作。在ICDE大会长期组织大数据新硬件技术的HardBD&Active Workshop,在中国科学院大学讲授研究生“大数据系统与大规模数据分析”课程和本科“数据库系统”课程。
云计算团队:孙毓忠研究员带领的云计算团队,关注于大规模集群或数据中心里海量并发任务高效而公平的资源分配和任务调度问题。随着云计算的兴起,团队对虚拟机、容器等虚拟化技术及其云原生如K8S下的镜像高效分发于启动、能量最小化虚拟机迁移调度策略等问题做了研究。进而,在AI特别是大规模深度学习(DL)模型风起云涌的新时代,团队研究的焦点扩展到大规模DL训练与推理的GPU集群中数据并行等并发计算调度问题,先后发展了面向医疗和计算机日志智能分析的DL模型,提出了新型的分布式梯度压缩技术和GPU集群通信卸载/调度技术等。团队在IEEE Transaction on Service Computing、ICPP、IEEE Cluster等发表论文50+,另有专利申请30+。团队的学术活动得到了科技部和基金委等项目支持,并与华为、阿里云、壁仞科技等公司展开合作。与壁仞科技的合作涉及到当前的热点ChatGPT的高效计算难题。团队获得了国家科技进步二等奖和上海市科技进步一等奖。