05.计算集群当代与未来发展#

Author by: 陈悦孜

云与大数据时代 1995-2020#

1995年后,互联网和云计算兴起,催生更多集中算力需求,传统“机房”升级为新形态“数据中心”,进入数据中心时代算力服务也变得灵活多样。

第一阶段在20世纪90年代早期,电信企业主要面向大型企业提供机房托管服务,以基础电信运营商为主体的服务商主要提供主机托管和电力、带宽、通信设备等基础设施服务;到20世纪90年代中期至2004年是第二阶段,在互联网高速发展的推动下,网络数量激增带来了互联网设备集中放置和维护需求的显著增长,数据中心服务从单纯的主机托管扩展至网站托管,并开始提供数据存储管理、安全管理、网络互联等增值服务,成为企业IT基础设施的核心组成部分;第三阶段从2005年至今,在数据爆炸式增长、摩尔定律失效和云计算技术发展的共同驱动下,计算能力已转变为"所见即所得"的公共服务,数据中心呈现出向集中式大电厂模式发展的趋势,在保留传统IDC业务的同时拓展了新型网络应用服务,具体表现为数据中心朝着大型化、虚拟化、综合化的云计算数据中心方向演进,通过规模化运营有效降低能耗,并采用高性能基础架构实现资源的按需分配和弹性服务,完成了从基础托管到智能化云服务的全面转型。

云与大数据时代发展三大阶段

第三代的计算机#

在第三阶段的云与大数据时代,算力发展持续突破,单台大型机演变为多服务器集群架构。单台大型机有超大内存和存储容量,全机一套操作系统,单总线互连,堆叠CPU来增加算力;将这些单台机作为独立计算节点互连成集群,每个节点一套操作系统,实现超高速网络大规模互联的超强算力能力和拓展能力。如下图分别为单台大型机和互连集群。

单台机和集群

在云与大数据时代的算力服务背景下,如下图单台大型机架构展现出分层融合的技术特征:其底层基于z/OS、GCOS、OS/400等传统操作系统构建逻辑分区,通过事务处理器和作业控制系统支撑COBOL、PL/I、ASM等传统语言的运行环境,同时处理顺序/索引数据和关系型数据;中间层通过Heriloom Computing等工具与第三方工具实现数据迁移、应用安全、批处理和在线服务等基础设施功能;而在现代化转型层面,该架构通过JDBC接口兼容PostgreSQL等新型数据库,依托Java技术栈构建弹性批处理平台和弹性事务处理平台,最终通过REST接口与AWS等云平台的目录服务实现深度集成,形成支持Windows/Linux虚拟机的开放系统与云端协同运行的全新架构体系。

单台大型机

数据中心时代的Iaas 基础设施即服务#

90年代随着互联网诞生和蓬勃发展,很多公司开始推行信息化。建设网站、搭建邮件、FTP、OA办公自动化等服务器。

云服务提供商(如 AWS 、Microsoft Azure 、Google Cloud Platform 等)负责提供并维护底层的 IT 基础设施,托管运营商机房,租用运营商场地/电力/网络带宽,代为管理和维护。

Iaas

数据中心时代的Paas 平台即服务#

某一台服务器上,通过虚拟主机软件,虚拟出N个网站主机,出租给N个客户使用。除网站之外,还出现了数据存储空间租用等多样化的服务。

Paas示意图如下。

Paas

在数据中心向云服务演进的过程中,平台即服务(PaaS)作为云计算的核心服务模式逐渐成熟。PaaS(Platform as a Service,平台即服务)云计算一种服务模式,为开发者提供完整开发和部署环境,用户可以在这个平台上开发、测试、部署和管理应用程序,而无需关心底层的基础设施。其技术演进始于虚拟化技术的突破——VMWare作为x86架构虚拟化领域的先驱,开创性地通过虚拟主机软件在单台服务器上虚拟出多个网站主机,使多家客户能够共享物理资源。这种模式不仅实现了网站托管服务,还催生了数据存储空间租用等多样化服务,为云计算下一阶段的诞生奠定了技术基础。2022年6月,博通宣布以610亿美元收购VMWare并承担其80亿美元净债务,这一交易凸显了虚拟化技术的持续价值。

Paas-2

随着技术发展,PaaS已演进为为开发者提供完整开发和部署环境的云服务模式,用户无需关心底层基础设施即可进行应用开发、测试、部署和管理。而当前PaaS层的技术标准已由Docker和Kubernetes(K8s)共同定义——前者以容器化技术实现了跨环境一致性,后者作为容器编排平台成为管理分布式应用的业界标准,二者共同构成了现代PaaS平台的核心技术基石。

数据中心时代的Saas 软件即服务#

云计算阶段,虚拟化技术出现后,可以将同一台物理服务器虚拟成N个独立的虚拟机。既可以将虚拟机作为主机完整租借给客户,也可以将运行于虚拟机上的平台服务和软件服务提供给客户。

SaaS(Software as a Service,软件即服务) 是云计算的一种服务模式,它通过互联网提供完整的应用程序,用户无需安装和维护软件,只需通过浏览器或客户端访问即可使用。

这一服务架构的核心遵循亚马逊云计算确立的基础原则:所有功能接口都必须以Web Service的形式呈现,确保了服务的标准化、可扩展性和跨平台访问能力。

Saas

数据中心时代发展:Iaas,Paas,Saas#

IaaS、PaaS、SaaS 是云计算发展的三个层次,分别提供基础设施、开发平台和软件服务,推动企业实现资源灵活配置、应用快速开发与高效数字化转型。

Iaas,Paas,Saas

第一张图通过分层架构的形式清晰展示了云计算三种服务模式(IaaS、PaaS、SaaS)的技术栈构成与管理责任划分。从底层的基础设施到顶层的应用程序,所有服务模式共享相同的九个技术层级:服务器、存储、网络、虚拟化、操作系统、中间件、运行时环境、数据和应用。然而,关键区别在于管理责任的划分——在IaaS模式中,云服务商负责管理虚拟化及以下的基础设施层(包括服务器、存储和网络),用户则需管理操作系统及以上的所有层级;在PaaS模式中,云服务商的管理责任延伸至运行时环境,用户仅需关注应用和数据的管理;而在SaaS模式中,云服务商承担从基础设施到应用程序的全部九层管理责任,用户只需直接使用最终的应用服务。

第二张图则从用户视角揭示了不同服务模式的目标用户群体及其使用方式。SaaS(软件即服务) 直接面向终端用户,提供开箱即用的软件应用。用户无需关心技术实现细节,只需通过浏览器或客户端即可使用完整功能,如AWS中的Amazon Workspaces虚拟桌面服务。PaaS(平台即服务) 主要服务于软件开发人员,提供完整的开发和部署环境。开发者可以专注于应用程序代码和数据的构建,而无需管理底层基础设施,典型代表如AWS Elastic Beanstalk应用托管平台。IaaS(基础设施即服务) 面向IT架构师和网络工程师,提供虚拟化的计算资源。这些专业人员可以灵活配置和管理服务器、存储、网络等基础资源,例如通过AWS EC2实例构建定制化的基础设施环境。

数据中心发展#

在大数据时代强劲驱动下,IDC行业正迎来前所未有的发展机遇。互联网数据量以每年50%的增速持续扩张,这意味着数据总量在不到两年的时间内即可实现翻番,其中90%以上的全球数据都是在最近几年新产生的。然而,在IDC产业快速扩张的同时,行业也面临着严峻的成本与能耗挑战:数据中心的总拥有成本(TCO)包括资本支出(CAPEX)和运营支出(OPEX)正在迅速攀升,尤其以能源消耗问题最为突出。据统计,中国数据中心年总耗电量已高达约两千亿度,这既反映了IDC行业的发展规模,也凸显出其在绿色节能与可持续发展方面亟需优化与突破。

数据中心发展

谷歌#

谷歌通过在全球自建23个超大规模数据中心,以“规模化共享经济效益”取得了巨大成功。其创新建设模式采用一体化仓储级计算机架构,结合节能联合设计理念,显著降低了总体拥有成本。更值得关注的是,谷歌在这些仓储级数据中心中开创性地引入TPU异构加速技术,这一关键突破不仅极大提升了计算效率,更直接推动了现代云计算与AI融合的新型数据中心的成熟演进。

谷歌自建数据中心

Facebook#

Facebook于2011年发起并主导的开放计算项目(Open Compute Project,OCP),旨在通过开源开放的模式重构数据中心硬件技术体系,推动包括服务器、存储设备、网络设备和基础设施在内的下一代数据中心创新硬件发展。这一非营利组织汇聚了谷歌、微软、百度、腾讯、阿里巴巴等全球互联网巨头,以及Intel、ARM、IBM、浪潮等产业链核心供应商,形成了跨行业协同创新的生态联盟。

目前,OCP已在机架式和整机柜高密度服务器、新一代数据中心管理架构等领域实现数百万台规模的商业化部署,同时正积极拓展AI加速器、开源交换机、操作系统等新兴技术领域的标准制定与测试验证,成为当前高性能计算领域最具影响力的开放硬件技术项目,持续引领数据中心基础设施的变革与创新。

Facebook发起OCP

阿里#

阿里巴巴通过推行“去IOE”战略,成功实现了其数据中心架构从专有、封闭的定制化体系向通用、开放的标准化体系的转变。“去IOE” 是中国IT领域,特别是阿里巴巴在2008-2013年间提出并成功实施的一个标志性技术战略。它的核心含义是在企业的IT架构中,摆脱对三家美国公司(IBM、Oracle、EMC)提供的昂贵、封闭的集中式商业软硬件产品的依赖,转而采用成本更低、更开放、更易扩展的分布式开源技术和通用商用硬件。其核心举措是采用成本更低的标准化软件和硬件,例如以开源的MySQL数据库替代Oracle数据库,用普通的PC服务器取代EMC的存储设备和IBM的小型机。这一行动不仅打破了国外厂商在高端集中式计算系统领域的长期垄断,降低了技术依赖和成本,更构建起一个自主可控、更具弹性且成本优化的新一代数据中心技术底座,为其业务的快速扩张和云计算服务的崛起奠定了坚实基础。

阿里发起去IOE策略

摩尔定律终结#

在当前各厂商加速技术创新的背景下,数据中心产业正面临一个关键转折点:摩尔定律已逐渐走向终结。然而,未来计算负荷仍呈现指数级增长趋势,这意味着若无法依赖单机算力的持续提升,唯一的应对路径就是通过构建更多数据中心来满足需求。展望未来,数据中心的工作负荷将持续增加,其整体计算能力有望以每十年增长十倍的速度实现跨越式发展,如下图所示,每年的CPU计算能力提升迅猛。这一趋势将形成良性的技术循环:计算能力的规模化提升将直接推动软件创新的突飞猛进,而软件技术的突破又将反过来进一步释放和增强计算潜力,从而形成创新加速的飞轮效应,驱动整个数字生态向更高层次演进。

CPU发展

本节视频#