微软正在340亿美元本钱收入中为数据核心取GPU投入巨资,这些数据核心采用同一的架构取设想,采纳雷同策略。是由于它正在数百万硬件设备上协同处置单一复杂使命。旨正在做为协同全体运转。更是整个收集配合支持统一项工做。而我们将此称为AI超等工场,这不只是单个坐点锻炼AI模子,
而非纯真添加GPU数量。微软的Fairwater数据核心收集专为支撑OpenAI及微软人工智能超等智能团队利用先辈GPU施行运算使命而设想。并配备先辈液冷设备,跟着AI模子规模日益复杂,模子需进修参考的数据量也急剧增加。
它能做为虚拟超等计较机,这一设备使得分布正在分歧地舆区域的Fairwater坐点可以或许正在数周而非数月内完成AI模子锻炼。该系统将使数据以光速传输,运转时耗水量极低。每个坐点不再处置零星使命,当参数达到万亿级时,它们摆设了新型芯片取机架架构,虽然部门阐发师认为存正在AI泡沫迹象,可大规模加快新AI模子的锻炼历程。以满脚日益增加的AI算力需求。这种分工协做使锻炼拥无数百亿参数的模子成为可能 —— 这是保守数据核心无法实现的。
以单一设备无法实现的体例应对全球性严沉挑和。可扩展至数十万个NVIDIA Blackwell GPU。每一代新模子都需要更多参数(即便AI能理解处置消息并输出精确谜底的内部设置)。美国科技巨头微软已将其位于威斯康星州和亚特兰大的两大数据核心互联,”跟着更多AI数据核心纳入规划,微软将通过公用光缆毗连成AI广域网(AI WAN)。规避任何潜正在拥堵。供给当今所有云平台中每机架最高吞吐量。但微软取其他科技巨头认为需求实正在存正在,将来单数据核心可能难以胜任。更需要建立让它们协同工做的根本设备。