CUDA
显卡厂商NVIDIA推出的运算平台
CUDA(Compute Unified Device Architecture)是NVIDIA推出的通用并行计算平台和编程模型,支持C、C++、Python等语言,实现CPU与GPU协同计算。
发展现况
政策影响
2025年12月美国宣布允许英伟达H200芯片对华出口,具体于12月8日正式实施,允许向中国“经批准的客户”出售。但收取25%的分成费用,同时Blackwell和Rubin架构仍受出口限制,推动英伟达H200进入中国市场但维持关键技术出口壁垒。
黄仁勋通过长达数月的游说,包括造访佛罗里达华盛顿、随特朗普总统出访和出席国宴、向白宫宴会厅建设工程捐款,成功解锁禁运令。受这一利好消息推动,英伟达股价盘后应声上涨。
尽管H200获准出口,华为昇腾、阿里平头哥等国产芯片性能已接近H200,中国云厂商自研芯片的成熟度降低了对英伟达的依赖,形成技术替代的竞争格局。
技术挑战
2025年12月,中国国产GPU公司如摩尔线程沐曦等相继上市,但面临英伟达CUDA生态壁垒的严峻考验。
CUDA生态覆盖全球95%以上的AI开发者,支持PyTorchTensorFlow等所有主流框架。CUDA生态壁垒在AI应用爆发之年显得愈加坚不可摧,导致国产GPU厂商面临重大挑战。英伟达为构建CUDA生态,连续10年投入20%以上营收,通过高校合作、开源社区和软硬件垂直优化形成护城河。客户迁移生态的成本远高于购买新硬件的成本,由于框架兼容和算子适配困难,国产GPU的硬件性能在实际应用中大打折扣。例如,在2025年中国移动的招标项目中,昆仑芯在“类CUDA生态”标段中标份额第一,合计中标金额超10亿元,这体现了国产AI芯片在兼容性方面的实际进展。国产GPU公司采取不同策略突破生态,如摩尔线程通过兼容CUDA和落地AI训推一体芯片,沐曦专注于数据中心绑定大客户。例如,摩尔线程于2025年12月20日举行了首届MUSA开发者大会,发布了全新一代全功能GPU架构“花港”、AI训推一体芯片“华山”、高性能图形渲染芯片“庐山”,并强调MUSA架构与英伟达GPU生态兼容,使开发者能够以较低成本利用国际主流生态代码资源。与此同时,英伟达的主要客户如亚马逊、谷歌和微软正在加速普及自研AI芯片。谷歌TPU通过9年时间和超过2000名工程师投入才实现生态突破,但初创公司难以复制。亚马逊发布Trainium3芯片,训练速度比前代快4倍,成本减半,可节省50%训练费用;谷歌推出TPU v7 Ironwood,性能提升,能效领先20%;微软自研芯片Maia部署但量产推迟。这些举措通过JAX、Neuron SDK等工具蚕食CUDA生态优势。华为在算力端构建自主生态替代CUDA,已获大客户采购,形成竞争压力。短期内,CUDA生态的网络效应、GPU在混合负载场景的灵活性仍无法被替代,英伟达将继续主导中小规模训练、边缘推理市场。摩根大通研报预计到2028年英伟达GPU在AI芯片市场的份额将从当前的46.5%降至40%左右,但仍是绝对主力。新闻显示,英伟达在AI GPU市场原先高达95%的份额因失去中国市场而下滑,且客户集中度高,其中Meta计划在2027年部署谷歌TPU,绕过英伟达。AMDCEO苏姿丰认为自研芯片可能占据20-25%市场份额,2026年将迎来性能vs成本的巅峰对决,自研芯片成本优势显著。2025年12月推出的CUDA 13.1引入Tile IR低级虚拟机,通过Tile编程方式优化矩阵运算,该技术仍深度绑定英伟达硬件语义。
2025年12月16日,英伟达宣布收购AI软件公司SchedMD。其开源软件Slurm是生成式AI的关键基础设施,被广泛用于管理模型训练与推理需求,并已支持最新英伟达硬件。英伟达表示将继续以开源方式分发该软件以应对竞争。
2025年12月24日,英伟达宣布以200亿美元现金与AI芯片初创公司Groq达成技术许可协议。
生态投资
英伟达还创办了“初创加速计划”,旨在通过提供技术辅导、融资对接、产品支持等路径孵化新型企业,已为上千家初创机构提供资源扶持,但蹊跷的是,这其中几乎没有来自中国大陆的初创企业获得了直接资金支持。英伟达2025年参与的AI融资已达50笔,超过2024年全年总和,2023年至今其参投的单笔过亿美元的企业达31家,总投金额超500亿美元,但反常识的事实在于,这31家企业中没有一家中国大陆公司。直到今年1月,英伟达参与了数字孪生技术公司 MetAI(宇见智能)的 400 万美元种子轮融资,这是其在中国台湾的首笔创业投资。
更新发展
NVIDIA CUDA-X 基于 CUDA 构建,包含用于构建应用的多种微服务、库、工具和技术;与其他替代产品相比,这些构建出来的应用可在数据处理、AI 和高性能计算 (HPC)领域带来更显著的性能提升。
CUDA-X 微服务由 NVIDIA 的 CUDA 专家打造,是一系列封装为云 API 的开发者工具、GPU 加速库和技术。
CUDA-X 库基于 CUDA 构建,可简化 NVIDIA 加速平台在数据处理、AI 和 HPC 领域的采用。凭借 400 多个库,开发者可以使用 CUDA 平台轻松跨 PC、工作站、云端和超级计算机构建、优化、部署和扩展应用。
2025年12月,NVIDIA发布CUDA 13.1版本,引入CUDA Tile编程范式,通过Tile IR低级虚拟机将传统的单指令多线程(SIMT)模式转变为基于图块的编程模型。该技术使开发者只需关注核心逻辑,由板载编译器自动处理GPU参数优化,优化结构化矩阵数学和卷积运算性能。
典型 CUDA 库以及相关应用:
中国国产GPU厂商采取异构混训策略,允许在计算集群中混合使用英伟达华为寒武纪等不同品牌GPU,通过构建兼容性计算环境突破CUDA生态壁垒。
此次更新通过编程模型抽象化显著扩大开发者受众,其技术实现依赖英伟达硬件优化的Tile IR虚拟机,在降低基础开发门槛的同时形成更高维度的生态绑定。
应用范围
计算行业正在从只使用CPU的“中央处理”向CPU与GPU并用的“协同处理”发展。为打造这一全新的计算典范,NVIDIA发明了CUDA(Compute Unified Device Architecture,统一计算设备架构)这一编程模型,该架构已应用于Geforce、ION、Quadro以及Tesla GPU上。
在消费级市场上,几乎每一款重要的消费级视频应用程序都已经使用CUDA/ZLUDA加速或很快将会利用CUDA来加速。
在科研界,CUDA已应用于图像与视频处理、计算生物学和化学、流体力学模拟、CT图像再现、地震分析以及光线追踪等领域,其CUDA-X扩展架构显著提升科学计算效率。
2025年AI推理市场爆发式增长背景下,CUDA-X生态凭借其成熟的开发框架与计算库仍保持主流地位。国产GPU厂商通过超节点集群扩展方案提升算力规模,但在开发工具链成熟度方面仍需持续演进。
在金融市场,Numerix为近400家金融机构所广泛使用,其发布的CUDA支持实现了18倍速度提升。
全球财富五百强企业已安装700多个GPU集群,涉及能源领域的斯伦贝谢雪佛龙以及银行业的法国巴黎银行
在中国市场,摩尔线程等国产GPU厂商构建的云边端全栈AI产品矩阵,应用于AI计算加速、图形渲染及物理仿真领域。
CUDA-X扩展架构集成400多个加速库和云API工具,覆盖数据处理、人工智能和高性能计算领域。
概述
CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型。它通过利用图形处理器 (GPU) 的处理能力,可大幅提升计算性能。
基于 CUDA 的 GPU 销量已达数以百万计,软件开发商、科学家以及研究人员正在各个领域中运用 CUDA,其中包括图像与视频处理计算生物学和化学、流体力学模拟、CT 图像再现、地震分析以及光线追踪等等。
发展历程
随着显卡的发展,GPU越来越强大,而且GPU为显示图像做了优化。在计算上已经超越了通用的CPU。如此强大的芯片如果只是作为显卡就太浪费了,因此NVIDIA推出CUDA,让显卡可以用于图像计算以外的目的。
G80核心之后的的显卡都能使用CUDA,工具集的核心是一个C语言编译器。G80中拥有128个单独的ALU,因此非常适合并行计算,而且数值计算的速度远远优于CPU。
CUDA的SDK中的编译器开发平台支持Windows、Linux系统,可以与Visual Studio2005,2008,2010集成在一起。
CUDA(Compute Unified Device Architecture)是一个新的基础架构,这个架构可以使用GPU来解决商业、工业以及科学方面的复杂计算问题。它是一个完整的GPU解决方案,提供了硬件的直接访问接口,而不必像传统方式一样必须依赖图形API接口来实现GPU的访问。在架构上采用了一种全新的计算体系结构来使用GPU提供的硬件资源,从而给大规模的数据计算应用提供了一种比CPU更加强大的计算能力。CUDA采用C语言作为编程语言提供大量的高性能计算指令开发能力,使开发者能够在GPU的强大计算能力的基础上建立起一种效率更高的密集数据计算解决方案。
从CUDA体系结构的组成来说,包含了三个部分:开发库、运行期环境和驱动(表2)。
开发库是基于CUDA技术所提供的应用开发库。CUDA的1.1版提供了两个标准的数学运算库——CUFFT(离散快速傅立叶变换)和CUBLAS(离散基本线性计算)的实现。这两个数学运算库所解决的是典型的大规模的并行计算问题,也是在密集数据计算中非常常见的计算类型。开发人员在开发库的基础上可以快速、方便的建立起自己的计算应用。此外,开发人员也可以在CUDA的技术基础上实现出更多的开发库。
运行期环境提供了应用开发接口和运行期组件,包括基本数据类型的定义和各类计算、类型转换、内存管理、设备访问和执行调度等函数。基于CUDA开发的程序代码在实际执行中分为两种,一种是运行在CPU上的宿主代码(Host Code),一种是运行在GPU上的设备代码(Device Code)。不同类型的代码由于其运行的物理位置不同,能够访问到的资源不同,因此对应的运行期组件也分为公共组件、宿主组件和设备组件三个部分,基本上囊括了所有在GPGPU开发中所需要的功能和能够使用到的资源接口,开发人员可以通过运行期环境的编程接口实现各种类型的计算。
由于存在着多种GPU版本的NVidia显卡,不同版本的GPU之间都有不同的差异,因此驱动部分基本上可以理解为是CUDA-enable的GPU的设备抽象层,提供硬件设备的抽象访问接口。CUDA提供运行期环境也是通过这一层来实现各种功能的。基于CUDA开发的应用必须有NVIDIA CUDA-enable的硬件支持,NVIDIA公司GPU运算事业部总经理Andy Keane在一次活动中表示:一个充满生命力的技术平台应该是开放的,CUDA未来也会向这个方向发展。由于CUDA的体系结构中有硬件抽象层的存在,因此今后也有可能发展成为一个通用的GPGPU标准接口,兼容不同厂商的GPU产品。
工具包
是一种针对支持CUDA功能的GPU(图形处理器)的C语言开发环境。CUDA开发环境包括:
nvcc C语言编译器
·适用于GPU(图形处理器)的CUDA FFT和BLAS库。
·适用于GPU(图形处理器)的gdb调试器(在2008年3月推出alpha版)
·CUDA运行时(CUDA runtime)驱动程序(在标准的NVIDIA GPU驱动中也提供)。
CUDA编程手册
CUDA开发者软件开发包(SDK)提供了一些范例(附有源代码),以帮助使用者开始CUDA编程。这些范例包括:
· 并行双调排序
· 利用计时器进行性能评价
· 并行大数组的前缀和(扫描)
· 图像卷积
· 使用Haar小波的一维DWT
· OpenGLDirect3D图形互操作示例
· CUDA BLAS和FFT库的使用示例
· CPU-GPU C—和C++—代码集成
· 二项式期权定价模型
· Monte-Carlo期权定价模型
· 并行Mersenne Twister(随机数生成)
· 并行直方图
· MathWorks MATLAB®
新的基于1.1版CUDA的SDK范例也已经发布了。
技术功能
· 在GPU(图形处理器)上提供标准C编程语言
· 为在支持CUDA的NVIDIA GPU(图形处理器)上进行并行计算而提供了统一的软硬件解决方案
· CUDA兼容的GPU(图形处理器)包括很多:从低功耗的笔记本上用的GPU到高性能的,多GPU的系统。
· 支持CUDA的GPU(图形处理器)支持并行数据缓存和线程执行管理器
· 标准FFT(快速傅立叶变换)和BLAS(基本线性代数子程序)数值程序库
· 针对计算的专用CUDA驱动
· 经过优化的,从中央处理器(CPU)到支持CUDA的GPU(图形处理器)的直接上传、下载通道
· CUDA驱动可与OpenGL和DirectX图形驱动程序实相互操作
· 支持Linux 32位/64位以及Windows XP 32位/64位 操作系统
· 为了研究以及开发语言的目的,CUDA提供对驱动程序的直接访问,以及汇编语言级的访问。
背景介绍
协同处理并行计算架构。该架构正运用于英伟达™ (NVIDIA)Tesla™、英伟达™ QuadroNVIDIA Quadro)以及英伟达™ 精视™(NVIDIA GeForce)GPU上。对应用程序开发商来说,英伟达™ CUDA™ 架构拥有庞大的用户群
在科学研究领域,英伟达™ CUDA™ 受到狂热追捧。例如,英伟达™ CUDA™ 能够加快AMBER这款分子动力学模拟程序的速度。全球有6万余名学术界和制药公司的科研人员使用该程序来加速新药开发。在金融市场,Numerix和CompatibL已宣布在一款对手风险应用程序中支持英伟达™ CUDA™ ,而且因此实现了18倍速度提升。
在GPU计算领域中,英伟达™ Tesla™ GPU的大幅增长说明了英伟达™ CUDA™ 正被人们广泛采用。全球《财富》五百强企业已经安装了700多个GPU集群,从能源领域中的斯伦贝谢和雪佛龙银行业中的法国巴黎银行,这些企业的范围十分广泛。
最新修订时间:2025-12-26 19:25
目录
概述
发展现况
参考资料