研究人员开创光学生成模型,引领可持续生成式AI新时代加州大学洛杉矶分校的研究团队成功创建出光学生成模型,能够利用光的物理特性而非传统电子计算来生成新颖图像。这是人工智能 (AI) 和光子学的重大飞跃。该工作发表在《自然》杂志上,研究提出了一种生成式AI新范式,可在实现可扩展高性能内容创作的同时显著降低能耗。 以扩散模型和大语言模型为代表的生成模型构成了当今AI革命的技术支柱。这些系统能生成逼真的图像、视频和类人文本,但其快速发展也伴随着高昂代价:激增的能耗需求、庞大的碳足迹以及日益复杂的硬件要求。运行此类模型需要大规模计算基础设施,引发了对其长期可持续性的担忧。 由阿伊多甘·奥兹詹教授领衔的UCLA团队另辟蹊径。他们的系统不依赖纯数字计算,而是通过光学方式执行生成过程——利用光固有的并行性和速度实现单次曝光成像。这种方法解决了AI领域的核心瓶颈问题:性能与能效的平衡。 ![]() 该模型将浅层数字编码器与自由空间衍射光学解码器集成,以一体化系统进行训练。随机噪声首先被处理为"光学生成种子",投射至空间光调制器并由激光照射。当光束穿过静态预优化的衍射解码器时,会产生符合目标数据统计分布特征的图像。与需要数百至数千次迭代步骤的数字扩散模型不同,这种成像过程仅需通过浅层数字网络进行初始编码和光照即可瞬间完成。 为验证该方法,团队在多个数据集上展示了数值模拟和实验结果。模型成功生成了手写数字、时尚单品、蝴蝶、人脸的全新图像,甚至创作出受梵高启发的艺术品。根据标准图像质量指标评估,光学生成输出在统计特性上与先进扩散模型的结果相当。模型还实现了多彩色图像生成和高分辨率梵高风格艺术创作,彰显了光学生成式AI方法的创作潜力。 研究人员开发了两种框架:单次曝光光学生成模型(通过单次光学曝光生成图像)和迭代光学生成模型(模拟数字扩散过程逐步优化输出)。这种灵活性使得同一光学硬件仅需更新编码种子和预训练衍射解码器即可执行多重任务。 ![]() 迭代光学生成模型 除高效性与多功能性外,该团队还证实光学生成模型可提供内置隐私保护功能。由随机噪声生成的单个编码相位图案,可通过不同波长光照实现多路复用,每个通道仅能由唯一匹配的衍射表面解码。这种机制创造了安全的多路复用图像生成模式——若无正确解码器,波长复用内容将无法被读取,这是标准自由空间解码技术因串扰问题无法实现的能力。 这种物理"密钥锁"机制确保未授权者无法重构传输至授权用户的波长复用生成内容,为安全通信、防伪技术和个性化内容分发提供了新可能。研究人员还指出光学生成模型在可穿戴设备领域的应用潜力,这些场景对紧凑型低功耗设计有迫切需求。 通过用纳米加工被动表面替代笨重的调制器,或采用集成光子技术,此类模型可嵌入智能眼镜、AR/VR头显或移动平台。这种实施方案将实现实时移动生成式AI,通过可穿戴便携系统将高级内容创作直接带给用户。 这项突破具有深远意义:光学生成模型可大规模降低AI的能耗足迹,在实现可持续部署的同时解锁超高速推理能力。其应用前景涵盖生物医学成像、诊断技术、沉浸式媒体和边缘计算等对低功耗分布式AI需求旺盛的领域。 论文通讯作者Aydogan Ozcan教授表示:"我们的研究证明光学技术可大规模执行生成式AI任务,通过在推理过程中消除繁重的迭代数字计算,光学生成模型为瞬时高能效AI系统开辟了新道路,这可能彻底改变日常技术。" 展望未来,团队预见到纳米加工与光子集成技术进步将催生紧凑型低成本光学生成设备。其无需数字瓶颈即可生成多样化输出的能力,有望推动安全通信、隐私保护内容传输和分布式AI系统的未来发展。 通过这项研究,UCLA研究人员还为机器创造力指明了可持续、可扩展的发展方向,标志着光子学与人工智能的融合可能改变21世纪的计算范式。 该研究的作者包括来自加州大学洛杉矶分校萨缪利工程学院的 Shiqi Chen 博士、Yuhang Li、Yuntian Wang 博士、Hanlong Chen 和 Aydogan Ozcan 博士。 相关链接:https://dx.doi.org/10.1038/s41586-025-09446-5 分享到:
|
已经是第一篇
下一篇:一种远心场镜模组和远心光学系统
|