AI精选(123)-AI领域内的最新进展:OpenAI正在与博通(Broadcom)讨论开发新的人工智能芯片

  AI精选(123)-AI领域内的最新进展:OpenAI正在与博通(Broadcom),讨论开发新的人工智能芯片

  今日精选,深度丰富、精彩纷呈!我们诚邀大家持续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值

  一、OpenAI正在与博通(Broadcom),讨论开发新的人工智能芯片

  由于依赖昂贵的图形处理单元(GPU)来开发AI模型(如ChatGPT、GPT-4和DALL-E3)存在短缺问题,OpenAI正在探索自行制造AI芯片的可能性。OpenAI已聘请了前Google员工,这些员工曾参与开发Google的AI芯片——张量处理单元(TPU)。OpenAI决定开发AI服务器芯片,以应对基础设施需求。OpenAI发言人表示,公司正在与行业和政府利益相关者进行对话,以增加获取必要基础设施的途径,确保AI的好处广泛可及。

  Bloomberg早一点的时候报道,OpenAI CEO Sam Altman计划筹集数十亿美元,建立一个与英特尔、台积电和三星电子等芯片制造商合作的半导体制造网络。

  Google成为“美国队官方AI赞助商”,将在2024年巴黎奥运会期间广泛展示其AI功能。

  NBC环球与Google的合作将在奥运会转播中突出展示Google的AI功能。转播中将使用Google Maps的3D视图展示凡尔赛宫、罗兰·加洛斯球场和水上运动中心等场馆。这些图像来自Google Maps近几年添加的沉浸式视图,提供逼真的地标和兴趣点模型。转播中还将通过Google搜索AI概览回答奥运和残奥会相关问题。

  还将有AI生成的Al Michaels回顾环节,希望这些功能能正常运作。喜剧演员Leslie Jones将使用Gemini学习新运动,五名奥运和残奥会运动员将在社交视频和深夜节目中使用Gemini、Google Lens和Google Maps沉浸式视图探索巴黎。

  Nvidia和法国初创公司Mistral AI共同发布了新的语言模型“Mistral-NeMo”。该模型拥有120亿参数和128,000个token上下文窗口,旨在将强大的AI功能直接带到企业台式电脑。

  Nvidia的应用深度学习研究副总裁Bryan Catanzaro强调了该模型的可访问性和效率。该模型在Apache 2.0许可下发布,允许商业使用。

  Nvidia和Mistral的合作标志着AI行业在企业解决方案方面的重要转变,目标是让先进的AI功能更加普及。较小的模型更加易于运行,可以在用户自己的系统上运行,例如RTX GPU。这款模型的128,000个token上下文窗口允许处理和理解比竞争对手更大块的文本内容。

  Mistral-NeMo的效率和本地部署能力对有数据隐私需求或有限互联网连接的企业尤其有吸引力。

  OpenAI 发布了 GPT-4o mini,这是一款成本效益高的人工智能模型,性能接近 GPT-4-Turbo,但价格仅为每百万输入/输出令牌 15/60 美分。在其平台上测试了 GPT-4o mini 的早期版本 “upcoming-gpt-mini”,并在 Arena 中获得了超过 6000 个用户投票,表现出色。官方版本的 GPT-4o mini 已经在 Arena 中进行了展示,正在继续收集用户投票,以便更新到性能排行榜上。OpenAI 宣布了 GPT-4o mini 的可用性,并在其博客上发布了与之相类似的文章,讨论了这款新模型如何推动成本效率的AI发展。社会化媒体上的用户对 GPT-4o mini 的性能表示惊讶,并对其成本效益和与 OpenAI 的合作伙伴关系提出了讨论。2]

  Meta 在 HuggingFace 平台上发布了 Chameleon-7b 和 Chameleon-30b 模型,这些模型能够同时处理文本和图像的输入与输出,实现创意的跨模态生成。Chameleon 系列模型采用 early-fusion 方法,通过统一的 token-based 架构,从头开始训练,能够生成任意序列的文本和图像。模型在多项任务中表现出色,包括视觉问答、图像描述、文本生成、图像生成和长篇混合模式生成,特别在图像描述任务中取得了领先水平。尽管当前版本的模型检查点不支持图像生成功能,但用户和研究人员正在努力重新启用这一功能,并且有相关的进展。Chameleon 模型的使用受到自定义的非商业许可证限制,虽然引发了关于“非商业”定义的讨论,但为研究人员和教育工作者提供了使用权限。chameleon[1]

  AI-MO/NuminaMath-7B-TIR 是一个 70 亿参数的语言模型,专对于数学问题解决,采用工具集成推理(TIR)技术。该模型通过两阶段监督微调,首先在自然语言数学问题和解决方案数据集上微调,再在模拟推理的合成数据集上进一步微调。模型基于 deepseek-ai/deepseek-math-7b-base,在 AI Math Olympiad(AIMO)中获得第一名的进步奖,显示出在竞赛级数学问题上的优异性能。尽管在 AMC 12 水平的问题上表现良好,但模型在更高级别的 AIME 和数学奥林匹克问题上,特别是几何问题上,存在解题挑战。模型的训练使用了 Adam 优化器和余弦学习率调度器,在多 GPU 环境下进行,并提供了引用格式以便用户在使用时进行适当的认可。NuminaMath-7B-TIR[2]

  关键成就:已发布 SOLO-7B 模型及预训练代码,并在 arXiv 上公开了相关论文,标志着项目的重要里程碑。

  未来规划:计划发布指令调优代码和数据混合集,提供详尽的预训练指导,以进一步扩展模型的应用。

  MoE 模型概述:混合专家(MoE)模型通过引入专家网络和路由机制,有效增加大型语言模型(LLMs)容量,提升性能,同时控制计算开销。

  MoE 分类与设计:论文提出了新的 MoE 分类法,区分了算法设计(稠密、稀疏、软 MoE)、系统模块设计(计算、通信、存储优化)和应用领域(NLP、CV、RecSys、Multimodal)。

  系统模块设计优化:MoE 模型的系统设计需要考虑稀疏计算的并行策略,包括数据并行、专家并行和张量并行,以及如何减少通信开销和内存占用。

  跨领域应用:MoE 模型在多个领域展现出色表现,能够在不同的任务和数据类型中实现性能的显著提升。

  未来挑战与趋势:未来的 MoE 研究将关注如何逐步优化模型的可扩展性、应对系统模块设计挑战,并推动 MoE 模型在更广泛领域的应用。SOLO[4]

  MoE 模型概述:混合专家(MoE)模型通过引入多个专家网络和一个路由网络,实现了大规模模型容量的扩展,并在多个领域展现了卓越的性能。

  架构创新:MoE 模型分为稠密、稀疏和软 MoE 三种类型,分别适应不一样的应用场景,提高了模型的灵活性和计算效率。

  系统优化:针对 MoE 模型的特点,研究者们在计算、通信和存储方面做了深入的优化,以提升其在分布式环境中的性能。

  跨领域应用:MoE 模型在自然语言处理、计算机视觉、推荐系统和多模态领域得到了广泛应用,显示出其强大的泛化能力。

  训练与推理策略:研究者们提出了多种创新的训练和推理方案,如稠密到稀疏的过渡以及专家模型的合并,以适应 MoE 模型的特殊架构。MoE 模型[5]

  苹果公司宣布发布了其 70 亿参数的基础语言模型 DCLM-Baseline-7B,旨在通过数据筛选技术提升性能。该模型在 2.5 万亿词元上训练,具备 2048 词元的上下文长度,为 AI 语言研究提供强大支持。提供了相关研究论文、GitHub 仓库和电报频道链接,方便社区成员学习和交流。

其他人还喜欢