近日,国产大模型领域动作频频,深度求索(DeepSeek)更是成为行业焦点。继推出推理大模型 DeepSeek-R1 后,1 月 28 日,深度求索再度发布开源多模态模型 Janus-Pro,其中 70 亿参数版本的 Janus-Pro-7B 模型在文本提示的图像生成排行榜上表现卓越,超越 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。
据 Github 社区信息,Janus-Pro 作为去年发布的 Janus 的高级版本,通过优化训练策略、扩展训练数据以及扩大模型尺寸,在多模态理解和文本到图像的指令遵循能力上取得显著进步,同时增强了文本到图像生成的稳定性。
就在 1 月 27 日深夜,深度求索的一系列动作引发美股市场震荡。当日美股收盘,道指微涨 0.65%,但标普 500 指数下跌 1.46%,纳指暴跌 3.07%。英伟达更是单日暴跌 16.97%,市值蒸发 5890 亿美元,创下史上最大单日个股市值蒸发纪录,创始人黄仁勋身家也大幅缩水 210 亿美元。此外,甲骨文下跌 13.78%,超微电脑下跌 12.49%,芯片制造商博通下跌 17.4%,台积电跌 13%。《华尔街日报》报道,周一的 “市场大屠杀” 使股市市值蒸发约 1 万亿美元。
消息面上,1 月 27 日早间,深度求索应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区超越 ChatGPT。深度求索是量化巨头幻方量化旗下的大模型公司,1 月 20 日发布的推理大模型 DeepSeek-R1 凭借开源特性、大幅降低的售价和训练成本迅速获得广泛关注。作为开源模型,R1 在数学、代码、自然语言推理等任务上性能比肩 OpenAI o1 模型正式版,且采用 MIT 许可协议,支持免费商用、任意修改和衍生开发。
更令人惊讶的是,据深度求索介绍,R1 的预训练费用仅 557.6 万美元,在 2048 块英伟达 H800 GPU(针对中国市场的低配版 GPU)集群上运行 55 天即可完成。市场人士认为,DeepSeek 的 R1 大型语言模型可能引发行业对大模型成本的重新评估,华尔街也开始思考科技行业巨头对 AI 基础设施的巨额投资以及对英伟达芯片的需求是否合理。
值得注意的是,近期深度求索需求火爆,AI 服务在 24 小时内多次宕机。服务状态页面显示,“近期 DeepSeek 线上服务受到大规模恶意攻击,注册可能繁忙,请稍等重试。已注册用户可以正常登录,感谢理解和支持。” 深度求索在大模型领域的持续创新和突破,无疑将对全球 AI 产业格局产生深远影响。
暂无评论...