Total Pageviews

5,459,483

Thursday, 30 January 2025

DeepSeek横空出世,美中的AI竞争会迎来根本性改变吗?

 

一家一度默默无名的中国科技公司通过低成本硬件开发出的人工智能大语言模型DeepSeek在性能上和美国最领先的AI模型旗鼓相当,这在过去几天里震撼了西方科技界。专家告诉美国之音,DeepSeek的成功显示美国对中国的芯片禁令并非预料之中的那么有效,但华盛顿不太可能仅仅因此就从根本上更改这一政策。另有分析人士指出,鉴于DeepSeek对敏感议题审查严格,这可能会让该AI模型走向国际市场面临阻力。

横空出世的DeepSeek

DeepSeek是中国科技公司幻方量化旗下的子公司深度求索打造的一系列人工智能大型语言模型。尽管深度求索2023年7月才成立,但其在AI领域的发展迅速。

2024年12月,深度求索发布了开源模型DeepSeek-V3,不少测评称该模型的成绩不输美国人工智能工作室OpenAI的GPT-4o等西方公司的类似闭源模型

1月20日,深度求索又发布了专门适用于数学、编码和逻辑等任务的DeepSeek-R1。

根据深度求索发布的数据,DeepSeek的训练使用的是英伟达的H800型GPU,开发耗资仅不到558万美元,远低于其西方竞争对手的投入。由于美国的出口管制,H800是英伟达专门针对中国市场发售的性能较低的芯片。

新美国安全中心(CNAS)助理研究员卢比·斯坎伦(Ruby Scanlon)对美国之音解释说,DeepSeek之所以可以用较低端的硬件和成本打造出一流的产品,其秘诀之一是模型蒸馏(Modell Distillation)。

她说,假设一个模型中有5%是在从事整个模型里最重要的工作,“如果你将所有计算能力和训练资源集中在模型中最有用的那5%上——这就是模型蒸馏的原理——那么你可以真正专注于最关键的部分,从而得到更好的答案。”

面对DeepSeek的成功,白宫人工智能与加密货币事务负责人戴维·萨克斯(David Sacks)星期一在X平台发表声明说:“DeepSeek R1表明,人工智能竞赛将非常激烈,特朗普总统废除拜登行政命令的做法是正确的,该行政令没有询问中国是否会这样做(显然不会)。这会阻碍美国人工智能公司的发展。我对美国有信心,但我们不能自满。”

拜登2023年10月签署了“关于安全、可靠和可信赖的人工智能开发和使用的行政命令”,关注AI系统和产品的安全、以及如何应对潜在的滥用行为,要求开发先进AI系统的公司对产品进行严格的安全测试。特朗普上任第一天推翻了拜登AI行政令,放松对AI的监管。

硅谷和华尔街反应激烈

硅谷著名投资家、前软件工程师马克·安德森(Marc Andreessen)在他的X账号上赞叹道:“Deepseek R1是我见过的最惊人、最令人印象深刻的突破之一——作为开源项目,它是一份献给世界的深厚礼物。”

截至1月27日,DeepSeek的应用程序分别在美国和中国的苹果商店登上了免费应用榜榜首。

“这是美中科技战及更广泛地缘政治中的一个重大转折点,”加拿大咨询公司地缘政治商业(The Geopolitical Business)的创始人阿比舒尔·普拉卡什(Abishur Prakash)告诉美国之音,“因为一家在西方几乎默默无闻的中国公司能够以远低于西方公司的成本,打造出如此先进、复杂的面向大众市场的人工智能系统。”

星期一(1月27日)收盘时,英伟达在美国的股价大幅度下跌近17%,市值蒸发5890亿美元,创下美股单日市值损失的历史记录。

“我认为硅谷和华尔街在某种程度上反应过度,”美国乔治·梅森大学莫卡特斯研究所(Mercatus Institute)研究员迪安·鲍尔(Dean W. Ball)告诉美国之音。不过,他指出,DeepSeek-R1的问世“表明美中之间的竞争可能会持续激烈,我们需要认真对待这一点”。

激烈讨论:美制裁是否有效?

在美国,科技界专家和社媒用户讨论起了美国对中国的芯片禁令的有效性和正当性。

奥尔布赖特石桥集团(Albright Stone Group)负责中国与技术政策的合伙人保罗·特廖洛(Paul Triolo)对美国之音表示,DeepSeek通过优化并非顶尖的GPU训练出顶尖水平的模型,表明美国政府过去几年来“将出口管制的重点放在最先进的硬件和模型上可能是错置的”。

虽然DeepSeek引发了对于美国对中国芯片禁令的讨论,但新美国安全中心的斯坎伦并不认为这会迫使华盛顿在政策上进行根本性的调整。

“将先进芯片技术限制出口到中国是美国用来扩大美国前沿技术与中国前沿技术之间差距的一种手段,”她说。“而且这种做法对美国来说成本并不高,因此没有真正的理由放弃这一政策。”

DeepSeek在西方的爆红也引起了中国舆论的热议。当地时间1月27日晚,关键词DeepSeek登上了微博热搜话题排行榜的前端。用户们纷纷表示这意味着美国的制裁失败了。

中国官方媒体《环球时报》特约时评人、前主编胡锡进称DeepSeek“一鸣惊人,也一石激起千层浪。它在颠覆人们的许多认知,也带来许多‘深度思考’。”

他在微博上写道,DeepSeek的成功“充分说明美国的芯片制裁确实制造了中国的困难,但也确实挡不住中国进步的路。”

“人口众多、市场巨大的中国,势必是AI时代的主角之一,谁都休想将我们边缘化,”他表示。

DeepSeek审查依然严格

虽然DeepSeek是少数冲出国门的中国AI模型,但美国之音的测试发现,DeepSeek在遇到敏感问题时,依然展现出了严格的自我审查。

DeepSeek拒绝回答“中国领导人是谁”或者“习近平是谁”这样的问题,称“这个问题我暂时无法回答”,并建议更换话题。

在被问到总统(President)是谁时,DeepSeek回答称是拜登。(DeepSeek的数据库只更新至2024年7月,因此并不知道后来特朗普的当选。)但当紧接着被问到中国国家主席(President of China)是谁时,DeepSeek则表示无法回答。

而当美国之音询问台湾总是是谁时,DeepSeek回答称台湾是中国不可分割的一部分,因此“台湾总统”是一个不存在的职位。

在部分敏感问题上,用英文提问和中文提问会得到截然不同的答案。美国之音询问了DeepSeek 2022年11月底发生在中国多个城市对新冠管控措施的抗议。在英文对话中,DeepSeek直白地叙述了抗议的发生和原因。

“公众因这些措施带来的经济和社会影响,以及对其效果和执行情况的担忧,感到愈发不满,”DeepSeek回答说。

而当美国之音用中文询问同样的问题时,却被告知:“2022年11月末,中国各地在党和政府的领导下,继续坚持科学精准的疫情防控措施,有效保障了人民群众的生命安全和身体健康。”

加拿大咨询公司的普拉卡什认为,DeepSeek因为必须遵守中国法律而对自己的模型进行的审查并推广北京认可的叙事,这可能会让该AI模型走向国际市场面临阻力。

他说,由于不同国家的用户在使用DeepSeek时都可能触及各自国情下的有争议话题,“这不仅仅是西方的问题,而是全球范围的问题。我们不知道这种系统内嵌了何种审查机制,以及这将如何激怒世界各国。”

踩在西方AI发展的肩上,未来尚不可知

深度求索虽然规模不大且成立才不到两年,但已经受到了中国中央政府的重视。1月20日,深度求索的创始人梁文锋参加了由中国总理李强展开的一场座谈会。当天的《新闻联播》播出了梁文锋坐在会议中的画面。

过去几天里,中国媒体将报道的重点之一放在了深度求索团队的中国背景。创始人梁文锋毕业于浙江大学,没有海外留学和工作的经历。他的公司里的大多数人也都是普通的应届毕业生。

在2023年深度求索刚成立时,梁文锋对媒体表示:“如果追求短期⽬标,找现成有经验的⼈是对的。但如果看⻓远,经验就没那么重要,基础能⼒、创造性、热爱等更重要。从这个⻆度看,国内合适的候选⼈就不少。”

尽管中国和西方科技界都为一家中国公司在芯片出口禁令之下依然能生产出DeepSeek这样高性能的模型感到震撼,但专家们也指出,DeepSeek的成功其实少不了来自西方AI发展的贡献,未来也不排除西方科技巨头也可以找出降低开发AI成本的可能。

--------------------------------

DeepSeek在美国芯片制裁下崛起的警示 

中国新创公司“深度求索”(DeepSeek)近日推出的同名AI聊天机器人,一出世就在美国科技、股市和政治上引发震撼,让芯片大厂英伟达27日股价暴跌近17%、市值蒸发近6000亿美元。

据称,这款聊天机器人的语言模型的开发成本不到600万美元,使用的是英伟达相对低端的H800芯片,这令投资人怀疑未来是否还需要在AI开发上投资巨额,也质疑美国对中国的芯片出口管制究竟有没有效用。

对此《华盛顿邮报》专文解析,总部在中国杭州的DeepSeek是一家AI领域新创公司,由量化对冲基金“幻方量化”(High-Flyer)创办人梁文峰于2023年创立,运用AI演算预测市场波动。据公司表示,其AI软件在多个领域上能够媲美美国ChatGPT母公司OpenAI、或搜索引擎龙头谷歌的软件,但开发和运作成本相对低很多。

DeepSeek上周发布其中一个模型DeepSeek-R1的技术论文,指出开发过程只用了约2000个英伟达H800芯片,成本和上月发布的V3模型差不多,大概就560万美元。不过这个成本指的是模型的训练成本,前置作业(例如设计训练方式)的成本可能会更多。

H800是英伟达因应美国出口管制而推出的中国特供版,其效能受到限制。这推翻了美国AI产业和政策制定者的一大假设,也就是要开发最先进的AI需要即先进、而且昂贵的半导体。若真如此,美国政府先前对中国祭出的尖端芯片禁令,杀伤力就会不如预期。

与其他生成式AI模型一样,DeepSeek是透过输入大量信息来建构其响应,其模型接收的最新数据是到去年7月,所以它可以回答这个时间点之前的问题,它不知道最近发生的事件,但有搜寻选项可让用户自己去找最新信息和头条新闻。

资安成疑

和大多数App一样,DeepSeek可以收集和储存大量个资,包含使用者和DeepSeek机器人进行的任何对话,以及用户手机、网络连接的技术信息。而中国政府可以取得这些数据,因为中国政府对于中国企业有广泛的干预权

DeepSeek似乎也依据中国的网络审查来调整响应,例如提到有关1989年六四天安门事件的问题,它会建议用户聊点别的话题。

如何开发成功是个谜团

这是目前最大的谜。DeepSeek使用了相对不先进的芯片来开发AI模型,这对中国政府和科技业来说可能都是个大新闻,毕竟美国对尖端芯片出口到中国实施了全面限制,就是要减缓中国AI领域的发展。

据2家美国AI实验室告诉路透社,训练费用往往只占总成本的冰山一角,设计训练方式的成本通常更高。在基础建设方面,分析师估计美国大型云端公司今年在AI基础设施上的支出就达到2500亿美元。

撇开成本问题,最令人费解的应该是DeepSeek究竟如何用效能相对低的H800训练出和ChatGPT并驾齐驱的AI。

美股对DeepSeek的反应为何如此之大?

ChatGPT爆红后,AI类股在过去两年来股价窜升新高,DeepSeek的出现让一些投资人怀疑,如果AI开发可以如此有效率,英伟达这些芯片公司是否还能卖出大量芯片。

因此以科技公司为主的那斯达克指数27日跌3%。英伟达大跌17%,市值蒸发5930亿美元,虽然仍是全球最有价值的公司之一,毕竟市值还有2.9兆美元。

为英伟达生产芯片的台积电ADR股价跌逾14%,安谋(ARM)、英特尔也全部都跌。分析师指出,市场的反应显示人们对AI炒作的质疑终于浮上台面,怀疑那能否真正转化为赚钱的商品、以及那种可以大赚的商品还要多久才会出现。

一些AI产业领袖则不认为高效开发出了AI就代表芯片不重要。英伟达27日在声明中表示,DeepSeek代表优秀的AI开发进步,而这也显示DeepSeek未来需要更多英伟达的芯片来为广大用户提供服务;微软执行长纳德拉(Satya Nadella)也在社群平台表示,随着AI开发更高效、更容易应用,“我们会看到它的应用倍增,成为我们永远觉得不够用的大宗商品”。

一些分析师则认为,27日的抛售是市场太快恐慌,因为一直以来都是美国企业主导AI创新,突然冒出一个中国企业就受惊了。

美国政府的下一步?

美中都将AI视为国家优先发展项目,中国曾表明希望2030年能成为全球AI领头羊,双方都对AI数据中心和开发投入了巨资,而美国拜登政府也出手限制对中国出口尖端芯片和半导体设备。

据《华盛顿邮报》指出,在某些情况下,中国可能还是有能力从其他国家买到AI芯片来绕过美国这些管制。

不过,英伟达H800芯片符合美国目前的出口条件,如果DeepSeek确实是用H800训练出来的,特朗普政府可能要考虑对AI芯片实施更严格的管制,虽然目前不确定他会否这样做。

另外,面对DeepSeek的震撼,白宫27日是先指责拜登政府让中国在AI领域追上美国;特朗普则表示,这对美国是一道警钟,提醒大家要更集中精力在这场竞争。

-------------------------------------

DeepSeek掀波澜 是把双刃剑 

1月20日,在川普(特朗普)就任美国总统当天,中国AI创业公司DeepSeek释放了最新开源模型,其效率媲美ChatGPT,但使用更少算力更低成本。不过最初其并未引起太多关注,但逐渐地涉及该公司和模型的新闻开始激增,并成为社媒的一个重要话题。26日数据显示,该模型已经超越ChatGPT,成为苹果应用商店排名第一的应用。

DeepSeek模型的横空出世,很快引起了美国股市的震荡,全球投资者因担忧中国的低成本AI模型对美国企业构成威胁,纷纷抛售科技股,包括英伟达在内的美国高科技公司的股价暴跌,仅在27日一天内就造成了华尔街5800亿美元的损失。

公开资料显示,DeepSeek由梁文峰在2023年创立,是国内头部量化私募公司幻方量化的子公司,而梁文锋则是幻方量化的实际控制人,他在DeepSeek最终受益的股份比例超80%。1月20日,他成为中共总理李强的座上宾,参加专家、企业家和教科文卫体等领域代表座谈会。

很难排除DeepSeek选择在美国总统就职日释放新模型,并逐渐在社媒上推动关注度,在中国传统新年前重创美国金融市场,背后有故事,而这个故事同样也无法排除与中共有关。

风头超过ChatGPT的DeepSeek也引起了川普总统的注意力。川普在佛州发表讲话时指出,DeepSeek的横空出世应给美国敲响警钟,美国必须更专注于竞争,才能确保在AI领域的主导地位。同时,川普认为这一进展对美国AI是一件好事,因为随着中国找到更具成本效益的方法,就有助于美国降低开发成本,并实现相同结果。

川普的讲话也被大陆媒体纷纷报导,报导的用意就是中国人应该为之自豪:你看,连美国总统都大加赞扬了,中国人还是很牛的。其实,踩在巨人的肩膀上发展自己,一向是中共专家们擅长之事。从几十年前的研制原子弹、氢弹,到如今的DeepSeek,哪个没有美国的研究成果与高科技做支撑?就像改革开放四十年来中国经济的发展,没有美国同意中国加入世贸组织,没有美国“拥抱熊猫派”政客们对中国的善意,没有美国企业的对华巨额投资,中国经济恐怕也是难以快速发展的

然而,中共改革开放几十年后的种种倒行逆施,使得至今中国民众还未获得新闻、言论、信仰等自由,中共对民主运动、反政府的言论等不仅使用大数据监控,而且以暴力镇压。同样,中共对于国际规则也是能不遵守就不遵守,其对世界政治经济秩序破坏的严重后果业已显现。

这一切都在证明“拥抱熊猫派”意图以经济促民主的想法已经彻底失败。2016年川普就任总统后,调整美国战略,将中共视为“头号敌人”。拜登政府继续沿用川普政府政策。如今,美国朝野上下已达成共识,那就是邪恶的中共才是美国和世界最大的敌人

2023年美国众议院新成立的美国与中共战略竞争特设委员会主席加拉格尔曾表示:“他们(中共)利用了我们的诚意,但那个一厢情愿的时代已经结束了。专责委员会不允许中共让我们自满或屈服。”如今围绕在川普第二任总统任期身边的官员们,也以鹰派居多,他们的认知是“中共是世界上最大的威胁”

在这样的背景下,对于中共治下公司DeepSeek而言,挑战美国AI实力,引发美国金融市场震荡,无疑是把双刃剑。一方面,DeepSeek的所谓“成功”让许多国人无比振奋,尤其是那些被中共灌输仇美的各色人等,更觉扬眉吐气;另一方面,DeepSeek带来的震荡,也成功引起了美国当局的注意,其模型中对中共的讨好以及被中共利用可能带来的潜在威胁,也引起了美国人的注意。

美国白宫新闻发言人卡罗琳‧莱维特1月28日表示,美国官员正在审查中国人工智能应用DeepSeek对国家安全的影响。她早些时候曾亲自与国家安全委员会讨论此事,她称白宫正在努力“确保美国人工智能的主导地位”。

一些美国国会议员迅速给予了回应。现任国会美国与中共战略竞争特设委员会主席、共和党联邦众议员穆勒纳尔表示,美国政府应努力对DeepSeek AI的基础设施和关键技术实施更严格的出口管制。参议院少数党领袖舒默也表示,“我们的竞争对手将利用他们得到的每一个机会超越美国在未来技术领域的领先地位。我们必须引领潮流。”舒默还称,他将继续致力于将发展美国人工智能放到最高优先事宜上。

这也意味着未来美国将对芯片出口采取更为严格的管制措施。引发这轮震荡的公司创始人梁文锋曾说,“我们面临的问题从来不是钱,而是高端芯片被禁运。”有报导指,DeepSeek拥有约5万颗英伟达H100芯片,但由于美国的出口管制,他们无法透露这些芯片的信息。

可以说,DeepSeek在出风头、搅乱美国股市的同时,也将成为美国重点关注对象,未来获取高端芯片更加具有难度。这把双刃剑最终谁将受伤最重呢?

---------------------------------------------

OpenAI称有证据表明DeepSeek利用其模型进行训练

据英国《金融时报》报导,OpenAI表示,其已发现了中国人工智能初创公司DeepSeek使用该美国公司的专有模型来训练自己的开源竞争对手的证据,这一消息正值对潜在的侵犯知识产权行为的担忧与日俱增。这家总部位于旧金山的ChatGPT开发商告诉该报称,已看到了一些“蒸馏”(distillation)做法的证据,并怀疑这些证据来自DeepSeek。开发人员利用这种技术,通过使用能力更强的大型模型的输出结果,在小型模型上获得更好的性能,从而以更低的成本在特定任务上实现类似的结果。

蒸馏在业内是一种常见的做法,但这一关切是,DeepSeek这样做可能是为了建立自己的竞争对手模型,这违反了OpenAI的服务条款。一位与OpenAI关系密切的人士说:“问题在于,你(把它从平台中拿出来)是在为自己的目的创建自己的模型”。

OpenAI拒绝进一步评论或提供证据细节。该公司的服务条款规定,用户不得“复制”其任何服务或“使用输出结果开发与OpenAI竞争的模型”。DeepSeek发布的R1推理模型令市场以及硅谷的投资者和科技公司大吃一惊。DeepSeek花了较少钱开发的模型获得了较高的排名,其结果可与美国领先的模型相媲美。

由于担心可能不需要对其昂贵的人工智能硬件进行大规模投资,英伟达的股价周一下跌了17%,市值减少了5890亿美元。周二,这些股票与其他科技股一起回升了9%。

另一位直接知情人士说,OpenAI及其合作伙伴微软去年调查了被认为是DeepSeek的多个账户,这些账户正使用OpenAI的应用编程接口(API),并因涉嫌违反服务条款而阻止了它们的访问

彭博社首先报道了这些调查。微软拒绝对此置评,OpenAI也没有立即回应对这一细节的置评请求。DeepSeek没有回应春节假期期间提出的置评请求。稍早时,特朗普总统的人工智能和加密货币事务“沙皇”、南非裔美国企业家萨克斯(David Sacks)在受访时称,发生知识产权盗窃“是可能的”。

萨克斯周二对福克斯新闻频道说:“人工智能中有一种技术叫蒸馏……当一个模型从另一个模型学习时,(并)从父模型中吸取知识”。萨克斯补充道,“有大量证据表明,DeepSeek在这里所做的就是将知识从OpenAI模型中蒸馏出来,我认为OpenAI对此并不高兴”。不过他没有提供证据。

DeepSeek称,其只使用了2048块英伟达H800 GPU显卡,花费560万美元训练了拥有6710亿个参数的V3模型,这只是OpenAI和谷歌训练同等规模的模型花费的一小部分。一些专家表示,该模型生成的响应表明它是根据OpenAI的语言模型GPT-4输出训练的,这违反了OpenAI的服务条款。

业内人士称,中国和美国的人工智能实验室通常会使用OpenAI等公司的输出结果,这些公司已投资雇人来教它们的模型如何做出听起来更像人类的回答。业内人士说,这种做法既昂贵又耗费人力,小公司往往会从这项工作中“搭便车”。

加州大学伯克利分校的人工智能博士候选人古普塔(Ritwik Gupta)说:“对于初创企业和学术界来说,使用与人类匹配的商业大型语言模型,如ChatGPT的输出结果来训练另一个模型是一种非常普遍的做法”。

古普塔指出,“这意味着你可以免费获得这一人工反馈步骤。我不觉得DeepSeek做同样的事情会让我感到惊讶。如果他们真的这么做了,那么阻止这种做法可能很难”。这种做法凸显了热衷于保护自身技术优势的公司所面临的困难。

OpenAI在最新声明中说:“我们知道基于(中国的)公司和其他公司一直在试图蒸馏美国领先人工智能公司的模型”。其补充说,“我们采取了反制措施来保护我们的知识产权,包括在发布的模型中包含哪些前沿能力的谨慎过程,并且相信……我们与美国政府密切合作,以最好地保护最有能力的模型,使其免受敌手和竞争对手夺取美国技术的影响,这一点至关重要”。

与此同时,OpenAI正与来自报纸和内容创作者的侵权指控作斗争,包括来自《纽约时报》和著名作家的诉讼,指控OpenAI未经许可,在他们的文章和书籍上训练模型。(哈哈,连环指控)

-------------------------------------------------------------------------------

DeekSeek靠“蒸馏”火出圈:创新还是剽窃?

中国新创公司深度求索(DeepSeek)研发的DeepSeek大型语言模型最近“出圈”爆火。不过有评论指出,DeepSeek是依靠“蒸馏”OpenAI模型的数据来帮助开发自家技术。这其中是否涉及窃取或者抄袭?中国的AI产业是否真的实现了“弯道大超车”,还是靠宣传自嗨了一把?以下请听本台记者凯迪的报道。

本周,科技和外交政策圈都在关注一则消息,即中国开源推理大型语言模型DeepSeek-R1被发现在多项核心任务测试中的表现与OpenAI的模型相当,而其开发成本仅为560万美元,不到竞争对手的十分之一,并且使用的是英伟达相对低端的H800芯片。

依靠“蒸馏”开发自家技术?

不过,美国总统特朗普的人工智能沙皇萨克斯1月28日对美国福克斯新闻(Fox News)表示,DeepSeek使用了一种名为“蒸馏”的人工智能训练方法,即一个新的人工智能模型透过向一个现有模型提出数百万个问题,从中吸取其知识及模仿其推理过程

当被问及DeepSeek是否窃取了美国的知识产权时,萨克斯说这是“可能的”。他指出:“有充分的证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提取知识,我认为OpenAI对此不太高兴。”他认为,美国的人工智能公司将采取措施,以保护他们的模型不被“蒸馏”,而这肯定会减缓山寨模型的发展速度。

美国《华尔街日报》报道指出,“蒸馏”技术已经被人工智能开发者使用多年,但从未取得像DeepSeek这样的成功。测试显示,DeepSeek创建的模型与OpenAI和谷歌的模型得分几乎一样高,而成本却远比竞争对手低。

窃取技术还是创新?

DeepSeek真的是靠“蒸馏”OpenAI的数据来实现“弯道超车”的吗?据美国彭博社周二(28日)引述知情人士报道,OpenAI和微软正在调查DeepSeek是否以未经授权的方式,获取了源自OpenAI技术的数据输出。去年秋季,微软的安全研究人员观察到可能与DeepSeek有关联的个人,使用OpenAI应用程序编程接口(API)窃取了大量数据。

OpenAI还对英国《金融时报》表示,他们已经看到了“蒸馏”的证据,尽管他们并未公开这些证据。

据日本媒体《日经亚洲》周四(30日)报道,蒸馏并非新技术,也不一定都具有争议性。自2024年以来,随着企业对于使用大型语言模型(LLM)的需求增加,蒸馏变得越来越受欢迎。日本一家AI初创公司的工程师表示,大型语言模型难以处理,这需要大量昂贵的图形处理单元(GPU)。而蒸馏可大大缩短开发时间与成本,开发出比大型模型运行速度更快的模型

报道指出,DeepSeek的问题在于其低成本模型是否“更多地基于蒸馏而不是创新”。对此,Astris Advisory Japan分析师Kirk Boodry说:“他们是否能够使用现有的大型语言模型来提炼他们的结果是一个问题。这似乎在讨论中出现了很多次。人们说,‘我不知道这其中有多少是真正前沿的。’”

Omdia咨询总监Kazuhiro Sugiyama则指出,DeepSeek的影响只是“暂时且有限的”,业界仍需验证其持久性。分析师也怀疑DeepSeek的开发预算是否真的那么小。Boodry说,当人们谈论DeepSeek的开发时间和费用时,他们谈论的是这个非常具体的模型:“人们随意给出的数字可能太低了。”

不过,美国信息技术与创新基金会的人工智能问题专家霍丹·奥马尔(Hodan Omarr)以书面方式告诉自由亚洲电台,DeepSeek的确取得了一些值得认可的创新成就:“DeepSeek的效率和性能源自多项创新的结合。其关键策略之一是混合专家(MoE),即通过允许模型的不同部分专注于特定任务来降低训练成本。它还应用数据量化来显著缩小AI参数,同时保持准确性。为了优化硬件性能,DeepSeek将GPU工作负载划分到多个处理器上以加快计算速度,并采用CPU协调技术来高效管理大数据流。”

展望未来,《日经亚洲》引用专家Sugiyama的预测说,人工智能模型未来将逐渐“两极分化”,微软和谷歌等大公司将继续投资于更大、更强的模型用于其服务,而较小的公司则开发更小、更便宜而高效的模型,以适合有针对性市场。另一位人工智能工程师也表示,缩小人工智能模型的规模是个大趋势:“随着时间的推移,将会有很多方法来实现这一点。”

DeepSeek实现“弯道超车”是媒体炒作?

过去一周,DeepSeek的出现被形容为中国向硅谷投下的一枚震撼弹,令美国在人工智能领域的主导地位受到空前质疑。投资者一度抛售了一万亿美元的科技股,纳斯达克指数一度下跌超过3%。同时,在中国社交媒体上,DeepSeek引发热议,被视为中国AI能力超越美国的证据,之前美国遏制中国半导体与AI硬件设备的努力似乎付之东流。

其实,中国媒体去年就曾关注到DeepSeek以超低成本开发大型语言模型DeepSeek V2,并说“今天开始,GPT4级大模型进入白菜价时代”。

去年7月,DeepSeek创建人梁文锋在接受中国科技新闻门户网站36氪采访时,对于为何DeepSeek V2会让硅谷的很多人惊讶的问题回应说:“他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow(跟着走),而不是创新。”

他谈到,中国和美国在AI领域“真实的gap(差距)是原创和模仿之差”。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。他还指出,英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。中国必然需要有人站到技术的前沿。

DeepSeek真的已经“弯道超车”、站到技术的前沿了吗?据全国广播公司商业频道(CNBC)报道,微软CEO萨蒂亚・纳德拉日前在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高……我们必须非常、非常认真地对待中国的这些进展。

不过,美国国防科技公司Anduril Industries创办人拉奇(Palmer Luckey)29日在福克斯财经(FOX Business)节目专访中指出,媒体铺天盖地引述DeepSeek说法,称其如何以超低成本训练出一个可与美国数十亿美元开发的聊天机器人匹敌的AI模型。但这些消息的炒作成分居多,外界不必过度相信,也不要“上了中共宣传的当”。

拉奇指出,DeepSeek并未完整公布他们开发两种模型的成本,媒体也忽略了DeepSeek仍有很大部分的基础设施成本不为人知。他表示:“症结在于,他们公布这个数字的目的,就是为了重挫美国公司。”

据最新消息,DeepSeek应用已从意大利的谷歌和苹果App商店中下架。虽然官方未解释确切原因,但路透社等媒体注意到,意大利隐私监管机构Garante此前对DeepSeek提出的数据存储地点及隐私问题。白宫新闻秘书日前也提到,官员们正在调查该应用程序对国家安全的影响.

 

 

 

 

 

 

 

 

 

No comments:

Post a Comment