欧美日韩一区二区视频在线观看_欧美日本一区_av中文字幕在线播放_亚洲精品四区_人人爽日日爽_亚州成人

DeepSeek:邁向全社會分享的普遍智能

5個月前 來源:文匯報 觀看:62

 mOu即熱新聞——關注每天科技社會生活新變化gihot.com

  ?mOu即熱新聞——關注每天科技社會生活新變化gihot.com

去年春節,美國OpenAI開發的視頻生成AI工具Sora橫空出世,成為世界關注的焦點。今年春節前夕,一家低調的中國AI企業DeepSeek推出的開源大模型在全球引發了不啻Sora的震撼——它在模型算法和工程優化方面所進行的系統級創新,為在受限資源下探索通用人工智能開辟了新的道路,并為打破以“大模型、大數據和大算力”為核心的生成式AI“擴展定律”天花板帶來了無限遐想。

過去幾周,DeepSeek超越ChatGPT,登頂蘋果美國地區應用商店免費App下載排行榜。1月28日,美國“外交學者”網站(The Diplomat)發表題為《中國的DeepSeek是美國人工智能的“斯普特尼克時刻”》的文章指出,DeepSeek此次的開源之舉延續了OpenAI的初心使命——為了人類利益推動人工智能發展。

DeepSeek的出圈,再次印證了一個科技創新硬道理:贏得比賽的關鍵是精益求精、富有創造力的創新,而非單純的金融實力和一味的出口管制。

“大力出奇跡”并非AI唯一出路

2019年,人工智能領域強化學習鼻祖、DeepMind研究科學家、加拿大阿爾伯塔大學計算機學教授理查德·薩頓發表了一篇題為《苦澀的教訓》的文章,認為“縱觀過去70年的AI發展歷史,想辦法利用更大規模的算力總是最高效的手段”。

在“數據是燃料、模型是引擎、算力是加速器”這一深度學習理念支持下,以Transformer為基本模型的生成式AI(如ChatGPT等)不再從互聯網中搜索和羅列已有的匹配信息,而是從海量數據中洞悉單詞與單詞之間的共現概率,以組合意義下“昨日重現”方式合成眾所周知的語言內容。

Transformer是2017年谷歌公司提出的一種新型深度神經網絡,其核心在于通過自注意力機制讓每個單詞記住在不同語境下的“左鄰右舍”,然后以似曾相識之感來概率合成新的內容。“Transformer”這一名字或許受到了電影《變形金剛》的英文名“Transformers”的啟發,因此可以將合成內容的生成式AI看成一個“魔鏡”,它能夠根據輸入內容如變魔術般輸出與之對應的內容。

由于每個單詞要記住越來越多不同語境下的“左鄰右舍”,因此模型參數不斷增多而導致模型規模不斷增大,隨之出現了大模型的“擴展定律”(Scaling Law),即隨著模型規模、訓練數據和計算資源的增加,模型性能會得到顯著提升,并且這些關系遵循可預測的模式。

面對越來越大的模型,訓練模型所需的AI算力不斷飆升,“大力出奇跡”這一算力霸權開始左右人工智能的發展。英偉達創始人兼首席執行官黃仁勛據此提出過“黃氏定律”:在計算架構改進的推動下,人工智能芯片的性能每年可提升1倍,速度遠超集成電路領域的摩爾定律。

人工智能“擴展定律”雖然也需要算法和系統創新,但是這一“無他、但手熟爾”的模式不應是AI發展的唯一出路,因為“化繁為簡、大巧不工”才是推動“機器學習”邁向“學習機器”的初衷。

“萬物之始,大道至簡,衍化至繁”,以簡單直接思路解決復雜問題才是科學研究之道。1953年,諾貝爾物理學獎得主恩利克·費米提 到,馮·諾依曼曾對他說 過,用4個參數就能畫出一頭大象,用5個參數就可以讓象鼻子動起來。英國數學家雅各布·布魯諾斯基也曾提到,馮·諾依曼認為圍棋不是博弈,雖然因為計算復雜而難以找到答案,但在理論上,下圍棋一定有個最佳落子方案。

這些故事告訴我們,用簡單方法解決復雜問題是科學研究基本思路之一。正如愛因斯坦所言,“所有科學中最重大的目標就是從最少數量的假設和公理出發,用邏輯演繹推理的方法解釋最大量的經驗事實”。由此可見,DeepSeek的研發初心切合了大模型發展的內在邏輯,為遏制其規模“瘋長”勢頭提供了一劑良藥。

從“學而不思則罔”到“思而不學則殆”

能用眾力,則無敵于天下矣;能用眾智,則無畏于圣人矣。DeepSeek的精彩表現在于其對算法、模型和系統等進行的系統級協同創新,是眾智和眾力相互疊加的成果。

應該說,DeepSeek模型仍是基于此前的Transformer架構,沒有實現改變游戲規則的顛覆性基礎理論創新。但是,它在模型算法和工程優化方面進行了系統級創新,在2048塊英偉達H800 GPU(針對中國市場的低配版GPU)集群上完成訓練,打破了大語言模型以大算力為核心的預期天花板,為在受限資源下探索通用人工智能開辟了新的道路。其算法和工程創新主要包括混合專家模型、低秩注意力機制、強化學習推理、小模型蒸餾,以及諸如FP8混合精度和GPU部署優化等工程創新。

其中,混合專家稀疏模型與傳統大語言模型“眾人拾柴、咸與維新”的路徑不同,它另辟蹊徑利用了“術業有專攻”的理念,每次讓若干個合適專家協作發揮各自能力,完成特定任務。

實際上,人腦也是一個稀疏模型。雖然人腦由800多億個神經元和100萬億個突觸連接而成,但它在完成識人辨物和舉手投足等任務時,每次只有一小部分神經元被激活。實現“弱水三千,只取一瓢飲”,且讓被選擇的若干專家能夠以“十個指頭彈鋼琴”的形式,負載均衡地合作完成任務,而不是“三個和尚無水喝”——這正是DeepSeek所做出的難得的算法創新。

低秩注意力機制的引入使DeepSeek在保持模型性能的同時顯著降低了計算和存儲成本。人類在理解外界信息時,往往看到的是內嵌在信息中的本質結構。例如,我們理解一篇文章,更關切若干單詞組合所刻畫的主題概念,而非單詞從頭到尾的羅列。傳統大模型中的注意力機制由于需要記錄每個單詞在不同上下文中的左鄰右舍,因此變得龐大無比。DeepSeek對這一巨大的注意力機制矩陣進行了壓縮,從而極大提升了模型運行效率。

在強化學習推理方面,傳統大模型訓練時采用了“授之以魚,不如授之以漁”的方法,即人類給出大量思維鏈數據,通過監督式微調來讓大語言模型仿照思維鏈完成相應任務。但DeepSeek的做法則如同讓一個天才兒童在沒有任何范例的指導下,完全通過“嘗試與試錯”來不斷探索未知空間,并利用已有經驗不斷取得進步,最終完成從“摸著石頭過河”到“先知后行”的蝶變。

而且,DeepSeek進一步提出了讓模型從若干答案中進行比較的選擇方法,以實現自我提升。

這種直接訓練方法不僅耗時更短、計算資源需求大幅減少,更讓模型學會了思考,而且是以見證“啊哈時刻(Aha Moment)”(指讓用戶眼前一亮時刻)的頓悟方式思考。

但值得注意的是,該方法難免導致推理過程難以被溯源和理解等局限。為此,DeepSeek收集了一部分思維鏈數據,引入冷啟動和有監督微調等方法,對模型進行再次訓練,從而讓模型在保持強大推理能力的同時,還學會了用人類易懂的方式表達思維過程。

廣受關注的“模型蒸餾”就是讓小模型模仿大模型回答問題的結果,來提升自身能力。比如,在對一篇文章分類時,大模型認為該文章以85%、10%和5%的概率分別屬于正面、負面和中性等不同情感類別。小模型就從大模型輸出的結果中認真思考,不斷調整參數,以期望繼承大模型能力,從而輸出類似結果。

由于神經網絡有強大的非線性映射能力,蒸餾學習不僅沒有導致“東施效顰”的笑話,反而使得大模型的能力之道以“他山之石、可以攻玉”的蒸餾之術遷移到了小模型。這不禁讓人感嘆,對于大模型而言,“學而不思則罔”;對于小模型而言,“思而不學則殆”。

智能時代,教育何為?

人工智能是一種類似于內燃機或電力的“通用目的技術”,天然具備“至小有內,至大無外”推動學科交叉的潛力。無論是從人工智能角度解決科學問題(AI for Science,如利用人工智能預測蛋白質序列的三維空間結構),還是從科學的角度優化人工智能(Science for AI,如從統計物理規律角度優化神經網絡模型),未來的重大突破都將源自于這種交叉領域的工作。

如果說過往的技術發明是從機械化增強角度提升人類與環境的互動能力,那么人工智能的出現將對人類的這一根本能力和角色發起挑戰——生成式人工智能的出現使得智能機器成為知識生產的輔助者,這將深刻改變個體學習者的自主思考、判斷、學習能力,乃至倫理道德觀。

如何看待一項新技術的發展,這是進行技術預測的一項必需認知準備。遺憾的是,人類總是習慣于線性思維(這符合人類自然的認知模式:節省能量與快速計算),但這種認知配置很容易出現認知偏差,其中最常見的就是對于技術近期與遠期影響的判斷出現不對稱性——短期內傾向于高估技術的影響,長期內低估技術的影響,即美國科學家羅伊·阿瑪拉提出的“阿瑪拉法則”。

那么,隨著智能時代的來臨,如何通過教育體系的變革來應對這一時代之變?在浙江大學2024年6月發布的《大學生人工智能素養紅皮書》中,我們提出,大學生人工智能素養是由體系化知識、構建式能力、創造性價值和人本型倫理構成的有機整體,其中知識為基、能力為重、價值為先、倫理為本。

目前,浙江大學和復旦大學等高校已將人工智能作為全校大學生通識必修課程。而且,浙江大學、復旦大學、上海交大、南京大學、中科大和同濟大學已在四年前共同推出“課程共建、學分互認、證書共簽”的AI+X微專業,今年還將推出升級版,以進一步加強人工智能通識教育和交叉學科教育。

2024年春節,我為文匯報撰寫《Sora“超級涌現力”將把AI引向何方》的文章,今年春節又為DeepSeek撰稿。雖然希望人工智能年年有精彩,但我更期盼全社會分享的普遍智能到來。

DeepSeek模型特點速讀

混合專家稀疏模型

DeepSeek的基座模型V3采用了混合專家機制,每一個Transformer層包含256個專家和1個共享專家,V3基座模型總共有6710億參數,但每次token僅激活8個專家、370億參數。這一創新算法與稠密模型相比,預訓練速度更快;與具有相同參數數量的模型相比,具有更快的推理速度。

低秩注意力機制

低秩注意力機制又被稱為多頭潛在注意力機制。DeepSeek引入“低秩”這一概念,對巨大的注意力機制矩陣進行壓縮,減少參與運算的參數數量,從而在保持模型性能的同時顯著降低計算和存儲成本,把顯存占用降到了其他大模型的5%—13%,極大提升了模型運行效率。

強化學習推理

DeepSeek這次在訓練推理模型中直接采用了一條前所未有的“純”強化學習路徑,僅根據模型輸出答案優劣以及輸出答案格式完整等簡單信息,對模型行為進行獎懲。

該方法不僅對計算資源的需求大幅減少,還可讓模型以“頓悟”的方式學會思考,并用人類易懂的方式表達思維過程。

模型蒸餾

為了讓簡潔緊湊的小模型具備DeepSeek-R1那樣的推理能力,DeepSeek開發團隊采用蒸餾方法來增強小模型的推理能力,即讓小模型模仿大模型回答問題的結果,來提升自身能力。

工程創新

DeepSeek使用FP8混合精度加速訓練并減少GPU內存使用,使用DualPipe算法(即將前向和后向計算與通信階段重疊,以最大限度減少計算資源閑置)提升訓練效率,并進行了極致的內存優化。他們開發了一套完善的數據處理流程,著重于最小化數據冗余,同時保留數據的多樣性。mOu即熱新聞——關注每天科技社會生活新變化gihot.com

本文鏈接:http://www.gxcspki.cn/news-8-1199-0.htmlDeepSeek:邁向全社會分享的普遍智能

聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。

上一篇:山東化工技師學院舉辦第47屆世賽化學實驗室技術項目技能競賽技術交流及工作總結會議

下一篇:港中大成立致真交叉數學科學院,丘成桐任創院院長

為你推薦
為提升遼寧省中職學校學生干部的能力素質,培養一支具有高度責任感、優秀管理能力和良好道德品質的學生干...
01-21
詩韻東湖,文潤華章。2025年1月19日,第二屆“東湖杯”校園現代詩歌大賽頒獎典禮在沈陽化工大學新時代雷鋒...
01-21
  安徽農信系統反腐工作正在持續深入推進。2025年伊始,安徽省紀檢監察網站通報了兩起農信系統...
01-22
  近日,央行披露4家銀行大額罰單,包括一家國有大行、三家股份行因涉及多項反洗錢領域違規被處罰...
02-06
巨蟹座的男生通常溫柔、敏感且注重家庭,他們對愛情充滿了幻想和浪漫。要搞定一個巨蟹男...
01-22
天秤男是一個非常浪漫和溫柔的星座,他們對愛情充滿了向往和幻想。當一個天秤男開始動情...
01-22
時尚秀場:男模特如何在T臺上演繹完美姿態與動作走進時尚的殿堂,T臺上光鮮亮麗的男模特們總能吸引所有人的目光。他們不僅僅是服裝的展示者,更是視覺藝術的演繹者。或許你曾好奇...
02-17
170胖子穿搭男生秋季冬季?一、170胖子穿搭男生秋季冬季?170算中等身高吧,當然也會有腿偏短的情況,看個人的實際身材體型了。秋冬季的搭配選擇還是挺多的,秋天相對來說會比較涼快...
02-22
阿里將與蘋果強強聯手。在阿聯酋迪拜舉辦的World Governments Summit 2025峰會上,阿里巴巴聯合創始人、董事局主席蔡崇信回應阿里與蘋果合作傳聞,他表示,“蘋果在中國需要一個...
02-14
2月14日消息,蘇寧易購與美的召開2025年度戰略合作會議,加力投入以舊換新。錨定年度200億戰略目標,雙方將深化聯合創新、服務體驗、終端運營等方面合作,上新超70款新品。搶灘春季...
02-15
2月4日消息,攜程發布《2025年春節旅游總結報告》,報告顯示,超半數游客集中在初五、初六返程,8天假期的靈活性也讓不少游客選擇延長旅途,節后錯峰返程。跨境游整體訂單同比去年增...
02-07
雖然房地產市場歷經變幻,剛需與改善型置業需求始終存在,它們是這個萬億規模市場永續發展的核心動力和基礎支撐。今年2月以來,部分城...
03-09
近年來,浙江晨豐科技股份有限公司(以下簡稱“晨豐科技”)在復雜多變的市場環境中,憑借敏銳的市場洞察力和果斷的戰略布局,積極投身新能源領域,成功實現了業務多元化發展,展現出強大...
01-23
2024年末,一位科技創業者火了。作者 | 王思琪來源 | 投資家(ID:touzijias)2024年末,一位科技創業者火了。2025年初,這位創業者再度爆火。近日,中國科技行業因一位85后年輕人現身《...
01-24
著名復古掌機改裝大佬 Hairo Satoh 最近成功的將一部 DS 掌機塞進了原版 Game Boy 掌機的外殼當中。 他展示了主機,它不僅能讀取正版卡帶,而且還有一個藏在主機...
01-28
來自SNK的經典角色不知火舞即將于2月5日明天登陸《街霸6》參戰,同時上線的招牌性感女忍裝備受玩家期待,不過玩家似乎更加期待如此大開大合的衣裝被男性格斗家穿...
02-04
極目新聞記者 詹钘通訊員 潘慶芳 周皓2月4日,極目新聞記者從湖北省春運辦了解到,春運前20天,該省全社會跨區域人員流動量累計3.07億人次,占比達到全國的十六分之一。春運以來,省...
02-04
極目新聞記者 肖名遠2月3日晚,廣東湛江徐聞縣西連鎮發生一起火災,一對父子在救火時遇難,另有四人嚴重受傷。因經濟困難,傷者的家人在網上發起求助,一天內就獲得各方好心人的50萬...
02-06
1月15日,記者從中國科學院大連化學物理研究所獲悉,該所動力電池與系統研究中心主任陳忠偉團隊與雙登集團近日對外聯合發布了最新一代智能電池管理系...
01-21
記者1月9日獲悉,世界最高350米高水頭沖擊試驗臺近日在哈電集團哈爾濱電機廠有限責任公司(以下簡稱“哈電電機”)正式投入使用。該試驗臺是國內首座具...
01-24
  去年,我省實施農村供水工程502處,其中年內建成通水309處,覆蓋受益人口74萬人,累計完成投資30.4億元,創歷...
01-22
  記者近日獲悉,遼寧省就業和人才服務中心自2月7日至3月6日組織開展“冰雪遼寧·溫暖就業”專項直播帶...
02-17
新聞記者 潘錫珩通訊員 蘇杭 徐媛媛1月21日凌晨0時55分,1168名旅客從廣州白云站搭乘G4554次“夜行高鐵”踏上返回武漢的歸程,雖已是深夜,但旅客們回家的熱情滿滿。這是中國鐵路...
01-22
  中新經緯1月20日電 智聯招聘20日發布《2024年職場人滿意度指數調研報告》(下稱報告)。其中提到,商業服務(咨詢/財會/法律/廣告/公關/認證/外包)、文化/傳媒/娛樂/體育行...
01-21
1月15日,在MG新年首場“有意思”發布會上,MG打破常規,首開傳統車企新車重新發布“先河”。上汽MG品牌事業部總經理周钘首次以新身份正式亮相,并將MG ES5重新發布,為觀眾深度解讀...
01-21
1 月 27 日消息,特斯拉現已公布了旗下Model 3 / Y車型 2025 年 2月購車權益,其中煥新款 Model 3(2025 款)和舊款(2024 款)Model Y 車型可享限時5年0息分期購車方案,而煥新...
01-28
《余燼之上》廖知白是好人嗎?廖知白結局怎么樣?在《余燼之上》中,廖知白很難簡單地用好壞來定義。廖知白原本是天才少年偵探,有著幸福的家庭。但十年前的大火讓...
02-21
近期電視劇《難哄》成為熱門話題,該劇在開拍前就吸引了大量粉絲。隨著劇集的播出,更多觀眾加入討論,對劇情充滿期待,尤其是關于“難哄桑稚迷路怎么回事”的情節...
02-22
  近日公布的新版醫保藥品目錄新增91種藥品,目錄內藥品總數增至3159種,參保人的“藥籃子”再次升級。醫保目錄是如何誕生...
01-21
這里是《21健訊Daily》,歡迎與21世紀經濟報道新健康團隊共同關注醫藥健康行業最新事件!政策動向醫保結算提速2月17日,國家醫保局官微轉載文章...
02-18
返回

點擊右上角微信好友

朋友圈

點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“”按鈕

點擊右上角QQ

點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“”按鈕

主站蜘蛛池模板: 国产自在线| 国产在线视频网站 | 成人a在线| 91精品国产高清一区二区三区 | 皇上侵犯双性太子高h虐受视频 | 国产一区二区三区久久久久久久久 | 成人欧美一区二区三区黑人孕妇 | 精品一区在线 | 国产精品久久久久久久久久10秀 | 99精品视频在线 | 黄色三级网站 | 不卡一区二区三区四区 | 婷婷91| 成人欧美一区二区三区黑人孕妇 | 91在线精品秘密一区二区 | 国产一区二区三区高清 | 精品无人乱码一区二区三区 | 日日网 | 欧美一级大片 | a级毛片视频免费观看 | 娇妻被3p高潮爽视频 | 午夜影视av | 综合视频一区二区三区 | 久久99精品久久久久久琪琪 | 国产剧情一区二区三区 | 91精品一区二区三区久久久久久 | 91福利网站在线观看 | 亚洲色图 偷拍自拍 | 久久精品久久久久久久久久久久久 | 九九小视频 | 日本一区视频 | 欧美日本三级 | 久久国产成人 | 亚洲国产成人在线 | 国产精品资源在线 | 日韩精品欧美在线 | 国产成人久久 | 综合久久网 | 成人免费精品 | 成人黄色在线观看 | 免费黄色小视频 |