<ol id="ec9nz"><optgroup id="ec9nz"></optgroup></ol>

    午夜精品久久久久久久无码_国产A√精品区二区三区四区_999久久久免费精品国产_国产精品久久久久9999县_成人H动漫精品一区二区无码

    關(guān)于中咨 | 公司要聞 | 中咨黨建 | 最新成果 | 電腦版
    首頁
    >> 手機(jī)版網(wǎng)站 >> 最新成果
    包英群 等 | DeepSeek現(xiàn)象對(duì)中咨公司推進(jìn)數(shù)智化轉(zhuǎn)型的啟示

    DeepSeek現(xiàn)象對(duì)中咨公司

    推進(jìn)數(shù)智化轉(zhuǎn)型的啟示

    包英群 李曉鳴 袁云飛

    摘要:DeepSeek現(xiàn)象對(duì)國內(nèi)外相關(guān)行業(yè)產(chǎn)生了巨大沖擊,相關(guān)話題熱度持續(xù)攀升。本文結(jié)合DeepSeek現(xiàn)象,深入分析大模型的發(fā)展歷史、底層技術(shù)機(jī)理,闡述DeepSeek的創(chuàng)新點(diǎn)及其帶來的啟示,進(jìn)一步明確了中咨公司數(shù)字化項(xiàng)目在大模型應(yīng)用、系統(tǒng)搭建和軟件開發(fā)方面堅(jiān)持的三大系列原則,同時(shí)提出了“信息化、數(shù)字化、數(shù)智化”的發(fā)展愿景,旨在以數(shù)智化手段賦能咨詢工作,不斷鞏固國家高端智庫的戰(zhàn)略地位。

    一、數(shù)字化項(xiàng)目前期工作進(jìn)展和未來展望

    (一)數(shù)字化項(xiàng)目前期進(jìn)展

    中咨數(shù)字化項(xiàng)目已取得階段性成果,主要體現(xiàn)在以下幾個(gè)方面:

    1.基礎(chǔ)設(shè)施方面。完成了現(xiàn)有機(jī)房改造及新大樓機(jī)房建設(shè),購置了較為先進(jìn)、適度超前的基礎(chǔ)軟硬件。

    2.數(shù)據(jù)底座方面。建設(shè)了支持綜合查詢及可視化展示的中國統(tǒng)計(jì)庫,構(gòu)建了基于業(yè)務(wù)資料的可擴(kuò)展知識(shí)庫應(yīng)用,推動(dòng)管理類數(shù)據(jù)的全面融通。

    3.工具和應(yīng)用開發(fā)。開發(fā)了可編輯的網(wǎng)狀圖、思維導(dǎo)圖、熱力地圖等工具,為供應(yīng)鏈、產(chǎn)業(yè)演進(jìn)、競(jìng)合等部門級(jí)應(yīng)用提供支撐。

    4.量化模型方面。研發(fā)了具有自主知識(shí)產(chǎn)權(quán)的量化模型,避免過度依賴國外軟件的現(xiàn)象。

    5.AI咨詢實(shí)驗(yàn)室方面。開發(fā)了研究報(bào)告生成助手、制度問答助手、知識(shí)庫助手、經(jīng)營統(tǒng)計(jì)助手等系列應(yīng)用。2025年春節(jié)后的第一周,在本地部署了DeepSeek-R1蒸餾的千問32B開源大模型。

    (二)數(shù)字化項(xiàng)目的未來展望

    中咨數(shù)字化項(xiàng)目致力于實(shí)現(xiàn)從“能用”到“好用”再到“智用”的轉(zhuǎn)變,努力打造一個(gè)更加智能、高效、協(xié)同的工作環(huán)境,為公司的持續(xù)發(fā)展提供有力支撐,逐步實(shí)現(xiàn)從“信息化”到“數(shù)字化”再到“數(shù)智化”的跨越。未來建設(shè)效果主要體現(xiàn)在以下五個(gè)方面:

    一是基礎(chǔ)設(shè)施全面升級(jí),助力高效運(yùn)營。分批次完成機(jī)房改造建設(shè),優(yōu)化運(yùn)行環(huán)境;完成全部基礎(chǔ)軟硬件上架部署,大幅提升計(jì)算能力和存儲(chǔ)能力,構(gòu)建AI算力平臺(tái);建設(shè)三級(jí)等保的網(wǎng)絡(luò)安全體系,確保系統(tǒng)安全穩(wěn)定。

    二是構(gòu)建數(shù)據(jù)中臺(tái),實(shí)現(xiàn)數(shù)據(jù)共享和決策加速。完成公司40余年業(yè)務(wù)資料的數(shù)字化和向量化,完成現(xiàn)有管理域系統(tǒng)歷史數(shù)據(jù)的清理、整合和遷移,形成統(tǒng)計(jì)數(shù)據(jù)庫。實(shí)現(xiàn)統(tǒng)一管理和共享數(shù)據(jù),初步解決“信息孤島”和“數(shù)據(jù)煙囪”問題,不斷豐富數(shù)據(jù)底座;實(shí)現(xiàn)中咨數(shù)據(jù)融合查詢與調(diào)閱,無論是公文資料、項(xiàng)目數(shù)據(jù)、行業(yè)數(shù)據(jù)、歷史業(yè)務(wù)資料等,員工都可以通過簡單搜索迅速獲取,提高工作效率。

    三是打造算法模型庫,賦能業(yè)務(wù)創(chuàng)新。完成常用算法模型的雙代碼開發(fā),打破國外技術(shù)依賴,搭建起自主知識(shí)產(chǎn)權(quán)的量化分析算法模型庫。提供統(tǒng)計(jì)分析工具,構(gòu)建個(gè)性化數(shù)據(jù)分析應(yīng)用,助力項(xiàng)目經(jīng)理使用專業(yè)量化工具產(chǎn)出高質(zhì)量研究報(bào)告,營造“不量化不研究”的環(huán)境;輸出中咨標(biāo)準(zhǔn),提升行業(yè)話語權(quán)和影響力;利用數(shù)字化平臺(tái),開展數(shù)智咨詢業(yè)務(wù),成為公司高質(zhì)量發(fā)展新的增長極。

    四是打造中咨AI大腦,提升智能化水平。初步構(gòu)建通、專融合的AI賦能應(yīng)用體系,打造一批智能化應(yīng)用場(chǎng)景,讓AI成為每位員工的智能助手,逐漸實(shí)現(xiàn)數(shù)據(jù)智能歸類、知識(shí)智能推薦、業(yè)務(wù)智能聯(lián)動(dòng)和“事情推著人走”的事件驅(qū)動(dòng)業(yè)務(wù)模式,提升管理和業(yè)務(wù)工作的智能化水平。

    五是全方位優(yōu)化各類應(yīng)用,打造個(gè)性化工作環(huán)境。基于共性支撐平臺(tái)和系列工具集,充分集成和融合AI能力。打造“千人千面”工作臺(tái),依角色和場(chǎng)景需求,自主搭建數(shù)據(jù)看板,管理層可實(shí)時(shí)查看經(jīng)營指標(biāo)、業(yè)務(wù)人員聚焦項(xiàng)目進(jìn)度,實(shí)現(xiàn)精準(zhǔn)賦能;實(shí)現(xiàn)知識(shí)傳承體系化,打造個(gè)人、部門、公司三級(jí)知識(shí)庫,促進(jìn)知識(shí)積累沉淀,借助智能搜索縮短人才培養(yǎng)周期,輔助快速開展咨詢服務(wù);靈活響應(yīng)管理與業(yè)務(wù)需求,利用自定義流程引擎、自定義表單、低代碼平臺(tái)等共性構(gòu)件和工具集自主搭建各類應(yīng)用,減少系統(tǒng)二次開發(fā)。

    二、DeepSeek現(xiàn)象

    (一)背景情況

    2023年5月,幻方量化基金創(chuàng)始人梁文鋒投資成立人工智能企業(yè)DeepSeek。2024年5月,該公司開源發(fā)布第二代大語言模型(V2),該舉措直接引發(fā)行業(yè)大模型市場(chǎng)價(jià)格跳水。同年12月發(fā)布的第三代模型(V3)在大模型主流評(píng)測(cè)榜單中位居前列。2025年1月20日,DeepSeek宣布推出對(duì)標(biāo)GPT-o1的DeepSeek-R1模型,并同步了開源模型權(quán)重、公布了模型技術(shù)方案。同日,梁文鋒出席了李強(qiáng)總理主持的座談會(huì)并發(fā)言。

    DeepSeek-R1發(fā)布后,引發(fā)AI大模型行業(yè)震動(dòng),歐美AI產(chǎn)業(yè)主要公司股票紛紛下跌,尤其是英偉達(dá)(NVIDIA)單日市值下跌近17%(約6000億美元),創(chuàng)美股最高記錄。2025年1月28日,前谷歌CEO埃里克?施密特表示DeepSeek的崛起是全球AI競(jìng)賽的轉(zhuǎn)折點(diǎn),OpenAI CEO山姆?奧特曼同期表態(tài)認(rèn)可其技術(shù)路線。此后,歐美AI巨頭紛紛宣布上線DeepSeek服務(wù)。

    (二)DeepSeek現(xiàn)象分析

    DeepSeek僅用了幾分之一的成本做出了與GPT-o1性能接近的大模型,這一成果對(duì)全球而言無疑是一個(gè)震撼,有人稱之為國運(yùn)級(jí)科技成果,但隨之而來的是圍繞“DeepSeek是國運(yùn)級(jí)成果還是抄襲造假”的討論:

    支持觀點(diǎn)認(rèn)為,DeepSeek是國運(yùn)級(jí)科技成果。DeepSeek已經(jīng)開源,在美國對(duì)英偉達(dá)芯片限售、基礎(chǔ)算力不足的前提下,通過技術(shù)創(chuàng)新以低成本實(shí)現(xiàn)了接近OpenAI的效果。雖然低成本并非像網(wǎng)傳的那樣,不是550萬美元對(duì)幾百億和幾千億美元的差別,但DeepSeek訓(xùn)練成本僅為美國人的幾分之一基本屬實(shí)。

    反對(duì)觀點(diǎn)認(rèn)為,DeepSeek涉嫌抄襲、數(shù)據(jù)造假、數(shù)據(jù)安全。但經(jīng)分析研判,對(duì)于這些指控應(yīng)該不成立。一是關(guān)于抄襲指控不成立。DeepSeek論文中公布的參數(shù)量為671B,如此巨大的參數(shù)量使其難以直接抄襲現(xiàn)有模型。GPT-3及后續(xù)產(chǎn)品均為閉源,源代碼不可見,無法直接復(fù)制。DeepSeek可能從OpenAI的產(chǎn)品中蒸餾數(shù)據(jù)用于訓(xùn)練,此舉名義上違反了OpenAI的商業(yè)協(xié)議。然而,這更像是口水仗,例如OpenAI擁有《紅樓夢(mèng)》的知識(shí),并不擁有《紅樓夢(mèng)》等公共知識(shí)的知識(shí)產(chǎn)權(quán)。二是數(shù)據(jù)造假指控不成立。DeepSeek的論文和模型已開源,科研人員可以輕松驗(yàn)證其低成本訓(xùn)練的真實(shí)性。雖然未計(jì)算數(shù)十億元的基礎(chǔ)設(shè)施投入、人工費(fèi)等成本,但相對(duì)較低的訓(xùn)練成本是事實(shí)。三是數(shù)據(jù)安全指控不成立。這方面指控可能更多出于政治方面的考慮,例如華為、字節(jié)跳動(dòng)此前也遭遇過同樣的指控。

    (三)DeepSeek現(xiàn)象對(duì)國內(nèi)咨詢行業(yè)的沖擊

    早在2023年,以GPT-3為代表的人工智能大模型的出現(xiàn),對(duì)全球各行業(yè)帶來了顯著沖擊。美國編劇協(xié)會(huì)甚至在紐約和洛杉磯舉行了抗議游行。在大模型出現(xiàn)后,用戶需求質(zhì)量的提高和咨詢效率的提升都是必然的,就像從馬車到汽車的轉(zhuǎn)變,從紙筆手寫報(bào)告到電腦文檔處理的轉(zhuǎn)變,不適應(yīng)新技術(shù)終將被淘汰。

    三、人工智能發(fā)展歷程和大模型的技術(shù)原理

    (一)發(fā)展歷程

    從人工智能的發(fā)展來看,最初可以分為兩個(gè)主要陣營:符號(hào)人工智能和以感知機(jī)為雛形的亞符號(hào)人工智能。

    符號(hào)人工智能其基本假設(shè)是智能問題可以通過“符號(hào)推理”過程解決,這一理論可追溯至法國科學(xué)家帕斯卡和德國數(shù)學(xué)家萊布尼茨。帕斯卡于1642年設(shè)計(jì)并制作了世界上第一臺(tái)數(shù)字計(jì)算器,而萊布尼茨完善了二進(jìn)制。智能機(jī)器的概念起源于英國的查爾斯?巴貝奇和艾倫?圖靈的開創(chuàng)性工作,尤其是圖靈提出的邏輯機(jī)通用模型——圖靈機(jī),奠定了現(xiàn)代計(jì)算機(jī)的理論基礎(chǔ),并提出了評(píng)估機(jī)器是否智能的標(biāo)準(zhǔn),即圖靈測(cè)試。

    亞符號(hào)人工智能其出現(xiàn)歸功于行為主義認(rèn)知理論的崛起,其思想基礎(chǔ)是“刺激-反應(yīng)理論”。美國心理學(xué)家羅森布拉特在神經(jīng)元模型的基礎(chǔ)上提出了感知機(jī)模型,奠定了神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。

    算法是計(jì)算能力和符號(hào)演算的邏輯基礎(chǔ)。人工智能模型的訓(xùn)練需要訓(xùn)練集和驗(yàn)證集:訓(xùn)練集用于灌入海量知識(shí),驗(yàn)證集則用于在已知答案的情況下讓模型進(jìn)行判斷。如果模型輸出正確,則強(qiáng)化獎(jiǎng)勵(lì);如果錯(cuò)誤,則修正模型的輸出,這一過程即為調(diào)參。

    面對(duì)一個(gè)未知內(nèi)部構(gòu)造的對(duì)象,如何推斷其特征?信號(hào)處理領(lǐng)域已提出有效方法,其中最著名的是傅里葉變換。傅里葉提出,黑箱的輸入函數(shù)與特征函數(shù)的卷積等于輸出函數(shù)。傅里葉變換將復(fù)雜的積分求解轉(zhuǎn)化為頻域中兩個(gè)函數(shù)的乘積,從而通過逆運(yùn)算推算黑箱的特征函數(shù)。200年后,人工智能深度學(xué)習(xí)在傅里葉變換基礎(chǔ)上,構(gòu)建多層神經(jīng)網(wǎng)絡(luò),參考傅里葉變換的逆運(yùn)算思想求解特征函數(shù)。人工智能的核心依賴于算力和算法,對(duì)于世界究竟是什么樣的,機(jī)器自己是沒有真實(shí)感知的。學(xué)者們找到了一個(gè)退而求其次的路徑,即通過構(gòu)建“目標(biāo)函數(shù)”對(duì)真實(shí)問題建模,通過機(jī)器求解特征函數(shù)。

    2023年,GPT-3通過分析網(wǎng)絡(luò)上的海量文字,預(yù)測(cè)單詞間的關(guān)聯(lián),表現(xiàn)出令人驚嘆的能力。盡管有報(bào)道稱它能“直接理解”自然語言,但其實(shí)它只是通過“見多識(shí)廣”快速生成文本,并不具備真正的理解能力,無法像人類一樣認(rèn)知復(fù)雜的語義或文化背景,也缺乏超越語言的生活常識(shí)和全人類共識(shí)。

    1956年由約翰·麥卡錫聯(lián)合香農(nóng)、明斯基、羅徹斯特等人共同發(fā)起的達(dá)特茅斯會(huì)議是計(jì)算機(jī)科學(xué)的一個(gè)里程碑,也是人工智能發(fā)展史的重要事件。麥卡錫在會(huì)上首次提出“人工智能”概念,確立了研究目標(biāo),使其成為計(jì)算機(jī)科學(xué)中一門獨(dú)立的學(xué)科。盡管當(dāng)時(shí)計(jì)算機(jī)性能落后,但麥卡錫等人仍對(duì)人工智能的實(shí)現(xiàn)充滿信心。會(huì)上,數(shù)學(xué)家主張用數(shù)學(xué)邏輯和演繹推理作為理性思維的語言,另一些人則支持通過歸納法從數(shù)據(jù)中提取統(tǒng)計(jì)特征并用概率處理不確定性,還有人主張從生物學(xué)和心理學(xué)中汲取靈感。這些爭論持續(xù)至今,其成果的融合形成了現(xiàn)代人工智能技術(shù)。達(dá)特茅斯會(huì)議后,符號(hào)人工智能陣營占據(jù)主導(dǎo)地位。20世紀(jì)60年代初,明斯基、麥卡錫、西蒙與紐厄爾分別在麻省理工、斯坦福和卡內(nèi)基梅隆創(chuàng)建了具有影響力的實(shí)驗(yàn)室,這些機(jī)構(gòu)至今仍是全球人工智能研究的高地。

    1969年,明斯基與同事出版了《感知機(jī)》一書,指出感知機(jī)的能力有限,但通過增加神經(jīng)元“層”可顯著增強(qiáng)其能力,從而形成多層神經(jīng)網(wǎng)絡(luò)。然而,由于缺乏通用算法和算力支持,多層神經(jīng)網(wǎng)絡(luò)的研究未能廣泛展開。1971年,感知機(jī)理論的提出者羅森布拉特去世后,相關(guān)研究陷入停滯。計(jì)算能力不足曾使多層神經(jīng)網(wǎng)絡(luò)發(fā)展受阻,但硬件算力的持續(xù)進(jìn)步為人工智能注入了新動(dòng)力。1975年,19歲的比爾?蓋茨從哈佛大學(xué)退學(xué),與保羅?艾倫共同創(chuàng)立微軟,正是看準(zhǔn)了計(jì)算機(jī)硬件快速發(fā)展的潛力。2025年是摩爾定律提出60周年,硬件能力每1.5年翻一番,60年來算力提升顯著。2010年后,深度學(xué)習(xí)成為人工智能主流范式,谷歌創(chuàng)始人拉里?佩奇和謝爾蓋?布林通過“谷歌大腦”團(tuán)隊(duì)推動(dòng)了這一技術(shù)的發(fā)展。

    (二)人工智能的主要技術(shù)點(diǎn)

    1.神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是人工智能的核心技術(shù),通過多層神經(jīng)元的連接,神經(jīng)網(wǎng)絡(luò)能夠捕捉復(fù)雜的模式。以手寫數(shù)字識(shí)別為例,假設(shè)要識(shí)別一個(gè)28×28像素的手寫數(shù)字,傳統(tǒng)方法會(huì)先分析圈和線段的特征,比如9可以切分成一個(gè)o和一個(gè)線段,但直接從784個(gè)像素判斷這些o和線段的特征跨度較大。于是,可以將圈拆分為小弧線,線段拆分為更小的線段,逐層分析。神經(jīng)網(wǎng)絡(luò)的工作原理可以分為幾步:第一層處理784個(gè)像素的灰度值,第二層提取小弧線和小線段的激活度,第三層提取圈或線段的激活度,最后一層輸出0-9的識(shí)別結(jié)果。一個(gè)四層神經(jīng)網(wǎng)絡(luò)的參數(shù)量約為13000個(gè)。

    圖1 神經(jīng)網(wǎng)絡(luò)識(shí)別示意

    與傳統(tǒng)技術(shù)不同,神經(jīng)網(wǎng)絡(luò)的中間隱藏層(如第二層和第三層)的工作機(jī)制并不完全可知,科學(xué)家們無法明確解釋隱藏層如何處理信息,但通過大量訓(xùn)練,神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)并識(shí)別模式。在訓(xùn)練過程中,輸入已知的像素值和正確的輸出結(jié)果,利用傅里葉逆變換思想求解黑箱的特征函數(shù),這相當(dāng)于大模型通過訓(xùn)練集和驗(yàn)證集進(jìn)行學(xué)習(xí)。整個(gè)神經(jīng)網(wǎng)絡(luò)可以看作一個(gè)函數(shù),其參數(shù)(權(quán)重和偏差)通過矩陣計(jì)算捕捉特定模式。大模型的基本原理也與此類似。

    2.Transformer框架

    傳統(tǒng)自然語言處理技術(shù)存在梯度消失、無法支持長序列、信息衰減等問題,限制了其發(fā)展。2017年,谷歌大腦團(tuán)隊(duì)提出了Transformer框架,其核心是自注意力機(jī)制,能夠捕捉長距離依賴關(guān)系并支持并行計(jì)算。

    例如,在處理“下雨了,出門記得帶雨傘”時(shí),傳統(tǒng)技術(shù)會(huì)因詞序衰減而降低了“下雨”與“雨傘”之間的關(guān)聯(lián)度,而Transformer框架通過自注意力機(jī)制記錄位置信息,使相關(guān)詞在向量空間中靠近,從而準(zhǔn)確關(guān)聯(lián)。此外,GPU在處理Transformer提出的并行計(jì)算這類任務(wù)時(shí)表現(xiàn)出色,這也是GPU在AI領(lǐng)域爆火的原因。

    3.大模型機(jī)器學(xué)習(xí)

    大模型應(yīng)用分為三個(gè)環(huán)節(jié):預(yù)訓(xùn)練、微調(diào)和推理。預(yù)訓(xùn)練方面,通過訓(xùn)練集賦予模型通用知識(shí),類似于學(xué)校教育。使用的模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練方法不同,模型能力也會(huì)有差異,這一階段成本較高,例如OpenAI訓(xùn)練GPT-3的成本高達(dá)1200萬美元。微調(diào)方面,在預(yù)訓(xùn)練基礎(chǔ)上針對(duì)特定任務(wù)(如法律、醫(yī)學(xué))進(jìn)行的進(jìn)一步訓(xùn)練,成本一般不到預(yù)訓(xùn)練的10%,但微調(diào)成果難以復(fù)用至其他模型,不同模型通常需要多次微調(diào),效果和性價(jià)比等方面還存在一定的爭議。推理方面,是使用訓(xùn)練好的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)的過程,成本在一千萬以內(nèi)即可起步。

    圖2 大模型應(yīng)用環(huán)節(jié)示意

    4.RAG和向量數(shù)據(jù)庫

    RAG(檢索增強(qiáng)生成)是一種結(jié)合檢索和生成機(jī)制的技術(shù),適用于需要高準(zhǔn)確性場(chǎng)景。其核心是通過向量庫構(gòu)建私有數(shù)據(jù)庫,實(shí)現(xiàn)基于語義和上下文的檢索,而非關(guān)鍵詞匹配。公司數(shù)字化項(xiàng)目中已經(jīng)開發(fā)了資料向量化軟件,項(xiàng)目經(jīng)理可以將資料存入向量庫,構(gòu)建可擴(kuò)展的個(gè)人、公開知識(shí)庫。

    5.算力卡和工具集

    在算力服務(wù)器領(lǐng)域,全球主要有兩個(gè)生態(tài):英偉達(dá)和華為。英偉達(dá)的生態(tài)在全球范圍內(nèi)廣泛采用,國內(nèi)許多GPU和算力服務(wù)器廠商也以英偉達(dá)為標(biāo)桿;華為的昇騰系列則因技術(shù)封鎖等限制,需自主研發(fā)工具和協(xié)議,生態(tài)體系明顯受到了很多制約,相對(duì)規(guī)模較小。例如,英偉達(dá)使用PyTorch、CUDA和InfiniBand,而華為則自主開發(fā)MindSpore、CANN和RoCE。

    截至2023年底,中國眾多企業(yè)聲稱自主研發(fā)的大模型數(shù)量達(dá)200余個(gè),這一現(xiàn)象被稱為“百模大戰(zhàn)”。然而,多數(shù)公司僅購買算力服務(wù)器,對(duì)開源模型(如LLaMA2)進(jìn)行微調(diào)或不做微調(diào),僅開發(fā)Agent智能體,便宣稱“自研國產(chǎn)大模型”,利用品牌口碑占領(lǐng)市場(chǎng)、尋求政策支持。斯坦福2024年報(bào)告顯示,中國僅有20個(gè)基礎(chǔ)模型,遠(yuǎn)低于美國的109個(gè)。有專家指出,所謂“自研”大模型不少是套殼。

    相比之下,DeepSeek成為一股清流,其開源技術(shù)和大模型為科研人員提供了驗(yàn)證和重現(xiàn)的機(jī)會(huì),有助于整個(gè)行業(yè)降低成本、提高效率。在OpenAI閉源、英偉達(dá)限制芯片供應(yīng)、特朗普政府星門計(jì)劃的背景下,DeepSeek以較小成本打造全球第二的大模型,證明“技術(shù)壁壘沒有想象的那么大,錢也不一定那么花。”

    四、DeepSeek的技術(shù)創(chuàng)新點(diǎn)

    DeepSeek的創(chuàng)新點(diǎn)眾多,主要體現(xiàn)在以下幾個(gè)方面:

    1.多頭潛在注意力機(jī)制

    這是一種減少計(jì)算量和壓縮訓(xùn)練內(nèi)存的機(jī)制。如圖書檢索,傳統(tǒng)方法是為每本書都建立完整的索引和摘要,而DeepSeek的方法則像是建立了一個(gè)智能分類系統(tǒng),先記一個(gè)簡單的“標(biāo)簽”,需要時(shí)再從標(biāo)簽還原出詳細(xì)信息,類似于將“計(jì)算機(jī)技術(shù)、三樓右側(cè)第二排”簡化為“C2-3”編碼。

    2.混合專家模式

    根據(jù)任務(wù)的需要,模型會(huì)動(dòng)態(tài)地激活專家子集,共享專家處理通用特征,路由專家處理特定任務(wù),未被激活的專家不會(huì)占用計(jì)算資源。以數(shù)學(xué)問題為例,傳統(tǒng)模式中可能整個(gè)數(shù)學(xué)內(nèi)容都由同一個(gè)“數(shù)學(xué)專家”處理。在DeepSeek的混合專家模式中,共享專家會(huì)處理句子的語法結(jié)構(gòu)和通用特征,不同的路由專家則分別處理方程識(shí)別、判別式計(jì)算、求根公式相關(guān)的數(shù)學(xué)特征等。

    3.Token預(yù)測(cè)機(jī)制

    傳統(tǒng)方法逐個(gè)Token預(yù)測(cè),導(dǎo)致文本生成不連貫,且效率較低。DeepSeek同時(shí)預(yù)測(cè)多個(gè)Token,可以有效提升生成文本語義上的連貫性和輸出的流暢度。

    4.PTX連接底層GPU

    CUDA是英偉達(dá)的框架,而PTX是CUDA的底層指令集架構(gòu)。DeepSeek通過直接編寫PTX代碼,顯著提升了GPU的利用率和傳輸效率,不僅有助于減少對(duì)英偉達(dá)GPU數(shù)量的依賴,更在硬件層調(diào)度上積累了進(jìn)一步推動(dòng)國產(chǎn)GPU產(chǎn)業(yè)鏈發(fā)展的經(jīng)驗(yàn)。

    嚴(yán)格說,DeepSeek的創(chuàng)新模式,在本質(zhì)上未展現(xiàn)出超越現(xiàn)有Transformer框架的原始理論,仍然只是在既有的技術(shù)體系內(nèi)的深耕和打磨。但是DeepSeek的創(chuàng)新極具工匠精神,為全球人工智能技術(shù)的推進(jìn)起到了極大的促進(jìn)作用。

    五、DeepSeek現(xiàn)象帶來的啟示和數(shù)字化項(xiàng)目推進(jìn)的原則

    (一)DeepSeek帶來的啟示

    一是開源大模型不一定比閉源大模型或者商用大模型差。

    二是大模型應(yīng)用不一定依賴天量的、高配的算力;大模型本地化部署是具備可能性的。

    三是人工智能技術(shù)迭代迅猛,數(shù)字化發(fā)展中心寧愿多花力氣、以我為主、打好基礎(chǔ),追求將來可以靈活選擇和切換,而不應(yīng)綁死在某個(gè)大模型或者硬件上。

    (二)中咨公司大模型應(yīng)用原則

    中咨公司數(shù)字化項(xiàng)目的大模型應(yīng)用原則是:支持多種開源大模型、適配多種算力服務(wù)器、構(gòu)建本地的知識(shí)庫、不斷豐富和擴(kuò)展個(gè)人知識(shí)庫、聚焦開發(fā)Agent應(yīng)用和低代碼平臺(tái)。

    在中咨公司的數(shù)字化項(xiàng)目建設(shè)中,數(shù)字化發(fā)展中心堅(jiān)持將大模型和數(shù)據(jù)采用本地化部署策略,確保數(shù)據(jù)安全和核心競(jìng)爭力。部署商用大模型部署成本高昂,且會(huì)在當(dāng)前大模型技術(shù)日新月異的階段過早鎖死技術(shù)路線,因此項(xiàng)目最終選擇了開源大模型本地化部署,并采用松耦合設(shè)計(jì),可以靈活地選擇任一大模型進(jìn)行應(yīng)用。目前,項(xiàng)目已經(jīng)適配了多種開源大模型和算力服務(wù)器。這次DeepSeek現(xiàn)象表明,數(shù)字化項(xiàng)目確定的大模型使用的一系列原則是正確的。

    (三)數(shù)字化項(xiàng)目的其他原則

    按照同樣的思路,數(shù)字化發(fā)展中心制定了公司數(shù)字化項(xiàng)目其他兩個(gè)系列的原則:

    1.系統(tǒng)搭建方面

    構(gòu)建由關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫和向量庫等組成的大規(guī)模數(shù)據(jù)底座,構(gòu)建可擴(kuò)展知識(shí)庫,提升知識(shí)庫應(yīng)用價(jià)值;建設(shè)泛構(gòu)件化平臺(tái)和數(shù)據(jù)中臺(tái),將應(yīng)用軟件工具化,研發(fā)多工具和小應(yīng)用,搭建低代碼或零代碼平臺(tái),實(shí)現(xiàn)快速搭建各類應(yīng)用。

    2.軟件開發(fā)方面

    定制軟件開發(fā)需掌握源代碼和知識(shí)產(chǎn)權(quán),軟件開發(fā)需兼容國產(chǎn)芯片、國產(chǎn)數(shù)據(jù)庫和國產(chǎn)操作系統(tǒng)等國產(chǎn)化環(huán)境,模型可遷移、可復(fù)用、可共享。

    六、結(jié)束語

    本項(xiàng)目應(yīng)用大模型的路線規(guī)劃:第一階段,即當(dāng)前項(xiàng)目處于此階段,聚焦免費(fèi)開源大模型的本地化部署,在確保數(shù)據(jù)不外流的前提下,可以輔以對(duì)接商用大模型的流量訪問。第二階段,在大模型市場(chǎng)競(jìng)爭格局明朗后,挑選持續(xù)更新且性價(jià)比高的大模型,進(jìn)行商用本地化部署,視情況開展微調(diào)工作。生成式大模型存在局限性,“生成”與“幻覺”像硬幣的正反面相伴而生。開發(fā)中發(fā)現(xiàn),允許發(fā)散的研究報(bào)告生成助手較易實(shí)現(xiàn),但需要嚴(yán)格精確的制度問答助手在消除幻覺時(shí)難度大,正逐步探索解決方案。

    公司數(shù)字化工作需要全體員工共同參與,積極搭建個(gè)性化應(yīng)用,分享經(jīng)驗(yàn)并提出優(yōu)化建議;構(gòu)建可擴(kuò)展的知識(shí)庫,豐富公司數(shù)據(jù)庫;積極使用圖譜工具和量化模型,形成“不量化不研究”的工作習(xí)慣。

    數(shù)字化發(fā)展中心將繼續(xù)做好技術(shù)支撐工作,以期盡早實(shí)現(xiàn)“人人可構(gòu)建知識(shí)庫,人人可開發(fā)應(yīng)用”的愿景。

    注:文中部分圖片來源于網(wǎng)絡(luò),版權(quán)歸原作者所有,若有侵權(quán)請(qǐng)聯(lián)系刪除。

    返回首頁
    郵箱 | 電腦版
    版權(quán)所有:中國國際工程咨詢有限公司 ?京ICP備06029618號(hào)
    copyright?1997-2023 CIECC Corporation, All Rights Reserved
    大学生寝室白袜自慰gay网站_国产A√精品区二区三区四区_999久久久免费精品国产_国产精品久久久久9999县
    <ol id="ec9nz"><optgroup id="ec9nz"></optgroup></ol>

      庐江县| 抚宁县| 长垣县| 柳州市| 榕江县| 新和县| 锡林浩特市| 朔州市| 靖安县| 东乌珠穆沁旗| 黎川县| 澄迈县| 营山县| 尤溪县| 峨边| 潜山县| 巴东县| 武宣县| 黑龙江省| 石家庄市| 京山县| 保康县| 泾川县| 安康市| 运城市| 手游| 汪清县| 花莲县| 大化| 营山县| 茌平县| 南康市| 精河县| 凤山县| 游戏| 乐清市| 壶关县| 曲松县| 宣城市| 丹棱县| 芒康县|