国产精品极品美女自在线观看免费 ,久久丝袜一区二区

包英群等 | DeepSeek現(xiàn)象對(duì)中咨公司推進(jìn)數(shù)智化轉(zhuǎn)型的啟示

DeepSeek現(xiàn)象對(duì)中咨公司

推進(jìn)數(shù)智化轉(zhuǎn)型的啟示

包英群李曉鳴袁云飛

摘要：DeepSeek現(xiàn)象對(duì)國內(nèi)外相關(guān)行業(yè)產(chǎn)生了巨大沖擊，相關(guān)話題熱度持續(xù)攀升。本文結(jié)合DeepSeek現(xiàn)象，深入分析大模型的發(fā)展歷史、底層技術(shù)機(jī)理，闡述DeepSeek的創(chuàng)新點(diǎn)及其帶來的啟示，進(jìn)一步明確了中咨公司數(shù)字化項(xiàng)目在大模型應(yīng)用、系統(tǒng)搭建和軟件開發(fā)方面堅(jiān)持的三大系列原則，同時(shí)提出了“信息化、數(shù)字化、數(shù)智化”的發(fā)展愿景，旨在以數(shù)智化手段賦能咨詢工作，不斷鞏固國家高端智庫的戰(zhàn)略地位。

一、數(shù)字化項(xiàng)目前期工作進(jìn)展和未來展望

（一）數(shù)字化項(xiàng)目前期進(jìn)展

中咨數(shù)字化項(xiàng)目已取得階段性成果，主要體現(xiàn)在以下幾個(gè)方面：

1.基礎(chǔ)設(shè)施方面。完成了現(xiàn)有機(jī)房改造及新大樓機(jī)房建設(shè)，購置了較為先進(jìn)、適度超前的基礎(chǔ)軟硬件。

2.數(shù)據(jù)底座方面。建設(shè)了支持綜合查詢及可視化展示的中國統(tǒng)計(jì)庫，構(gòu)建了基于業(yè)務(wù)資料的可擴(kuò)展知識(shí)庫應(yīng)用，推動(dòng)管理類數(shù)據(jù)的全面融通。

3.工具和應(yīng)用開發(fā)。開發(fā)了可編輯的網(wǎng)狀圖、思維導(dǎo)圖、熱力地圖等工具，為供應(yīng)鏈、產(chǎn)業(yè)演進(jìn)、競(jìng)合等部門級(jí)應(yīng)用提供支撐。

4.量化模型方面。研發(fā)了具有自主知識(shí)產(chǎn)權(quán)的量化模型，避免過度依賴國外軟件的現(xiàn)象。

5.AI咨詢實(shí)驗(yàn)室方面。開發(fā)了研究報(bào)告生成助手、制度問答助手、知識(shí)庫助手、經(jīng)營統(tǒng)計(jì)助手等系列應(yīng)用。2025年春節(jié)后的第一周，在本地部署了DeepSeek-R1蒸餾的千問32B開源大模型。

（二）數(shù)字化項(xiàng)目的未來展望

中咨數(shù)字化項(xiàng)目致力于實(shí)現(xiàn)從“能用”到“好用”再到“智用”的轉(zhuǎn)變，努力打造一個(gè)更加智能、高效、協(xié)同的工作環(huán)境，為公司的持續(xù)發(fā)展提供有力支撐，逐步實(shí)現(xiàn)從“信息化”到“數(shù)字化”再到“數(shù)智化”的跨越。未來建設(shè)效果主要體現(xiàn)在以下五個(gè)方面：

一是基礎(chǔ)設(shè)施全面升級(jí)，助力高效運(yùn)營。分批次完成機(jī)房改造建設(shè)，優(yōu)化運(yùn)行環(huán)境；完成全部基礎(chǔ)軟硬件上架部署，大幅提升計(jì)算能力和存儲(chǔ)能力，構(gòu)建AI算力平臺(tái)；建設(shè)三級(jí)等保的網(wǎng)絡(luò)安全體系，確保系統(tǒng)安全穩(wěn)定。

二是構(gòu)建數(shù)據(jù)中臺(tái)，實(shí)現(xiàn)數(shù)據(jù)共享和決策加速。完成公司40余年業(yè)務(wù)資料的數(shù)字化和向量化，完成現(xiàn)有管理域系統(tǒng)歷史數(shù)據(jù)的清理、整合和遷移，形成統(tǒng)計(jì)數(shù)據(jù)庫。實(shí)現(xiàn)統(tǒng)一管理和共享數(shù)據(jù)，初步解決“信息孤島”和“數(shù)據(jù)煙囪”問題，不斷豐富數(shù)據(jù)底座；實(shí)現(xiàn)中咨數(shù)據(jù)融合查詢與調(diào)閱，無論是公文資料、項(xiàng)目數(shù)據(jù)、行業(yè)數(shù)據(jù)、歷史業(yè)務(wù)資料等，員工都可以通過簡單搜索迅速獲取，提高工作效率。

三是打造算法模型庫，賦能業(yè)務(wù)創(chuàng)新。完成常用算法模型的雙代碼開發(fā)，打破國外技術(shù)依賴，搭建起自主知識(shí)產(chǎn)權(quán)的量化分析算法模型庫。提供統(tǒng)計(jì)分析工具，構(gòu)建個(gè)性化數(shù)據(jù)分析應(yīng)用，助力項(xiàng)目經(jīng)理使用專業(yè)量化工具產(chǎn)出高質(zhì)量研究報(bào)告，營造“不量化不研究”的環(huán)境；輸出中咨標(biāo)準(zhǔn)，提升行業(yè)話語權(quán)和影響力；利用數(shù)字化平臺(tái)，開展數(shù)智咨詢業(yè)務(wù)，成為公司高質(zhì)量發(fā)展新的增長極。

四是打造中咨AI大腦，提升智能化水平。初步構(gòu)建通、專融合的AI賦能應(yīng)用體系，打造一批智能化應(yīng)用場(chǎng)景，讓AI成為每位員工的智能助手，逐漸實(shí)現(xiàn)數(shù)據(jù)智能歸類、知識(shí)智能推薦、業(yè)務(wù)智能聯(lián)動(dòng)和“事情推著人走”的事件驅(qū)動(dòng)業(yè)務(wù)模式，提升管理和業(yè)務(wù)工作的智能化水平。

五是全方位優(yōu)化各類應(yīng)用，打造個(gè)性化工作環(huán)境。基于共性支撐平臺(tái)和系列工具集，充分集成和融合AI能力。打造“千人千面”工作臺(tái)，依角色和場(chǎng)景需求，自主搭建數(shù)據(jù)看板，管理層可實(shí)時(shí)查看經(jīng)營指標(biāo)、業(yè)務(wù)人員聚焦項(xiàng)目進(jìn)度，實(shí)現(xiàn)精準(zhǔn)賦能；實(shí)現(xiàn)知識(shí)傳承體系化，打造個(gè)人、部門、公司三級(jí)知識(shí)庫，促進(jìn)知識(shí)積累沉淀，借助智能搜索縮短人才培養(yǎng)周期，輔助快速開展咨詢服務(wù)；靈活響應(yīng)管理與業(yè)務(wù)需求，利用自定義流程引擎、自定義表單、低代碼平臺(tái)等共性構(gòu)件和工具集自主搭建各類應(yīng)用，減少系統(tǒng)二次開發(fā)。

二、DeepSeek現(xiàn)象

（一）背景情況

2023年5月，幻方量化基金創(chuàng)始人梁文鋒投資成立人工智能企業(yè)DeepSeek。2024年5月，該公司開源發(fā)布第二代大語言模型（V2），該舉措直接引發(fā)行業(yè)大模型市場(chǎng)價(jià)格跳水。同年12月發(fā)布的第三代模型（V3）在大模型主流評(píng)測(cè)榜單中位居前列。2025年1月20日，DeepSeek宣布推出對(duì)標(biāo)GPT-o1的DeepSeek-R1模型，并同步了開源模型權(quán)重、公布了模型技術(shù)方案。同日，梁文鋒出席了李強(qiáng)總理主持的座談會(huì)并發(fā)言。

DeepSeek-R1發(fā)布后，引發(fā)AI大模型行業(yè)震動(dòng)，歐美AI產(chǎn)業(yè)主要公司股票紛紛下跌，尤其是英偉達(dá)（NVIDIA）單日市值下跌近17%（約6000億美元），創(chuàng)美股最高記錄。2025年1月28日，前谷歌CEO埃里克?施密特表示DeepSeek的崛起是全球AI競(jìng)賽的轉(zhuǎn)折點(diǎn)，OpenAI CEO山姆?奧特曼同期表態(tài)認(rèn)可其技術(shù)路線。此后，歐美AI巨頭紛紛宣布上線DeepSeek服務(wù)。

（二）DeepSeek現(xiàn)象分析

DeepSeek僅用了幾分之一的成本做出了與GPT-o1性能接近的大模型，這一成果對(duì)全球而言無疑是一個(gè)震撼，有人稱之為國運(yùn)級(jí)科技成果，但隨之而來的是圍繞“DeepSeek是國運(yùn)級(jí)成果還是抄襲造假”的討論：

支持觀點(diǎn)認(rèn)為，DeepSeek是國運(yùn)級(jí)科技成果。DeepSeek已經(jīng)開源，在美國對(duì)英偉達(dá)芯片限售、基礎(chǔ)算力不足的前提下，通過技術(shù)創(chuàng)新以低成本實(shí)現(xiàn)了接近OpenAI的效果。雖然低成本并非像網(wǎng)傳的那樣，不是550萬美元對(duì)幾百億和幾千億美元的差別，但DeepSeek訓(xùn)練成本僅為美國人的幾分之一基本屬實(shí)。

反對(duì)觀點(diǎn)認(rèn)為，DeepSeek涉嫌抄襲、數(shù)據(jù)造假、數(shù)據(jù)安全。但經(jīng)分析研判，對(duì)于這些指控應(yīng)該不成立。一是關(guān)于抄襲指控不成立。DeepSeek論文中公布的參數(shù)量為671B，如此巨大的參數(shù)量使其難以直接抄襲現(xiàn)有模型。GPT-3及后續(xù)產(chǎn)品均為閉源，源代碼不可見，無法直接復(fù)制。DeepSeek可能從OpenAI的產(chǎn)品中蒸餾數(shù)據(jù)用于訓(xùn)練，此舉名義上違反了OpenAI的商業(yè)協(xié)議。然而，這更像是口水仗，例如OpenAI擁有《紅樓夢(mèng)》的知識(shí)，并不擁有《紅樓夢(mèng)》等公共知識(shí)的知識(shí)產(chǎn)權(quán)。二是數(shù)據(jù)造假指控不成立。DeepSeek的論文和模型已開源，科研人員可以輕松驗(yàn)證其低成本訓(xùn)練的真實(shí)性。雖然未計(jì)算數(shù)十億元的基礎(chǔ)設(shè)施投入、人工費(fèi)等成本，但相對(duì)較低的訓(xùn)練成本是事實(shí)。三是數(shù)據(jù)安全指控不成立。這方面指控可能更多出于政治方面的考慮，例如華為、字節(jié)跳動(dòng)此前也遭遇過同樣的指控。

（三）DeepSeek現(xiàn)象對(duì)國內(nèi)咨詢行業(yè)的沖擊

早在2023年，以GPT-3為代表的人工智能大模型的出現(xiàn)，對(duì)全球各行業(yè)帶來了顯著沖擊。美國編劇協(xié)會(huì)甚至在紐約和洛杉磯舉行了抗議游行。在大模型出現(xiàn)后，用戶需求質(zhì)量的提高和咨詢效率的提升都是必然的，就像從馬車到汽車的轉(zhuǎn)變，從紙筆手寫報(bào)告到電腦文檔處理的轉(zhuǎn)變，不適應(yīng)新技術(shù)終將被淘汰。

三、人工智能發(fā)展歷程和大模型的技術(shù)原理

（一）發(fā)展歷程

從人工智能的發(fā)展來看，最初可以分為兩個(gè)主要陣營：符號(hào)人工智能和以感知機(jī)為雛形的亞符號(hào)人工智能。

符號(hào)人工智能其基本假設(shè)是智能問題可以通過“符號(hào)推理”過程解決，這一理論可追溯至法國科學(xué)家帕斯卡和德國數(shù)學(xué)家萊布尼茨。帕斯卡于1642年設(shè)計(jì)并制作了世界上第一臺(tái)數(shù)字計(jì)算器，而萊布尼茨完善了二進(jìn)制。智能機(jī)器的概念起源于英國的查爾斯?巴貝奇和艾倫?圖靈的開創(chuàng)性工作，尤其是圖靈提出的邏輯機(jī)通用模型——圖靈機(jī)，奠定了現(xiàn)代計(jì)算機(jī)的理論基礎(chǔ)，并提出了評(píng)估機(jī)器是否智能的標(biāo)準(zhǔn)，即圖靈測(cè)試。

亞符號(hào)人工智能其出現(xiàn)歸功于行為主義認(rèn)知理論的崛起，其思想基礎(chǔ)是“刺激-反應(yīng)理論”。美國心理學(xué)家羅森布拉特在神經(jīng)元模型的基礎(chǔ)上提出了感知機(jī)模型，奠定了神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。

算法是計(jì)算能力和符號(hào)演算的邏輯基礎(chǔ)。人工智能模型的訓(xùn)練需要訓(xùn)練集和驗(yàn)證集：訓(xùn)練集用于灌入海量知識(shí)，驗(yàn)證集則用于在已知答案的情況下讓模型進(jìn)行判斷。如果模型輸出正確，則強(qiáng)化獎(jiǎng)勵(lì)；如果錯(cuò)誤，則修正模型的輸出，這一過程即為調(diào)參。

面對(duì)一個(gè)未知內(nèi)部構(gòu)造的對(duì)象，如何推斷其特征？信號(hào)處理領(lǐng)域已提出有效方法，其中最著名的是傅里葉變換。傅里葉提出，黑箱的輸入函數(shù)與特征函數(shù)的卷積等于輸出函數(shù)。傅里葉變換將復(fù)雜的積分求解轉(zhuǎn)化為頻域中兩個(gè)函數(shù)的乘積，從而通過逆運(yùn)算推算黑箱的特征函數(shù)。200年后，人工智能深度學(xué)習(xí)在傅里葉變換基礎(chǔ)上，構(gòu)建多層神經(jīng)網(wǎng)絡(luò)，參考傅里葉變換的逆運(yùn)算思想求解特征函數(shù)。人工智能的核心依賴于算力和算法，對(duì)于世界究竟是什么樣的，機(jī)器自己是沒有真實(shí)感知的。學(xué)者們找到了一個(gè)退而求其次的路徑，即通過構(gòu)建“目標(biāo)函數(shù)”對(duì)真實(shí)問題建模，通過機(jī)器求解特征函數(shù)。

2023年，GPT-3通過分析網(wǎng)絡(luò)上的海量文字，預(yù)測(cè)單詞間的關(guān)聯(lián)，表現(xiàn)出令人驚嘆的能力。盡管有報(bào)道稱它能“直接理解”自然語言，但其實(shí)它只是通過“見多識(shí)廣”快速生成文本，并不具備真正的理解能力，無法像人類一樣認(rèn)知復(fù)雜的語義或文化背景，也缺乏超越語言的生活常識(shí)和全人類共識(shí)。

1956年由約翰·麥卡錫聯(lián)合香農(nóng)、明斯基、羅徹斯特等人共同發(fā)起的達(dá)特茅斯會(huì)議是計(jì)算機(jī)科學(xué)的一個(gè)里程碑，也是人工智能發(fā)展史的重要事件。麥卡錫在會(huì)上首次提出“人工智能”概念，確立了研究目標(biāo)，使其成為計(jì)算機(jī)科學(xué)中一門獨(dú)立的學(xué)科。盡管當(dāng)時(shí)計(jì)算機(jī)性能落后，但麥卡錫等人仍對(duì)人工智能的實(shí)現(xiàn)充滿信心。會(huì)上，數(shù)學(xué)家主張用數(shù)學(xué)邏輯和演繹推理作為理性思維的語言，另一些人則支持通過歸納法從數(shù)據(jù)中提取統(tǒng)計(jì)特征并用概率處理不確定性，還有人主張從生物學(xué)和心理學(xué)中汲取靈感。這些爭論持續(xù)至今，其成果的融合形成了現(xiàn)代人工智能技術(shù)。達(dá)特茅斯會(huì)議后，符號(hào)人工智能陣營占據(jù)主導(dǎo)地位。20世紀(jì)60年代初，明斯基、麥卡錫、西蒙與紐厄爾分別在麻省理工、斯坦福和卡內(nèi)基梅隆創(chuàng)建了具有影響力的實(shí)驗(yàn)室，這些機(jī)構(gòu)至今仍是全球人工智能研究的高地。

1969年，明斯基與同事出版了《感知機(jī)》一書，指出感知機(jī)的能力有限，但通過增加神經(jīng)元“層”可顯著增強(qiáng)其能力，從而形成多層神經(jīng)網(wǎng)絡(luò)。然而，由于缺乏通用算法和算力支持，多層神經(jīng)網(wǎng)絡(luò)的研究未能廣泛展開。1971年，感知機(jī)理論的提出者羅森布拉特去世后，相關(guān)研究陷入停滯。計(jì)算能力不足曾使多層神經(jīng)網(wǎng)絡(luò)發(fā)展受阻，但硬件算力的持續(xù)進(jìn)步為人工智能注入了新動(dòng)力。1975年，19歲的比爾?蓋茨從哈佛大學(xué)退學(xué)，與保羅?艾倫共同創(chuàng)立微軟，正是看準(zhǔn)了計(jì)算機(jī)硬件快速發(fā)展的潛力。2025年是摩爾定律提出60周年，硬件能力每1.5年翻一番，60年來算力提升顯著。2010年后，深度學(xué)習(xí)成為人工智能主流范式，谷歌創(chuàng)始人拉里?佩奇和謝爾蓋?布林通過“谷歌大腦”團(tuán)隊(duì)推動(dòng)了這一技術(shù)的發(fā)展。

（二）人工智能的主要技術(shù)點(diǎn)

1.神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是人工智能的核心技術(shù)，通過多層神經(jīng)元的連接，神經(jīng)網(wǎng)絡(luò)能夠捕捉復(fù)雜的模式。以手寫數(shù)字識(shí)別為例，假設(shè)要識(shí)別一個(gè)28×28像素的手寫數(shù)字，傳統(tǒng)方法會(huì)先分析圈和線段的特征，比如9可以切分成一個(gè)o和一個(gè)線段，但直接從784個(gè)像素判斷這些o和線段的特征跨度較大。于是，可以將圈拆分為小弧線，線段拆分為更小的線段，逐層分析。神經(jīng)網(wǎng)絡(luò)的工作原理可以分為幾步：第一層處理784個(gè)像素的灰度值，第二層提取小弧線和小線段的激活度，第三層提取圈或線段的激活度，最后一層輸出0-9的識(shí)別結(jié)果。一個(gè)四層神經(jīng)網(wǎng)絡(luò)的參數(shù)量約為13000個(gè)。

圖1 神經(jīng)網(wǎng)絡(luò)識(shí)別示意

與傳統(tǒng)技術(shù)不同，神經(jīng)網(wǎng)絡(luò)的中間隱藏層（如第二層和第三層）的工作機(jī)制并不完全可知，科學(xué)家們無法明確解釋隱藏層如何處理信息，但通過大量訓(xùn)練，神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)并識(shí)別模式。在訓(xùn)練過程中，輸入已知的像素值和正確的輸出結(jié)果，利用傅里葉逆變換思想求解黑箱的特征函數(shù)，這相當(dāng)于大模型通過訓(xùn)練集和驗(yàn)證集進(jìn)行學(xué)習(xí)。整個(gè)神經(jīng)網(wǎng)絡(luò)可以看作一個(gè)函數(shù)，其參數(shù)（權(quán)重和偏差）通過矩陣計(jì)算捕捉特定模式。大模型的基本原理也與此類似。

2.Transformer框架

傳統(tǒng)自然語言處理技術(shù)存在梯度消失、無法支持長序列、信息衰減等問題，限制了其發(fā)展。2017年，谷歌大腦團(tuán)隊(duì)提出了Transformer框架，其核心是自注意力機(jī)制，能夠捕捉長距離依賴關(guān)系并支持并行計(jì)算。

例如，在處理“下雨了，出門記得帶雨傘”時(shí)，傳統(tǒng)技術(shù)會(huì)因詞序衰減而降低了“下雨”與“雨傘”之間的關(guān)聯(lián)度，而Transformer框架通過自注意力機(jī)制記錄位置信息，使相關(guān)詞在向量空間中靠近，從而準(zhǔn)確關(guān)聯(lián)。此外，GPU在處理Transformer提出的并行計(jì)算這類任務(wù)時(shí)表現(xiàn)出色，這也是GPU在AI領(lǐng)域爆火的原因。

3.大模型機(jī)器學(xué)習(xí)

大模型應(yīng)用分為三個(gè)環(huán)節(jié)：預(yù)訓(xùn)練、微調(diào)和推理。預(yù)訓(xùn)練方面，通過訓(xùn)練集賦予模型通用知識(shí)，類似于學(xué)校教育。使用的模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練方法不同，模型能力也會(huì)有差異，這一階段成本較高，例如OpenAI訓(xùn)練GPT-3的成本高達(dá)1200萬美元。微調(diào)方面，在預(yù)訓(xùn)練基礎(chǔ)上針對(duì)特定任務(wù)（如法律、醫(yī)學(xué)）進(jìn)行的進(jìn)一步訓(xùn)練，成本一般不到預(yù)訓(xùn)練的10%，但微調(diào)成果難以復(fù)用至其他模型，不同模型通常需要多次微調(diào)，效果和性價(jià)比等方面還存在一定的爭議。推理方面，是使用訓(xùn)練好的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)的過程，成本在一千萬以內(nèi)即可起步。

圖2 大模型應(yīng)用環(huán)節(jié)示意

4.RAG和向量數(shù)據(jù)庫

RAG（檢索增強(qiáng)生成）是一種結(jié)合檢索和生成機(jī)制的技術(shù)，適用于需要高準(zhǔn)確性場(chǎng)景。其核心是通過向量庫構(gòu)建私有數(shù)據(jù)庫，實(shí)現(xiàn)基于語義和上下文的檢索，而非關(guān)鍵詞匹配。公司數(shù)字化項(xiàng)目中已經(jīng)開發(fā)了資料向量化軟件，項(xiàng)目經(jīng)理可以將資料存入向量庫，構(gòu)建可擴(kuò)展的個(gè)人、公開知識(shí)庫。

5.算力卡和工具集

在算力服務(wù)器領(lǐng)域，全球主要有兩個(gè)生態(tài)：英偉達(dá)和華為。英偉達(dá)的生態(tài)在全球范圍內(nèi)廣泛采用，國內(nèi)許多GPU和算力服務(wù)器廠商也以英偉達(dá)為標(biāo)桿；華為的昇騰系列則因技術(shù)封鎖等限制，需自主研發(fā)工具和協(xié)議，生態(tài)體系明顯受到了很多制約，相對(duì)規(guī)模較小。例如，英偉達(dá)使用PyTorch、CUDA和InfiniBand，而華為則自主開發(fā)MindSpore、CANN和RoCE。

截至2023年底，中國眾多企業(yè)聲稱自主研發(fā)的大模型數(shù)量達(dá)200余個(gè)，這一現(xiàn)象被稱為“百模大戰(zhàn)”。然而，多數(shù)公司僅購買算力服務(wù)器，對(duì)開源模型（如LLaMA2）進(jìn)行微調(diào)或不做微調(diào)，僅開發(fā)Agent智能體，便宣稱“自研國產(chǎn)大模型”，利用品牌口碑占領(lǐng)市場(chǎng)、尋求政策支持。斯坦福2024年報(bào)告顯示，中國僅有20個(gè)基礎(chǔ)模型，遠(yuǎn)低于美國的109個(gè)。有專家指出，所謂“自研”大模型不少是套殼。

相比之下，DeepSeek成為一股清流，其開源技術(shù)和大模型為科研人員提供了驗(yàn)證和重現(xiàn)的機(jī)會(huì)，有助于整個(gè)行業(yè)降低成本、提高效率。在OpenAI閉源、英偉達(dá)限制芯片供應(yīng)、特朗普政府星門計(jì)劃的背景下，DeepSeek以較小成本打造全球第二的大模型，證明“技術(shù)壁壘沒有想象的那么大，錢也不一定那么花。”

四、DeepSeek的技術(shù)創(chuàng)新點(diǎn)

DeepSeek的創(chuàng)新點(diǎn)眾多，主要體現(xiàn)在以下幾個(gè)方面：

1.多頭潛在注意力機(jī)制

這是一種減少計(jì)算量和壓縮訓(xùn)練內(nèi)存的機(jī)制。如圖書檢索，傳統(tǒng)方法是為每本書都建立完整的索引和摘要，而DeepSeek的方法則像是建立了一個(gè)智能分類系統(tǒng)，先記一個(gè)簡單的“標(biāo)簽”，需要時(shí)再從標(biāo)簽還原出詳細(xì)信息，類似于將“計(jì)算機(jī)技術(shù)、三樓右側(cè)第二排”簡化為“C2-3”編碼。

2.混合專家模式

根據(jù)任務(wù)的需要，模型會(huì)動(dòng)態(tài)地激活專家子集，共享專家處理通用特征，路由專家處理特定任務(wù)，未被激活的專家不會(huì)占用計(jì)算資源。以數(shù)學(xué)問題為例，傳統(tǒng)模式中可能整個(gè)數(shù)學(xué)內(nèi)容都由同一個(gè)“數(shù)學(xué)專家”處理。在DeepSeek的混合專家模式中，共享專家會(huì)處理句子的語法結(jié)構(gòu)和通用特征,不同的路由專家則分別處理方程識(shí)別、判別式計(jì)算、求根公式相關(guān)的數(shù)學(xué)特征等。

3.多Token預(yù)測(cè)機(jī)制

傳統(tǒng)方法逐個(gè)Token預(yù)測(cè)，導(dǎo)致文本生成不連貫，且效率較低。DeepSeek同時(shí)預(yù)測(cè)多個(gè)Token，可以有效提升生成文本語義上的連貫性和輸出的流暢度。

4.PTX連接底層GPU

CUDA是英偉達(dá)的框架，而PTX是CUDA的底層指令集架構(gòu)。DeepSeek通過直接編寫PTX代碼，顯著提升了GPU的利用率和傳輸效率，不僅有助于減少對(duì)英偉達(dá)GPU數(shù)量的依賴，更在硬件層調(diào)度上積累了進(jìn)一步推動(dòng)國產(chǎn)GPU產(chǎn)業(yè)鏈發(fā)展的經(jīng)驗(yàn)。

嚴(yán)格說，DeepSeek的創(chuàng)新模式，在本質(zhì)上未展現(xiàn)出超越現(xiàn)有Transformer框架的原始理論，仍然只是在既有的技術(shù)體系內(nèi)的深耕和打磨。但是DeepSeek的創(chuàng)新極具工匠精神，為全球人工智能技術(shù)的推進(jìn)起到了極大的促進(jìn)作用。

五、DeepSeek現(xiàn)象帶來的啟示和數(shù)字化項(xiàng)目推進(jìn)的原則

（一）DeepSeek帶來的啟示

一是開源大模型不一定比閉源大模型或者商用大模型差。

二是大模型應(yīng)用不一定依賴天量的、高配的算力；大模型本地化部署是具備可能性的。

三是人工智能技術(shù)迭代迅猛，數(shù)字化發(fā)展中心寧愿多花力氣、以我為主、打好基礎(chǔ)，追求將來可以靈活選擇和切換，而不應(yīng)綁死在某個(gè)大模型或者硬件上。

（二）中咨公司大模型應(yīng)用原則

中咨公司數(shù)字化項(xiàng)目的大模型應(yīng)用原則是：支持多種開源大模型、適配多種算力服務(wù)器、構(gòu)建本地的知識(shí)庫、不斷豐富和擴(kuò)展個(gè)人知識(shí)庫、聚焦開發(fā)Agent應(yīng)用和低代碼平臺(tái)。

在中咨公司的數(shù)字化項(xiàng)目建設(shè)中，數(shù)字化發(fā)展中心堅(jiān)持將大模型和數(shù)據(jù)采用本地化部署策略，確保數(shù)據(jù)安全和核心競(jìng)爭力。部署商用大模型部署成本高昂，且會(huì)在當(dāng)前大模型技術(shù)日新月異的階段過早鎖死技術(shù)路線，因此項(xiàng)目最終選擇了開源大模型本地化部署，并采用松耦合設(shè)計(jì)，可以靈活地選擇任一大模型進(jìn)行應(yīng)用。目前，項(xiàng)目已經(jīng)適配了多種開源大模型和算力服務(wù)器。這次DeepSeek現(xiàn)象表明，數(shù)字化項(xiàng)目確定的大模型使用的一系列原則是正確的。

（三）數(shù)字化項(xiàng)目的其他原則

按照同樣的思路，數(shù)字化發(fā)展中心制定了公司數(shù)字化項(xiàng)目其他兩個(gè)系列的原則：

1.系統(tǒng)搭建方面

構(gòu)建由關(guān)系型數(shù)據(jù)庫、圖數(shù)據(jù)庫和向量庫等組成的大規(guī)模數(shù)據(jù)底座，構(gòu)建可擴(kuò)展知識(shí)庫，提升知識(shí)庫應(yīng)用價(jià)值；建設(shè)泛構(gòu)件化平臺(tái)和數(shù)據(jù)中臺(tái)，將應(yīng)用軟件工具化，研發(fā)多工具和小應(yīng)用，搭建低代碼或零代碼平臺(tái)，實(shí)現(xiàn)快速搭建各類應(yīng)用。

2.軟件開發(fā)方面

定制軟件開發(fā)需掌握源代碼和知識(shí)產(chǎn)權(quán)，軟件開發(fā)需兼容國產(chǎn)芯片、國產(chǎn)數(shù)據(jù)庫和國產(chǎn)操作系統(tǒng)等國產(chǎn)化環(huán)境，模型可遷移、可復(fù)用、可共享。

六、結(jié)束語

本項(xiàng)目應(yīng)用大模型的路線規(guī)劃：第一階段，即當(dāng)前項(xiàng)目處于此階段，聚焦免費(fèi)開源大模型的本地化部署，在確保數(shù)據(jù)不外流的前提下，可以輔以對(duì)接商用大模型的流量訪問。第二階段，在大模型市場(chǎng)競(jìng)爭格局明朗后，挑選持續(xù)更新且性價(jià)比高的大模型，進(jìn)行商用本地化部署，視情況開展微調(diào)工作。生成式大模型存在局限性，“生成”與“幻覺”像硬幣的正反面相伴而生。開發(fā)中發(fā)現(xiàn)，允許發(fā)散的研究報(bào)告生成助手較易實(shí)現(xiàn)，但需要嚴(yán)格精確的制度問答助手在消除幻覺時(shí)難度大，正逐步探索解決方案。

公司數(shù)字化工作需要全體員工共同參與，積極搭建個(gè)性化應(yīng)用，分享經(jīng)驗(yàn)并提出優(yōu)化建議；構(gòu)建可擴(kuò)展的知識(shí)庫，豐富公司數(shù)據(jù)庫；積極使用圖譜工具和量化模型，形成“不量化不研究”的工作習(xí)慣。

數(shù)字化發(fā)展中心將繼續(xù)做好技術(shù)支撐工作，以期盡早實(shí)現(xiàn)“人人可構(gòu)建知識(shí)庫，人人可開發(fā)應(yīng)用”的愿景。

注：文中部分圖片來源于網(wǎng)絡(luò)，版權(quán)歸原作者所有，若有侵權(quán)請(qǐng)聯(lián)系刪除。

返回首頁

午夜精品久久久久久久无码_国产A√精品区二区三区四区_999久久久免费精品国产_国产精品久久久久9999县_成人H动漫精品一区二区无码