<ruby id="r9trr"><mark id="r9trr"><thead id="r9trr"></thead></mark></ruby><p id="r9trr"><cite id="r9trr"></cite></p>

    <p id="r9trr"><cite id="r9trr"></cite></p>

      <p id="r9trr"></p><del id="r9trr"></del>

        <p id="r9trr"></p>
          EN
          MLOps: 人工智能基礎設施創業機會


          耀途資本按:關注AI圈子的朋友可能早就注意到了,近年出現了MLOps(機器學習運維)這樣一個新概念,脫胎于提高工作流效率的 DevOps,顧名思義,可以理解為機器學習時代的DevOps。本文將對MLOps領域各公司進行盤點,剖析數據編程時代的工具鏈創業機會。

          作者Warren Wen,在耀途資本長期關注AI算法、企業服務領域。歡迎AI從業、創業人員,通過知乎(ID 醬油一哥 Warren)或郵件(warrenwen@glory-ventures.com)與他交流。



          MLOps的定義:更好的效果VS更好的落地


          不同的人對MLOps有不同的定義。人工智能和機器學習領域國際最權威學者之一吳恩達認為MLOps最重要的就是ensuring consistently high quality data through all the machine learning lifecycle,強調的是通過保證data quality從而獲得更好的效果。

          ?


          Aquarium是符合該定義的公司,Aquarium 官網寫著“Aquarium is an ML data management platform that helps you improve your models by improving your datasets”,自稱是機器學習數據管理平臺。本質上是通過優化數據質量來提升效果,而不是優化模型提升效果。


          該公司得到了美國紅杉資本和Y Combinator的投資,最新一輪的融資金額為260萬美元。


          另一類人認為MLOps是如何更好或更快地落地,解決機器學習落地的技術債(代碼實現過程中所作的權宜之計的持續成本)。


          廣義的MLOps覆蓋整個機器學習生命周期,創業公司有如Valohai;狹義的MLOps側重在如何把模型投入到生產環境中,主要在部署、服務和監控,創業公司有Algorhmia;另外也有做Feature Store的公司把自己劃分到MLOps領域。

          ?


          MLOps綜合開源項目


          MLOps相關開源項目非常多,這里選取了幾家比較綜合的MLOps開源項目進行對比,涵蓋google的kubeflow、Databricks的MLflow、Netflix的metaflow、lyft的Flyte、allegro.ai的clearml、iguazio的mlrun。


          對比各個項目github的star增長軌跡,可以看出mlflow和kubeflow無論是在star的絕對數量上還是star的斜率上都具有優勢明顯,這或許與Spark和K8s強大的生態有莫大的關系。

          ?


          MLOps創業公司列舉

          ?

          接下來文章將按照機器學習生命周期的階段(數據準備、模型構建和部署與監控)對MLOps相關公司進行分類并加以分析。


          數據準備

          ?


          數據合成


          數據合成方面的創業公司,通過合成數據用于模型訓練。目前數據合成方面的公司融資額都不大,進展并沒有很順利,還很難確定是否存在廣闊市場。


          數據標注


          由于當下AI主要是以監督學習為主,所以普遍存在著數據標注的需求。在數據準備階段,跑的最快的是Scale.ai,該公司目前有望在12個月內賺取1億美元的收入,并且過去一年的銷售額翻了一番。著名的客戶包括PayPal,Pinterest和美國空軍。該公司還與豐田,通用汽車等主要汽車制造商合作。最新一輪融資3.25億美元,估值達到了73億美元。


          標注大量的訓練數據需要一定的成本,成為了部署AI應用的瓶頸,斯坦福 AI Lab開源了一個弱監督框架Snorkel,無需要對標注人員對數據進行標注,而是編寫標注函數,同樣可以訓練SOTA模型,想法新穎,最新一輪完成了3500萬美元的融資,歷史領投機構包括Greylock、Lightspeed Ventures Partners和GV。


          數據質量


          在數據質量方面,吳恩達提到過的data-centric的MLOps,就是通過提升數據的質量,來提升AI系統的效果,而不是優化模型提升效果。


          Aquarium的slogan是“better data through better data”,具體方法是找到標注錯誤但模型預測正確的樣本,進行重新標注。找到標注正確但模型預測錯誤的樣本,增加相似的樣本。Aquarium完成了最新一輪完成了260萬美元的投資,歷史領投方包括Y combinator和美國紅杉資本。


          除了專門聚焦在數據質量方面的Aquarium之外,數據標注獨角獸Scale.ai還發布了新的產品Nucleus,和Aquarium一樣是通過對提升數據的質量,來提升模型預測效果,如下圖所示。

          ?


          數據版本管理和托管


          創業公司有格物鈦Graviti和 Iterative.ai等。其中格物鈦Graviti是國內初創公司,致力于打造AI時代的GitHub,專注于解決AI開發中的數據痛點,從海量公開數據集社區(Open Datasets)到專業數據管理SaaS(TensorBay),使用戶可以在云端輕松獲取、托管、使用數據。對數據集有需求的朋友可以去Open Dataset上去逛逛。


          模型構建

          ?


          深度學習框架


          各個大廠在深度學習框架上層面競爭激烈,如Tensorflow、PyTorch、Mxnet、PaddlePaddle,很少有創業公司敢加入戰場,曾經的DL4J框架已經漸漸淡出了視野。


          而一流科技是國內唯一的一家深度學習框架的初創公司,不禁感嘆創始團隊的情懷和勇氣。創始團隊開發了Oneflow框架,主打高性能。最新一輪完成了5000萬人民幣的融資,高瓴資本獨投。


          訓練管理


          在基于規則的編程范式中,build的過程參與的人員主要是工程師,痛點是做代碼的版本管理。而在基于數據編程的范式中,build的過程是訓練,參與的人員已經不是單純偏向于業務側的工程師,往往帶有一定的研究性質。對于實驗密集型的機構來說,對實驗的模型和參數進行版本管理和追溯就是特別痛的點。


          OpenAI就是典型的研究密集型的機構,Weights&Biases就把OpenAI的用戶案例作為case study。Weights&Biases是實驗管理領域的跑的最快的公司,在200多家企業中有超過70000個用戶。最新一輪完成了4500萬美元的融資,Insight Partners領投。值得一提的是,創始團隊曾經也創立過數據標注公司,并被Appen收購。


          Grid AI的創始人,在紐約大學讀博時曾在Facebook AI Research實習,期間他創建開源項目PyTorch Lightning,構建在pytorch框架之上,一大特點就是把模型代碼和工程代碼分開,讓研究人員專注于模型代碼的編寫,它是世界上增長最快的機器學習項目之一,項目從19年下半年開始開源至今收獲了13.5k,最新一輪獲得了1860萬美元的融資,Index Ventures領投。


          機器學習


          機器學習平臺里面,跑的比較快的是DataRobot,最新一輪5000萬美元的融資,snowflake venture領投,再前一輪完成了2.7億美元的融資,目前估值28億美元。還有開源的公司H2O.ai,最新一輪完成了7000多萬美元的融資,高盛和平安領投。


          DataRobot、H20.ai和Dataiku公司規模較大,產品線較豐富,包括了AutoML和MLOps等產品。


          Snowflake主要產品是云數據倉庫,主要處理表數據,而DataRobot和Dataiku等公司,主要處理也是表數據。數據倉庫是做表的聚合統計,ML是做表的預測(分類或回歸),數倉和機器學習是處理表數據的不同環節,上下游的關系,所以Snowflake同時投資了DataRobot和Dataiku。以Snowflake的目前的體量來看,未來很有可能收購一家聚焦在表數據的機器學習平臺公司。


          國內機器學習跑的比較快的是第四范式,最新一輪完成了騰訊投資的投資,再前一輪完成了7億美元的融資。機器學習平臺方面國內和國外有著顯著的差異,國外的公司往往邊界比較清晰,聚焦在小的單點,而第四方式產品線極其豐富,不僅僅包括軟件,還包括硬件。這與中美IT的基礎設施環境差異有關。


          部署和監控

          ?


          前文提及,廣義的MLOps包括了從設計、建模到部署的多個流程,而這里“MLOps”是狹義定義,根據公司官網的描述來歸類。


          自稱有MLOps產品的創業公司可分為以下幾類:

          • 從AutoML切入:DataRobot、H2O.ai和Dataiku

          • ML life cycle全流程:valohai

          • ML life cycle某一環節:algorithmia


          DataRobot、H2O.ai和Dataiku此類公司,從AutoML切入,擴充產品線到MLOps。例如,DataRobot收購了以色列MLOps公司ParallelM,加強自身在部署方面的能力。algorithmia這類公司聚焦在部署,valohai是覆蓋整個機器生命周期的公司。另外,有些公司側重在機器學習,有些偏向深度學習;有些側重在云端,有些偏向邊緣側(開放智能)。(不同公司的比較可以參考valohai的文章)


          國內的MLOps方向的公司目前有開放智能(Open AI Lab),側重在邊緣側的部署能力。OPEN AI LAB于2016年成立,專注邊緣智能計算及應用,以Tengine為核心,為AIoT產業上下游合作伙伴提供端、邊、云的一體化人工智能開發基礎軟硬件平臺及解決方案。


          2018年6月耀途資本、普華資本聯合領投該公司?pre-A 輪融資,后續其又獲得紅杉資本、寬帶資本上億融資。


          Feature store


          Feature store是Tecton創始人在Uber擔任工程師時提出的一個概念。此后不久,一位名叫Willem Pienaar的工程師閱讀了創始人在Uber上建立feature store的博客文章,并著手構建Feast作為該概念的開源版本,現在是Linux Foundation的一個項目,獲得了將近2k的star。后來Tecton雇傭了Willem Pienaar加了公司。Tecton在2020年分別完成了2000萬美元和3500萬美元的融資,由a16z和美國紅杉資本聯合領投。


          大廠也開始關注該功能。AWS 2021的reinvent大會,在sagemaker中發布了feature store的功能。不久前,在Google I/O上,Google Cloud發布了Vertex AI,這是一個新的托管機器學習平臺,旨在使開發人員更輕松地部署和維護其AI模型。奇怪的是,I/O通常專注于移動和Web開發人員,而且傳統上不會發布很多跟Google Cloud相關的信息,但是Google決定在I/O發布Vertex的事實證明了它的重要性。其中也包含了feature store。我預測在不久的將來,國內巨頭也要發布自己feature store。


          監控與可解釋性


          模型監控很重要,因為可能會出現數據漂移或模型漂移。訓練本質上是用模型去擬合數據的分布,機器學習有個前提條件就是訓練的時候的數據分布和推理的時候的數據分布是一致的。如果在實際的業務中,由于一些原因數據的分布發生了改變,可能是用戶的行為發生了變化,季節性變化等。需要對模型的性能進行監控,觀察性能是否偏離,從而決定是否需要重新的訓練。


          另外,在金融和醫療等行業的某些場景,對模型需要有較高的可解釋性,否則不能投入使用 。


          在模型的可解釋性方面,DataRobot等機器學習平臺公司也有涉及,此外也有專門做模型監控與可解釋性方面的創業公司如Arthur AI,近期完成了最新一輪1500萬美元的融資,Index Ventures領投;Fiddler AI完成了總共完成了1320美元的投資,投資方包括Amazon Alexa Fund、Lightspeed Ventures Partners和Lux Capital。


          數據應用


          實際應用中其實經常存在一個問題數據科學家、開發和運維著明顯技術棧差異,數據科學家在工程方面的能力比較弱,但是業務人員又想要看到AI落地,或者至少有能通的系統demo。傳統上線一個AI系統,需要發算法、編寫后端代碼、編寫html、css和Js等前端代碼,還需要調接口。這對于一個算法想法的落地來說,其實太重了(我本身就有深切的體會)。數據科學家雖然不需要深入了解所有技術棧,但是至少又都需要略知一二,比較繁瑣。


          Streamlit是一家很有意思的公司,目標是解決快速開發數據應用的問題,從需求和目標來說,它其實與MLOps是一致的。Streamlit可以作為一個框架,無需懂前端html、css、Js等知識,就可以快速的編寫和部署網頁,加快了數據應用的開發流程。



          總結


          決定模型效果的有兩個影響因素:數據和算法。現實中的數據集往往都是有噪聲的。對于有噪聲的數據,有兩種解決方案。一種是修改算法,提出能處理噪聲、有泛化能力的算法(顯然難度較大);還有一種修改數據集,提升數據集的質量。


          算法方面:


          AI領域的現象是學術界會源源不斷地提出效果更好的算法,對于企業來說,即使這個月提出了SOTA算法,下個月就有可能被超越(除非是少有人研究或者算法未開源的領域,才有可能保持持續的領先),所以企業在算法層面很難持續地保持領先性。如何商業化AI,如何積累自有的優勢并構建護城河,是所有企業需要思考的問題。


          Pipeline層面:


          雖然pipeline和模型的效果沒有直接的關系,但是好的pipeline能提升模型從構建到部署到生產環境的效率。Valohai公司有一句頗為經典的話,“Models are temporary, pipelines are forever.”


          對于ML pipeline這種基礎設施來說,雖然所有的的AI都很重要,但是其實并不是所有的應用AI的公司都適合自己搭建完整的ML pipeline。就好比不是所有的公司都適合自己搭建數據庫這種基礎設施。所有這就給了AI infra相關的創業公司機會。


          云廠商如GCP、AWS、Azure都有MLOps相關的產品。google很早就發現了機器學習的技術債問題,但大廠在短期內也很難做得很完善,所以google旗下的GV和Gradient Ventures分別投資了MLOps工具鏈上的多家創業公司。


          在通用的ML pipeline方面,為了加快和更好地落地機器學習,有大量的創業公司在數據準備、模型構建、部署和監控方面做了一些探索和創新。


          在面向特定的ML pipeline方面,Rasa和Jina AI等創業公司給了一個全新的視角,chatbot和搜索不僅僅可以做成閉源且靠近業務的公司,其實還可以向下沉淀,做成通用的開源基礎設施公司。


          Dataset quality層面:


          “Models are temporary, pipelines are forever”,如果對這句話進行data-centric改造的話,就是“Models are temporary, datasets quality are forever.”


          很多AI應用側的公司,發表論文,提出新的算法,并不能建立壁壘。正如吳恩達講座中提到的一個問題:是選擇優化算法以適應噪聲數據(model-centric),還是選擇優化數據的噪聲,然后使用一個常規的算法(data-centric)。顯然model-centric的方式提升效果難度更大,并且好的模型總會被不斷的提出,整個模型的效果是由學術在推著往前走,公司很難在算法層面持續地保持領先性。所以,應用AI企業應該把重點放在,如何對企業自有的閉源數據進行debug,提升數據集質量(數據標注正確性、一致性和某一類數據的質量)。


          企業自有閉源數據質量獨特積累的過程,才是構建壁壘的過程。


          模型層面:


          從《Attention is all you need》這篇論文開始,transformer逐漸被人們所關注,再到BERT和GPT的被提出,一股transformer的熱潮席卷而來,NLP領域發生了巨大的變化,基于transformer的模型層出不窮,對于算法工程師來說,一直追蹤并實現新的算法,是不小的工作量。


          Hugging Face抓住了這個現象,以Transformers庫為切入點,主打易用性,借助了這股東風,hugging face在GitHub上的倉庫transformers獲得了46k個star,也獲得了共計6000萬美元的融資。大家都知道pytorch因為易用性獲得了許多開發者的青睞,尤其是學術界的開發者,在深度學習框架上后來居上。


          hugging face也是主打易用性,并從學術界下手構建影響力和生態,Tansformers庫被超過700篇論文引用,超過1000家公司使用。現在hugging face已經從單純的開放模型庫,擴展到開放數據集甚至AutoNLP,與其他AutoML公司切入AutoML領域的方式頗為不同。


          最后


          2019年底,rasa和hugging face就引起了我的關注,如今越來越多的AI infra創業公司成立并完成了后續的融資。


          從宏觀的角度來看,我們從基于規則編程的時代,遷移到基于數據編程的時代,軟件開發的工具鏈將發生了巨大的變化,AI infra蘊藏著巨大的機會。


          從微觀的角度來看,目前的AI模型沒有辦法直接編寫一個軟件,還處于大數據、小任務的范式。距離用純AI模型來編寫軟件還有一定的距離。但是我們可以從GPT系列看到一點苗頭,或許GPT20那時,能帶來令人震撼效果。目前,是處于基于規則編程體系和基于數據編程體系并存的階段。


          如下圖所示,需要基于規則編程體系的軟件開發工程師和數據工程師,以及基于數據編程體系的數據科學家和算法工程師共同協作,因此誕生了像MLOps這樣的工具鏈的機會。

          ?


          我堅定地看好基于數據編程體系的創業機會,尤其是AI infra方面的創業機會。為了更好的幫助AI創業者,抱著Open Source Research as a service的心態,我開源自己的研究成果,發起了SSAIS項目。


          歡迎AI從業、創業人員,通過知乎(ID 醬油一哥 Warren)或郵件(warrenwen@glory-ventures.com)與我交流,進行頭腦風暴,探討AI的商業化發展方向。


          延伸閱讀:

          吳恩達眼中的MLOps:https://zhuanlan.zhihu.com/p/371825225

          格物鈦數據集:https://gas.graviti.cn/open-datasets

          MLOps創業公司對比:https://valohai.com/mlops-platforms-compared

          SSAIS項目:https://github.com/WarrenWen666/AI-Software-Startups





          推薦閱讀

          都在擠破頭投硬科技,成立僅五年VC何以差異化突圍?

          白宗義:芯片投資,新技術新功能的增量市場更具爆發性

          硬科技投資從小眾到群雄逐鹿,如何構建投資壁壘?

          楊光:芯片是抓住新基建機遇的最小單元



          <ruby id="r9trr"><mark id="r9trr"><thead id="r9trr"></thead></mark></ruby><p id="r9trr"><cite id="r9trr"></cite></p>

            <p id="r9trr"><cite id="r9trr"></cite></p>

              <p id="r9trr"></p><del id="r9trr"></del>

                <p id="r9trr"></p>
                  花蝴蝶在线视频免费观看视频动漫