7月7日,高性能人工智能與視頻處理芯片解決方案提供商瀚博半導體(上海)有限公司發布了首款云端通用AI推理芯片SV100系列及VA1通用推理加速卡,可實現深度學習應用超高性能、超低延時的推理性能,顯著降低數據中心與邊緣智能應用的部署成本。據悉,SV100系列及VA1通用推理加速卡預計將于今年四季度量產上市。
半導體是耀途資本長期關注領域。自2019年參與瀚博PreA輪融資以來,耀途資本又連續兩次追投其A輪、A+輪。此外還投資了多家行業領先半導體公司,例如星宸科技、Innoviz、壁仞科技、國芯科技、伏達半導體、Hailo、愛芯科技、Vayyar、縱慧芯光、炬佑智能、磐啟微電子、瀚博半導體、賽勒科技、至晟微等。
瀚博也將繼續參與WAIC,展位號:H1-A421,展出SV100系列云端通用AI推理芯片及VA1通用AI推理加速卡。歡迎感興趣的朋友線下參觀。
來源?|??芯東西(公眾號:aichip001)
作者 | ?心緣
編輯 | ?漠影
7月7日,在2021世界人工智能大會上,瀚博半導體推出其首款云端AI通用推理芯片SV100系列,以及通用AI推理加速卡VA1。
瀚博半導體創始人兼CEO錢軍說,這兩款新品能有效應對低延時、通用性和視頻處理等方面的行業痛點,推進云端與邊緣的智能應用落地。
據悉,其SV100系列首發產品SV102現與國內外多家頭部互聯網公司合作,預計將于今年第四季度量產上市。
瀚博半導體成立于2018年12月,總部設在上海,在北京、深圳和多倫多有研發分部。當前其團隊規模已超過200人,碩士及以上學歷占80%。今年2月,瀚博研究院成立。
融資進展方面,瀚博半導體先是在2019年3月獲得真格基金天使輪融資,2019年6月獲得天狼星、耀途Pre-A輪融資,去年7月獲得快手、五源、紅點、賽富A輪融資5000萬美元,今年3月獲得中國互聯網投資基金、經緯中國、聯發科5億元A+輪融資。
瀚博半導體創始人兼CEO錢軍展示SV100系列芯片
瀚博半導體的兩位創始人,CEO錢軍和CTO張磊,都擁有20多年的芯片設計經驗,并均在創業前曾任AMD高管,深度了解行業客戶對吞吐量、延遲、通用性和成本的需求。
據錢軍分享,瀚博的核心員工擁有超過15年的GPU相關芯片及軟件設計經驗,包括業界第一顆7nm GPU在內的約100款芯片流片、量產經驗。
不過,不同于核心團隊以往的研發方向,瀚博半導體沒有選擇繼續深耕GPU賽道,轉而研發針對各種深度學習推理負載進行優化的DSA架構。
錢軍引用了一些行業數據,AI進入應用期,數據中心推理算力需求的復合增長率是訓練的2倍以上,2021年中國市場AI服務器的推理負載有望超過訓練負載。在推理側,GPU不是最好的解決方案,性能不及DSA架構。基于這些原因,瀚博半導體選擇首先研發基于DSA架構的推理芯片。
錢軍將AI推理計算的核心性能指標總結為LTE:延時(latency)、吞吐量(Throughput)、能效(Energy Efficiency)。
對此,瀚博半導體的應對之道是在視頻處理方面,讓高并發的解碼能力與AI算力匹配;在LTE方面,具備極低延時、極高吞吐量性能,并保持低功耗;在創新方面,提供負載分析、硬件通用可擴展、軟件棧。
自成立起,瀚博半導體即啟動自研AI核,隨后在2020年5月實現其首顆半定制7nm芯片的流片。今天,瀚博半導體正式發布其首款云端AI通用推理芯片SV100系列。
瀚博SV100系列是一款超高性能人工智能與視頻處理芯片,核心優勢是能兼顧智能視頻解碼和AI計算的需求。2021年6月,SV100系列芯片測試成功。錢軍透露說,這款推理芯片開始測試8分鐘就宣布點亮。
瀚博SV100單芯片INT8峰值算力超200 TOPS。相同功耗下,SV100可實現數倍于現有主流數據中心GPU的深度學習推理性能指標,具有超高吞吐率、超低延時的特性。
SV100基于瀚博自主研發的通用DSA架構,支持FP16、BF16和INT8等數據格式,可實現眾多主流神經網絡的快速部署,適用于計算機視覺、智能視頻處理、自然語言處理和搜索推薦等多種推理應用場景。
同時,SV100系列集成高達64路以上H.264/H.265/AVS2的1080p視頻解碼,廣泛適用于云端與邊緣智能應用場景,能幫助客戶節省設備投資、降低運營成本。
除了發布SV100系列,瀚博半導體也同步推出了基于SV102芯片(SV100系列首發產品)的VA1 PCIe推理加速卡。
VA1采用單寬半高半長75瓦PCIe x16卡設計,支持32GB內存和PCIe 4.0高速接口協議,適用于絕大多數服務器,無需額外供電,即可實現數據中心高密度算力部署。
該加速卡可提供高效率深度學習AI推理加速,在同等能耗下,實現2-10倍于GPU的最高AI吞吐率,而延時不到GPU的5%,適合實時應用。
同時,它兼備良好的通用性和可擴展性,支持FP16、BF16和INT8數據類型的主流神經網絡快速部署,包括檢測、分類、識別、分割,視頻處理、LSTM/RNN、NLP/BERT、搜索推薦等。
如下圖所示,同為75瓦功耗時,在處理兩種AI模型時,瀚博VA1吞吐率均超過了英偉達的A10和T4云端推理GPU。
根據瀚博半導體分享的測試結果,同等推理性能下,瀚博SV102/VA1方案比英偉達T4 GPU節省60%服務器成本,比A10 GPU節省50%的TCO。
視頻處理方面,VA1支持64路以上H264、H265或AVS2 1080p解碼,分辨率支持高達8K。
相比之下,市面上許多云端AI推理芯片沒有內置視頻解碼,而是用多個GPU來做視頻解碼,因此從更適配處理到AI加速要用到多顆芯片,而VA1只用一顆SV102就能兼顧兩類功能,且功耗更低、處理能力更強。
目前,瀚博半導體正將其加速卡與聯想、浪潮、新華三、超微服務器以及CentOS、Ubuntu、紅帽、中標麒麟、銀河麒麟等操作系統做適配。
錢軍透露說,瀚博半導體后續還會推出15W、150W的產品。
考慮到向前兼容性非常重要,瀚博半導體的軟件棧具有極高靈活性與可擴展性,能夠支持未來新興算法模型和用戶自定義算子擴展等。
另一方面,占據過半中國AI應用市場的計算機視覺應用,需要高密度的視頻解碼算力配合AI算力實現端到端的計算加速,在兩者之間的算力配比平衡方面,瀚博半導體也做了大量的工作。
瀚博半導體創始人兼CTO張磊
瀚博半導體創始人兼CTO張磊說:“我們的軟件棧完備,同時提供了符合行業開發者使用習慣的工具,方便使用者以極低成本向瀚博硬件平臺遷移、部署現有算法應用。”
目前瀚博半導體的VastStream軟件平臺已支持TensorFlow、PyTorch、Caffe2等主流深度學習框架模型與ONNX格式的模型,通過高度定制的AI編譯器充分優化模型在瀚博硬件上的執行效率。
隨著瀚博半導體推出其SV100系列芯片,國產云端AI芯片的隊伍迎來又一位新成員。
AI芯片賽道持續火熱,資本投資熱情不減。不過與前兩年不同的是,如今人們看待AI芯片更加理性,不再輕易聽信故事,而是聚焦在審視其核心技術的獨特競爭優勢以及落地能力上。
如今全球AI芯片仍在起步階段,無論是科研創新還是產業應用都有廣闊的探索空間。對于AI芯片創企來說,這仍是個開創未來的黃金時代。
推薦閱讀