瀚博半導體推首款「通用云端推理AI芯片」，INT8峰值算力超200TOPS 投資組合

瀚博半導體推首款「通用云端推理AI芯片」，INT8峰值算力超200TOPS

7月7日，高性能人工智能與視頻處理芯片解決方案提供商瀚博半導體（上海）有限公司發布了首款云端通用AI推理芯片SV100系列及VA1通用推理加速卡，可實現深度學習應用超高性能、超低延時的推理性能，顯著降低數據中心與邊緣智能應用的部署成本。據悉，SV100系列及VA1通用推理加速卡預計將于今年四季度量產上市。

半導體是耀途資本長期關注領域。自2019年參與瀚博PreA輪融資以來，耀途資本又連續兩次追投其A輪、A+輪。此外還投資了多家行業領先半導體公司，例如星宸科技、Innoviz、壁仞科技、國芯科技、伏達半導體、Hailo、愛芯科技、Vayyar、縱慧芯光、炬佑智能、磐啟微電子、瀚博半導體、賽勒科技、至晟微等。

瀚博也將繼續參與WAIC，展位號：H1-A421，展出SV100系列云端通用AI推理芯片及VA1通用AI推理加速卡。歡迎感興趣的朋友線下參觀。

來源?|??芯東西（公眾號：aichip001）

作者 | ?心緣
編輯 | ?漠影

7月7日，在2021世界人工智能大會上，瀚博半導體推出其首款云端AI通用推理芯片SV100系列，以及通用AI推理加速卡VA1。

瀚博半導體創始人兼CEO錢軍說，這兩款新品能有效應對低延時、通用性和視頻處理等方面的行業痛點，推進云端與邊緣的智能應用落地。

據悉，其SV100系列首發產品SV102現與國內外多家頭部互聯網公司合作，預計將于今年第四季度量產上市。

瀚博半導體成立于2018年12月，總部設在上海，在北京、深圳和多倫多有研發分部。當前其團隊規模已超過200人，碩士及以上學歷占80%。今年2月，瀚博研究院成立。

融資進展方面，瀚博半導體先是在2019年3月獲得真格基金天使輪融資，2019年6月獲得天狼星、耀途Pre-A輪融資，去年7月獲得快手、五源、紅點、賽富A輪融資5000萬美元，今年3月獲得中國互聯網投資基金、經緯中國、聯發科5億元A+輪融資。

瀚博半導體創始人兼CEO錢軍展示SV100系列芯片

一、核心團隊擁有超15年芯片經驗，曾參與業界首款7nm GPU流片

瀚博半導體的兩位創始人，CEO錢軍和CTO張磊，都擁有20多年的芯片設計經驗，并均在創業前曾任AMD高管，深度了解行業客戶對吞吐量、延遲、通用性和成本的需求。

據錢軍分享，瀚博的核心員工擁有超過15年的GPU相關芯片及軟件設計經驗，包括業界第一顆7nm GPU在內的約100款芯片流片、量產經驗。

不過，不同于核心團隊以往的研發方向，瀚博半導體沒有選擇繼續深耕GPU賽道，轉而研發針對各種深度學習推理負載進行優化的DSA架構。

錢軍引用了一些行業數據，AI進入應用期，數據中心推理算力需求的復合增長率是訓練的2倍以上，2021年中國市場AI服務器的推理負載有望超過訓練負載。在推理側，GPU不是最好的解決方案，性能不及DSA架構。基于這些原因，瀚博半導體選擇首先研發基于DSA架構的推理芯片。

錢軍將AI推理計算的核心性能指標總結為LTE：延時（latency）、吞吐量（Throughput）、能效（Energy Efficiency）。

對此，瀚博半導體的應對之道是在視頻處理方面，讓高并發的解碼能力與AI算力匹配；在LTE方面，具備極低延時、極高吞吐量性能，并保持低功耗；在創新方面，提供負載分析、硬件通用可擴展、軟件棧。

二、首款云端推理芯片，峰值算力超200 TOPS

自成立起，瀚博半導體即啟動自研AI核，隨后在2020年5月實現其首顆半定制7nm芯片的流片。今天，瀚博半導體正式發布其首款云端AI通用推理芯片SV100系列。

瀚博SV100系列是一款超高性能人工智能與視頻處理芯片，核心優勢是能兼顧智能視頻解碼和AI計算的需求。2021年6月，SV100系列芯片測試成功。錢軍透露說，這款推理芯片開始測試8分鐘就宣布點亮。

瀚博SV100單芯片INT8峰值算力超200 TOPS。相同功耗下，SV100可實現數倍于現有主流數據中心GPU的深度學習推理性能指標，具有超高吞吐率、超低延時的特性。

SV100基于瀚博自主研發的通用DSA架構，支持FP16、BF16和INT8等數據格式，可實現眾多主流神經網絡的快速部署，適用于計算機視覺、智能視頻處理、自然語言處理和搜索推薦等多種推理應用場景。

同時，SV100系列集成高達64路以上H.264/H.265/AVS2的1080p視頻解碼，廣泛適用于云端與邊緣智能應用場景，能幫助客戶節省設備投資、降低運營成本。

三、VA1：同等能耗下，AI吞吐率最高達GPU的10倍

除了發布SV100系列，瀚博半導體也同步推出了基于SV102芯片（SV100系列首發產品）的VA1 PCIe推理加速卡。

VA1采用單寬半高半長75瓦PCIe x16卡設計，支持32GB內存和PCIe 4.0高速接口協議，適用于絕大多數服務器，無需額外供電，即可實現數據中心高密度算力部署。

該加速卡可提供高效率深度學習AI推理加速，在同等能耗下，實現2-10倍于GPU的最高AI吞吐率，而延時不到GPU的5%，適合實時應用。

同時，它兼備良好的通用性和可擴展性，支持FP16、BF16和INT8數據類型的主流神經網絡快速部署，包括檢測、分類、識別、分割，視頻處理、LSTM/RNN、NLP/BERT、搜索推薦等。

如下圖所示，同為75瓦功耗時，在處理兩種AI模型時，瀚博VA1吞吐率均超過了英偉達的A10和T4云端推理GPU。

根據瀚博半導體分享的測試結果，同等推理性能下，瀚博SV102/VA1方案比英偉達T4 GPU節省60%服務器成本，比A10 GPU節省50%的TCO。

視頻處理方面，VA1支持64路以上H264、H265或AVS2 1080p解碼，分辨率支持高達8K。

相比之下，市面上許多云端AI推理芯片沒有內置視頻解碼，而是用多個GPU來做視頻解碼，因此從更適配處理到AI加速要用到多顆芯片，而VA1只用一顆SV102就能兼顧兩類功能，且功耗更低、處理能力更強。

目前，瀚博半導體正將其加速卡與聯想、浪潮、新華三、超微服務器以及CentOS、Ubuntu、紅帽、中標麒麟、銀河麒麟等操作系統做適配。

錢軍透露說，瀚博半導體后續還會推出15W、150W的產品。

四、高度靈活軟件棧，支持自定義算子擴展

考慮到向前兼容性非常重要，瀚博半導體的軟件棧具有極高靈活性與可擴展性，能夠支持未來新興算法模型和用戶自定義算子擴展等。

另一方面，占據過半中國AI應用市場的計算機視覺應用，需要高密度的視頻解碼算力配合AI算力實現端到端的計算加速，在兩者之間的算力配比平衡方面，瀚博半導體也做了大量的工作。

瀚博半導體創始人兼CTO張磊

瀚博半導體創始人兼CTO張磊說：“我們的軟件棧完備，同時提供了符合行業開發者使用習慣的工具，方便使用者以極低成本向瀚博硬件平臺遷移、部署現有算法應用。”

目前瀚博半導體的VastStream軟件平臺已支持TensorFlow、PyTorch、Caffe2等主流深度學習框架模型與ONNX格式的模型，通過高度定制的AI編譯器充分優化模型在瀚博硬件上的執行效率。

結語：國產云端AI芯片隊伍日益壯大

隨著瀚博半導體推出其SV100系列芯片，國產云端AI芯片的隊伍迎來又一位新成員。

AI芯片賽道持續火熱，資本投資熱情不減。不過與前兩年不同的是，如今人們看待AI芯片更加理性，不再輕易聽信故事，而是聚焦在審視其核心技術的獨特競爭優勢以及落地能力上。

如今全球AI芯片仍在起步階段，無論是科研創新還是產業應用都有廣闊的探索空間。對于AI芯片創企來說，這仍是個開創未來的黃金時代。

推薦閱讀

一、核心團隊擁有超15年芯片經驗，曾參與業界首款7nm GPU流片

二、首款云端推理芯片，峰值算力超200 TOPS

三、VA1：同等能耗下，AI吞吐率最高達GPU的10倍

四、高度靈活軟件棧，支持自定義算子擴展

結語：國產云端AI芯片隊伍日益壯大

都在擠破頭投硬科技，成立僅五年VC何以差異化突圍？

白宗義：芯片投資，新技術新功能的增量市場更具爆發性

硬科技投資從小眾到群雄逐鹿，如何構建投資壁壘？

楊光：芯片是抓住新基建機遇的最小單元