i黑馬訊 3月1日,星塵數據在京舉辦春季媒體開放日暨Rosetta3.0平臺上線發布會。星塵數據創始人、CEO章磊宣布Rosetta3.0平臺正式上線。
發布會上,章磊提出了標注行業認知天梯,即初級認知是標注行業是“人力工廠”,服務商用相對初級的標注工具、項目管理和海量人力就能干活,招標時低價者中標,存在交付風險;中級認知是,對項目管理的難度和標注工具的復雜度有一定認知,投入工具研發和項目管理成本,研發周期長,管理難度大,數據迭代效率低;高級認知是,重視平臺的技術實力,使用高度自動化的標注平臺,且與數據服務商一起迭代數據閉環和數據策略。
Rosetta平臺全面升級
星塵數據擁有行業內自動化水平最高的標注平臺Rosetta平臺,在算法種類、算法效率、算法接入能力、算法交互能力等方面均具領先優勢,其數據閉環系統打通數據采集標注、數據預處理、自動化質檢、人工質檢、多輪質檢、客戶驗收系統、數據管理、數據檢索、數據可視化、場景挖掘等全鏈路,同時為客戶提供數據策略專家服務,能夠支持人機交互、主動學習、強化學習等主流數據策略。
Rosetta3.0 提升了算法加持能力,新增 20+ 自研算法,點云標注效率較純人工標注提升 5倍+,支持機器人標注及質檢,支持交互式標注以及算法實時反饋;增強了自動駕駛數據標注能力,3D 渲染 50幀/秒以上,支持超長連續幀 2000+ 流暢標注,支持 2000W 點點云平滑標注,支持 BEV標注、3D 重建標注、4D 標注、毫米波標注;增強數據閉環支持能力,打通 DataOps 和 MLOps 鏈路,通過 API 對接實時發現難例,幫助客戶實現主動學習和強化學習;通過架構模式全面升級提升平臺能力,采用微服務架構模式,系統具備更高擴展性和可用性,可支持數萬人同時作業,并引入流式計算等大數據技術,提升平臺數據實時處理能力;提供面向第三方的開放服務能力,通過 OpenAPI 方式,和客戶建立靈活的數據通路和算法服務通路,加速客戶算法迭代速度;構建 5A 數據安全保障體系,從產品、技術雙層面落地 5A 數據安全架構,實現端到端存儲傳輸使用安全、信息隱私保護、數據隔離等;持續增強全方位、精細化質檢能力,提供上百個行業通用質檢規則服務和自研質檢算法,為數據質量保駕護航,標注準確率可達 99.9%;強化數據管理能力,支持多源異構數據管理、版本管理、標簽管理、場景管理,支持數據可視化、數據場景挖掘、多模態檢索等。
除Rosseta 數據標注平臺外,星塵數據還為客戶提供Rosseta標注軟件基礎版、Rosseta標注軟件高級版、Rosseta標注軟件旗艦版、Rosseta App、Rosseta獨立標注工具、開放平臺Open API等眾多產品形態,支持私有化部署和定制化軟件,滿足客戶多樣性需求。
百億美金標注市場規模
近年來,隨著人工智能技術的發展,數據標注行業成為一個新興產業,在短短數年間迎來了爆發式的發展。根據Grand View Research的數據,全球數據標注市場未來十年將以年復合增長率約25%的速度增長,市場規模將達百億美金。此外,隨著AI+垂直場景相結合的趨勢以及垂直行業自身的蓬勃發展,數據標注行業將迎來更大的增量市場空間。2021年國務院印發的《“十四五”數字經濟發展規劃》明確指出,支持市場主體依法合規開展數據采集,聚焦數據的標注、清洗、脫敏、脫密、聚合、分析等環節,提升數據資源處理能力,培育壯大數據服務產業。
與此同時,數據標注行業也面臨一系列挑戰:標注難度和標注質量要求提升,多場景和復雜化的需求對標注平臺和工具要求越來越高;數據量爆發,人力標注無法實現規?;o標注產能帶來挑戰;行業從一般性數據標注走向難例發現、數據挖掘,需要從海量數據中識別真正有價值的數據;MLOps、DataOps對平臺的端到端閉環能力提出挑戰;4D融合等前沿標注對大規模標注基礎設施建設提出挑戰;智能汽車數據安全引發公眾擔憂。
2022年Tesla AI Day讓更多人知道了自動化標注的存在,也讓星塵數據這類“數據標注行業的技術專家”走到臺前。星塵數據成立于2017年,總部位于北京,2022年底公布A輪融資5000萬人民幣。星塵橫向服務全場景AI數據標注能力,縱向深耕自動駕駛行業,目前覆蓋90%頭部自動駕駛客戶,此外還服務智能家居、智慧城市、智能機器人、智慧醫療、智慧教育、智能零售、智能遙感、智慧金融等眾多數據場景。
Autolabeling讓標注更簡單
星塵數據從創立之初就確立了三個目標:首先,通過自動化標注提高標注效率;其次,通過提供數據策略專家服務,為客戶創造更多的價值;最后,通過數據閉環讓客模型訓練效果更好,數據標注量更少,提高標注性價比。
基于戰略目標和企業定位,星塵數據推出國內首個自動化標注平臺Rosetta平臺,平臺提供數百個標注功能,可支持圖像、點云、文本、語音、采集等在內的 100+ 種主流標注場景。
Rosetta命名來源于埃及金字塔旁發現的石碑Rosetta Stone。這塊石碑刻有古埃及法老托勒密五世詔書的三種不同語言版本,讓近代的考古學家得以有機會對照各語言版本的內容后,解讀出已經失傳千余年的埃及象形文之意義與結構。星塵數據Rosetta平臺解決了人類語言和機器語言之間的轉譯鴻溝,讓大規模訓練數據的機器學習成為可能。
星塵數據開發了上百種輔助標注算法,為預標注、標注、質檢環節提供多樣化的算法輔助。以激光雷達點云標注為例,平臺在渲染、自動貼合、自動映射、連續補間等功能上具備行業領先的性能,具備無延時切幀特點。
算法的加入讓平臺自動化水平逐年提升,目前平臺自動化率達到60%。高自動化率讓標注效率和標注產能顯著提升,相比其他平臺,標注員在Rosetta平臺能標得更快,獲得更多收入。
算法也讓復雜標注需求得以解決。星塵算法團隊密切關注前沿技術動向,會提前做好技術儲備和產品沉淀。目前平臺可支持BEV、3D重建、4D融合等自動駕駛前沿算法的數據標注。
定位“數據策略專家”
傳統的數據標注流程中,算法人員制定數據標注規則,標注公司消化后再提供給標注團隊。然而,執行過程中,算法的思路并不能一次性達到最優化;其次,數據標注人員僅僅是一個“干活兒的”角色,并不能幫助更好地迭代算法效果。因此,算法側時常會有一些不合理的規則導致成本飆升或難度大增導致難以執行。有些企業提出了不合理的標注規則,例如要求1/20的遮擋比例或在沒有基礎模型的前提下提出“一個點起標”。
數據管理也是企業頭痛的問題。例如,數據通過硬盤傳輸,效率低且無法管理。此外,還存在數據批次多、臟數據多、清洗后有效數據少、同類型數據重復標注的問題。同一批數據,雖然L2和L4模型訓練都用得上,但企業缺乏數據策略意識,數據復用性低,無形中增加了成本。
在服務90%頭部自動駕駛客戶、經歷上千個項目打磨后,星塵不僅沉淀出了行業領先的標注平臺和工具,還培養出了經驗豐富的數據策略專家。星塵一些資深員工在談到自家工具時十分自信,更讓他們自豪的是,他們能夠基于豐富的項目經驗為客戶提供更好的建議。
章磊表示,數據策略中涉及大量前沿技術,既包括算法中和數據相關的技術,如領域遷移、時空融合、數據增強、弱監督學習等等,也包括以數據為中心的反饋迭代技術,如主動學習、強化學習、數據檢索、Human-in-the-loop、數據安全、場景化數據生成、模型測試等。數據策略專家既要了解相關技術也要熟悉產品,以專業性來服務客戶。一個典型的例子是,客戶在感知算法中因為沒有做運動補償,需要對相機信號和雷達信號逐一進行人工確認。星塵的數據策略專家在和算法溝通后,提出通過2DOD算法和3D映射聯合計算,通過IoU篩選候選樣本的方案,并將多個算法直接以人機交互的方式嵌入標注流程中,節省了50%以上的標注時間。
全流程閉環式AI數據系統將成主流
在發布會上,章磊介紹了星塵數據的數據閉環解決方案,這是Rosetta3.0平臺的一大亮點。章磊表示,全流程閉環式AI數據系統將成為主流,星塵數據為此提早進行研發布局。
在一個完整的數據閉環訓練中,客戶可使用星塵提供的離線數據包進行基礎版模型訓練,星塵標注系統通過API與客戶算法系統進行交互,動態感知客戶模型效果,基于模型各版本迭代的效果,動態檢索不確定性最大、信息量最大、損失最大、稀疏場景等有效數據。幾次迭代后,不僅沉淀了有效數據,還節省了數據成本。同時,星塵還可以在海量數據中找到真正有價值的數據幫助客戶訓練模型,并利用自有數據集評測模型效果。模型上線后,行車數據可用于模型迭代,形成數據閉環。
以ChatGPT語言模型為例,通過星塵的Rosetta3.0數據標注系統,客戶可以將模型快速接入系統,通過API實時將結果顯示在標注平臺上,星塵專屬基地的NLP標注員可以快速給出反饋。同時,獎勵強化模型實時接收到反饋并進行訓練,可以實現模型的高效訓練并及時發現難例和缺陷。該解決方案目前已進入與某深度客戶的POC測試環節。
章磊表示,未來星塵數據將專注AI數據服務,通過Autolabeling 技術、數據策略專家服務和數據閉環系統服務,為全球人工智能企業特別是自動駕駛行業提供“燃料”,最終實現AI的平民化。



