4月24日,商湯集團在港交所暫停交易前股價上漲31.15%。商湯集團表示,其大模型日日新5.0發布會受到市場極大關注,公司將進一步刊發相關公告。在“2024年商湯技術交流日”上,商湯發布了其最新的大模型——SenseNova5.0,旨在追趕GPT-4,這反映了中國大模型行業的集體目標。
商湯通過遵循大語言模型的尺度定律(Scaling laws),在不到三個月的時間內,從SenseNova4.0超越GPT-3.5到SenseNova5.0全面對標GPT-4Turbo。尺度定律強調了模型性能與模型大小、數據量和計算量之間的冪律關系。商湯利用科學試驗和數學公式預測下一代大模型的性能,避免了盲目嘗試。
商湯科技董事長兼CEO徐立提出,通過小規模實驗可以預測和驗證模型架構和數據配方的有效性,并確保這些結論在更大規模上得到保持。SenseNova5.0采用了超過10萬億tokens的中英文預訓練數據,并通過邏輯合成數據提升模型的推理、數學和編程能力。
商湯還推出了1.8B參數的SenseChat-Lite,它在主流評測中超過了所有開源2B的同級別模型。此外,商湯發布了針對端側業務的SDK,以及企業級大模型一體機,支持金融、代碼、醫療、政務等行業的數據私有化部署需求。
面向軟件開發,商湯發布了小浣熊代碼大模型一體機輕量版,它在HumanEval的測試中表現超過了GPT-4,支持多種編程語言和上下文,旨在幫助企業開發人員更高效地編寫、理解和維護代碼。
商湯在技術交流日上強調了合作伙伴的重要性,并展示了與華為昇騰等公司的合作成果。商湯的AI基礎設施SenseCore和AIDC算力基座為其提供了強大的支持。商湯的生成式AI業務在2023年取得了顯著增長,占總收入的35%。