7B的模型也能玩轉AI Agents了?近期,快手開源了Kwai Agents,親測發(fā)現(xiàn),問它周末滑雪問題,它不但能幫你找到場地,連當天的天氣都幫你考慮周到了。
大語言模型(LLM)通過對語言的建模而掌握了大量知識,并具備一定認知和推理能力。但由于無法跟世界保持實時的交互,在單獨使用的情況下,常會出現(xiàn)一本正經地胡說八道的現(xiàn)象。而AI Agents就是解決這個問題的道路之一,它通過激發(fā)大模型任務規(guī)劃、反思、調用工具等能力,使大模型能夠借助現(xiàn)實世界工具提升生成內容的準確性,甚至有能力解決復雜問題。
據了解,KwaiAgents是一個先進的AI智能體系統(tǒng),由快手聯(lián)合哈爾濱工業(yè)大學研發(fā),通過使用大型語言模型來模仿人類認知技能,可應用于自然語言處理、語音識別等領域。Kwai Agents可以使7B/13B的“小”大模型也能達到超越GPT-3.5的效果,目前該項目已將系統(tǒng)、模型、數據、評測全部開源,使得更多的研究人員可以參與其中。
技術報告:https://arxiv.org/abs/2312.04889
項目主頁:https://github.com/KwaiKEG/KwaiAgents
從「KwaiAgents」的Github主頁中可以看到,本次開源內容包含:
1.系統(tǒng)(KAgentSys-Lite):輕量級AI Agents系統(tǒng),并配備事實、時效性工具集;
2.模型(KAgentLMs):Meta-Agent Tuning后,具有Agents通用能力的系列大模型及其訓練數據;
3.評測(KAgentBench):開箱即用的Agent能力自動化評測Benchmark與人工評測結果。
KAgentBench通過人工精細化標注的上千條數據,做到了開箱即用,讓大家能夠用一行命令評測一個大模型在不同模板下,各方面的Agents能力。下表顯示了經過快手團隊調優(yōu)后,7B-13B模型各項能力的提升,且超越了GPT-3.5的效果:
同時,作者們還請人類標注者在200個事實性和時效性的問題(如“劉德華今年幾歲了”),對不同的大模型和Agent系統(tǒng)進行了交叉評估,可以看到KAgentSys系統(tǒng)和MAT之后模型提升顯著(百分號前為正確率,括號內為5分制均分)。
通常僅依賴網頁搜索對一些長尾問題和熱門問題返回結果不佳。比如問到“安東內拉比梅西大多少天?”這類長尾問題,往往搜索結果返回的都是一些兩者的八卦新聞,而返回不了一些關鍵信息。而KAgentSys 通過調用百科搜索工具獲取精準的出生日期,再調用time_delta時間差工具算出年齡差,就能精準回答這個問題了。
快手技術人員表示,AI Agents是一條非常有潛力的道路,未來一方面會在這個方向持之以恒地沉淀核心技術,并為整個社區(qū)不斷地注入新的活力;另一方面,也會積極探索Agents技術與快手業(yè)務的結合,嘗試更多有趣、有價值的創(chuàng)新應用落地。
- QQ:61149512