译者 | 布加迪
审校 | 重楼
LLM生态环境渐渐充斥着一群更小巧的专用模型。
AI大语言模型(LLM)市场已达到了成熟阶段,即将通过碎片化迎来转变。LLM时代以强大的海量数据处理能力而令人瞩目,已带领世界由前生成式AI(GenAI)时代迈入了生成式AI时代,并帮助个人和组织了解这项技术以及如何利用该技术为自己谋利。现在,更多的人希望将GenAI应用于更多领域,以解决他们以前无法解决的问题。
如今我们正处于悬崖边,这是新兴技术生命周期中很自然的演变过程。LLM的规模已如此庞大,以至于它们已经消耗了所有可用的训练数据,但它们仍然渴望获得更多的数据来持续创新。一些模型甚至在创建合成数据以供学习。虽然这些庞大的智能系统具有变革性,但最大最新的模型并不总是正确的解决方案。以一位远程维修新型飞机的飞机机械师为例——他们不需要LLM的全部能力,LLM会告诉他们莎士比亚如何编写手册;他们只需要图像、视频、操作说明,或许还有语言翻译。他们可能还需要能够在没有互联网连接的情况下通过手机访问这些信息。
为了实现下一个演进,LLM市场将效仿所有其他广泛实施的技术,细分为一个由更专业化的模型组成的“xLM”市场,其中x代表各种模型。语言模型正部署在需求取决于具体的应用和用例的更多地方,比如降低功耗或提高安全和保障措施。规模是另一个因素,但我们也将看到各种功能和模型,它们具有可移植性、远程性、混合性以及针对特定的领域和区域。伴随这种发展,用例将更加灵活多样,定价、安全和延迟方面会有更多的选择。
重新构思模型训练和数据管理
我们必须重新思考AI模型的训练方式,以便为xLM市场做好充分准备并积极拥抱它。未来更具创新性的AI模型以及对通用人工智能的追求取决于高级推理能力(正如 OpenAI 的o3模型所展示的早期阶段),但这需要重新构建数据管理实践。当前的方法过于依赖静态数据,限制了准确性和实时响应能力。
系统将被设计成能够灵活地实时处理结构化数据、非结构化数据和流数据,同时遵守治理和安全政策。适应性至关重要,因为随着语言模型变得更复杂,它们将被嵌入到一些目前似乎没有意义的功能中。因此,设计灵活的管道将减少未来重建平台的需求。这可以通过利用独特管理的数据的两个领域来实现:符合法规的精选训练数据,以及针对稳健性、成本、延迟和安全进行优化的实时数据。
应对实时数据挑战
为xLM时代准备实时数据管道必然会增加数据工程资源的压力,尤其是对于目前依赖静态批量数据上传和微调的组织而言。在过去,实时准确性要求专业团队在保持数据准确性的同时完成定期批量上传,这带来了成本和资源方面的障碍。随着更多的组织力求获得即时准确性,数量有限的熟练工程师面临的压力随之加大。然而目前有解决方案。
实时管道革命
随着模型市场不断发展,实时AI(Live AI)成了一项颠覆行业的创新。将批处理与实时数据连接器或基于API的数据源相结合的混合数据管道提高了模型准确性,因为它们可以不断学习和忘掉学习。这不仅改善了AI输出,还减轻了数据工程负担,因为他们不再需要准备数据、不断地连接管道。
未来,大多数数据管道都将成为AI管道,所有AI应用系统都将含有实时要素。组织和数据团队必须了解这一点,并为此做好准备,以免日后重建平台。管道必须从一开始就设计成能够自动集成、转换数据并将其馈入模型,无需持续的人工干预。越来越多的工具和数据基础设施让组织不需要大量的评估和训练周期,可以在短短数小时内启动并运行现代化的数据源,立即减少了对数据团队的需求。这些更灵活的解决方案使试验更容易实现,并鼓励组织选择能够无缝适应未来应用和用例变化的工具。
采用支持自动化和智能数据管理的智能框架为更具创新性的模型奠定了基础。当数据工程团队的工作量中不再含有重复且繁重的任务时,他们就可以探索新的模型,创造性地解决问题,并帮助领导者了解哪些类型的模型能够提高效率,并扩大组织影响力。
为更智能的模型更新改造数据管理
迈向多元化的xLM市场将是AI发展的关键阶段。拥抱这些更智能、更专业的模型,并更新改造其背后的数据基础设施,将使AI生态系统在面临当前发展瓶颈的情况下蓬勃发展,开拓更多的用例,并激发彻底改变行业的创新。
原文标题:The Rise of xLMs: Why One-Size-Fits-All AI Models Are Fading,作者:Victor Szczerba
还没有评论,来说两句吧...