清华张晓燕:大语言模型在金融领域的应用

投中网   |   鲁智高
2025-04-01 10:53:45  分钟 11    阅读需  3263 字数 

虽然存在算力、语料、伦理、监管等挑战,但发展金融业AI应用的趋势非常明确。

由于具备大规模、高质量的数据资源,以及多维度、多元化的应用场景,金融业正成为大模型重要的应用领域。

3月31日,由海淀区政府主办,北京中关村科学城创新发展有限公司、北京中关村创业大街科技服务有限公司、投中信息、清华大学五道口金融学院共同承办的2025中关村论坛年会「人工智能主题日」核心论坛——"AI未来论坛:创新·投资·全球化"上,金融学讲席教授、清华大学五道口金融学院副院长、清华大学金融科技研究院副院长张晓燕发表题为“大语言模型在金融领域的应用”的主题演讲。

在张晓燕看来,大模型正对金融业产生深刻影响,并且已经在不少应用场景实现落地。虽然存在算力、语料、伦理、监管等挑战,但发展金融业AI应用的趋势非常明确。

以下为张晓燕的现场演讲实录,由投中网整理:   

    非常有幸来到中关村论坛。我今天想讲的是大语言模型,聚焦的是一个非常小的领域——金融。    

我跟大家分享的内容,主要是清华大学五道口金融学院以及金融科技研究院对行业的总结和思考。我是一个老师,给大家看一下讲话提纲,先看一下发展现状,再看几个应用案例,一些挑战、解决方案和未来趋势。

    1.大语言模型定义

过去一两年时间里面,大家对大语言模型已经耳熟能详,尤其是今年开始,DeepSeek席卷全行业,影响到社会的方方面面。但我还是特意想要提出来,大语言模型的一个常规打法和一个新的打法。

一开始,大语言模型参数量特别大,训练数据量也很大。大家可以看看GPT,GPT模型参数量是1800个Billion,是不开源的。到DeepSeek是671个Billion参数量,训练数据量是14800个Billion,是开源的。特别大的数据量,这是常规打法。

但是今年DeepSeek出来之后,又出现了一个新的打法。因为DeepSeek采用的是Mixtuse of Experts的架构和一些混合的精度训练技术,成本特别低。今年除了DeepSeek以外,阿里推出的通义千问也是开源的,而且它的表现可以跟DeepSeek-R1相媲美。

    这让我想到一年以前在达沃斯开会,当时有很多国际上专家问,当美国切断你的算力的时候,中国会怎样应对?当时是个预言。那时还是2024年1月,没有人会知道DeepSeek会横空出现。当时的预言就是,中国人一定会找到办法解决算力的问题。所以DeepSeek今年卷起来的浪潮,给我们注入了很大的自信心。也就是算力被封锁的时候,我们找到了一个适合自己发展的道路,而且做得非常好。这是大语言模型的特点,一个常规打法和一个新的打法。

    我们再看一下发展趋势。中国大模型2023年8月还是8个,到2024年12月增长到302个,增长趋势非常快。想跟大家说一个很有意思的点,参数规模的统计,大家可以看到7个Billion,还有100个Billion及以上。意思就是说,目前7 Billion参数规模的模型数量最多,占所有发布大型模型的26%。很多公司都已经意识到大模型里面的小模型兼具了成本和效益的优势,发展也是非常迅速,大家在关注大模型的时候,也记得这些小模型。

    我们也来看一下它的应用场景,前面的专家很多都提到两个场景,一个在云侧,一个在端侧,还说到天生就是云端。云侧和端侧不太一样,云侧大模型里面主要是通用大模型和专业大模型,主要侧重于通用行业的深度应用。我们再看端侧,端侧有手机大模型、PC大模型,就是你下载下来,放在自己的手机和电脑上进行使用。这些依然以通用任务为主导,但是数学推理,多模态理解和AI搜索变成重点的发展方向,这个生态变得特别多样化。大模型的功能应用场景非常重要,目前用得很多的依然是通用大模型。

    2.应用案例

    案例1:第一个应用是来赚钱。我自己团队在去年的时候已经在用大模型了。我带着我们的博士生,用大模型从中文的新闻文本当中提取信号来预测中国A股市场当中的股票回报,也就跟量化基金做的事情很像。量化基金有这个财力做这件事情,而且大模型的研究非常深入,我们自己尝试的时候,也是取得了非常好的收益率。

    在2019年-2023年年底的这个阶段,一个是市值加权投资组合的绩效,一个是等权投资组合的绩效,不管我们用哪个大模型,都可以打败这个市场大盘。

    案例二:财务分析。

    现在大量大模型用于提取信息,对公司进行财务分析。由于时间关系,我就不一一念了。

    案例三:“轩辕”大模型

    度小满推出的“轩辕”大模型,在金融场景的任务当中,表现非常优异。

    案例四:DeepSeek

    DeepSeek在金融领域的应用,过去两三个月遍地开花。刚才北京银行党委书记、董事长霍学文也提到,北京银行跟各类AI大模型进行深度融合。江苏银行、平安保险、国泰君安,他们都分别部署DeepSeek的模型来提高生产效率,从而更好服务客户。这只是三个小例子,我发现中国各地的银行、券商、保险等各类各样的金融机构,都在不断部署DeepSeek的大模型来提高自己的生产效率。这是现状和应用的案例。

    3.大模型挑战和可能的解决方案

    挑战一:算力与语料

    AI的发展是非常快的,它的成功基于前面大量数据的积累,但是到2028年,全球高质量语料面临枯竭,互联网语料内容增速在2010年以后已经掉到两位数的增长率。对中文大模型来说,预料一直不太够,这就会让中文大模型的准确度受到影响。在美国限制我们算力的同时,我们发展出自己的特色道路,但是语料这个问题怎么解决?我想还是悬而未决。

    挑战二:数据安全与道德伦理

在我们金融学院,目前对金融行业有很多争议,所以还要提一下数据安全和道德伦理的问题。网络攻击一直上升,金融行业遭遇的风险越来越多。除此以外,道德伦理、风险也变得越来越严重。

前两天我去看病,医生跟我说,现在病人都带着大模型来看病了,他们比医生还要懂,也不知道是来看病还是怎么样。拿着手机去看病,这个事情确实是一个新鲜的模式,但是大家要意识到,大模型它到底有多么准确?多么可用?它只是一个工具,里面会掺杂大量的偏见与歧视风险,还有前面嘉宾提到的幻觉输出。大家如果收到的信息都一样,大家会做出同样选择,会不会导致系统性风险?

还有最后责任界定的困境。意思是什么呢?算法的黑箱让决策过程难以追溯,所以监管责任的确定也变得非常痛苦。这是我们成长当中碰到的痛苦,我相信最终会有解决方案。

    挑战三:信息传播

大模型的挑战,在于改变金融传播范式方面,大家想必感同身受。传播的主体去中心化,大家可以看到大量网络媒体突破了传统金融媒体的信息论和垄断,把传播路径变得特别复杂,最后就变成我们每个人来区别这个信息到底是可信还是不可信。在这个过程当中,金融界经常发现有的人被操纵了,他为什么被操纵呢?

我们看下面一个例子,比如加密货币AI炒作,AI自己生成一些文件或者白皮书,推动社交媒体的热度上升,交易所API自动上币,然后量化交易,策略跟风买入,价格上升。这其实是一个泡沫,导致市场的操纵风险特别增大,需要监管与时俱进。

    挑战四:人才短缺

    我们对AI的需求。在Linkedin上面,有AI技能人员比例一直在上升,不管是在Advance,还是在一个发展中国家,都是快速上升。但是我们的AI人才极度缺乏,所以对于清华大学以及五道口金融学院来说,最重要的事情是干什么?是培养能够拥抱AI的复合型人才。这倒是一个解决方案。

    4.发展趋势

    趋势一:金融领域大模型技术创新加速

    将来的发展趋势是什么?目前我们发展金融业AI应用的大趋势一直在上升,专利也是在上升,需求也是在上升,创新在不断加速。

    趋势二:大模型驱动行业价值快速增长

    在过去两三年里面,很多金融行业在深度拥抱人工智能和大模型,在哪个地方用呢?我国人口众多,这个大模型特别适合提供客户定制化的服务。举一个例子,智能投顾资产管理规模到2024年是2万亿美元,还有后面的2025年、2026年、2027年,未来有非常广阔的发展空间。

    趋势三:大模型与小模型协同开启金融智能化新篇章

    每个国家都有自己的AI发展路径。我这里给了一下定义,大模型参数数量一般在10亿以上,小模型参数的数量比较少。它俩的区别在哪里?一个耗时长、比较贵,一个耗时短、比较便宜。所以小模型在应用当中效率更高、成本较低,而且速度快,易于部署和更新。前面的嘉宾讲了很多落地和场景,很多情况下小模型就可以非常迅速地进行反应解决问题,所以我们觉得这是一个不容忽视的趋势。

    我从学界的角度,跟大家分享了大模型目前在全球发展的现状,它能够提供工作效率,能够提升个性化服务,改善生活的方式。另外一方面,它有很多挑战,比如算力、语料、伦理、监管等等。最后也跟大家分享了我们对将来发展趋势的一些想法,尤其是在不同场景下,不同人工智能,不管是大模型、小模型,我相信都会发挥自己的作用。

    谢谢大家!

   

网站编辑: 郭靖
0

全部评论

—— 没有更多评论了 ——
—— 没有更多评论了 ——