授权公开披露 项目SmartFi探索 授权公开披露 FinTech新闻的AI/ ML 授权公开披露 与SYNTASA合作,由Google云驱动 授权公开披露 Poweredby ABSTRACT 世界银行金融和技术部与世界银行技术和创新实验室合作,与GoogleCloud和SyntasaInc.合作 ,了解人工智能和机器学习如何增强全球金融科技主题的新闻来源和情绪。本成果报告分享了作为原型探索和开发的一部分的关键学习和见解。 本报告中概述的主要学习内容由项目SmartFi(智能金融)团队准备。 世界银行财政部金融与技术(TREFT):PaulSnaith,PatrickCheng,JaskaranSingh 世界银行技术与创新实验室(ITSTI:)YusufKaracaoglu,StelaMocan,MoraFarhad,MaheshChandrahasKarajgi,OleksandraPostavnicha,YujuanSun 世界银行公司采购:SanjayColaco,ShwetaMesipam SyntasaIncorporated:ShawnZargham,MichaelFinn,KyleWitt,JamesWilson,EricBugin,KareemSharaf,TedBlake GoogleCloud:RyanWright,RajatGupta 确认 Contents 缩写和缩略语v 第1节:Overview1 执行摘要1项目背景3 项目团队和赞助商4 第二节:人工智能在金融领域的探索News5 研究方法5 业务挑战范围6 第3部分:与GoogleCloud和Syntasa9 与技术合作伙伴进行快速原型设计9解决方案概述和关键结果14技术方法(Syntasa)22 第4节:学习成果和未来注意事项37 世界银行的技术学习37业务学习和成果42 附录A:叙述性仪表板功能46附录B:参考数据50 附录C:Brandwatch55 附录D:SmartFi-可信域技术细节58附录E:SmartFi-不确定域技术细节62附录F:SmartFi-中文技术详情65 数字和表格 表2.16 图3.1:Syntasa解决方案10图3.2:建模的提及16 图3.3:WordCloud17 图3.4:域来源18 图3.5:域和PDF来源19图3.6:趋势主题20 图3.7:情绪验证21 图3.8:情绪模型可解释性21 图3.9:解决方案体系结构23图3.10:数据和AI管道24图3.11:中文应用程序配置25图3.12:主题建模参数27 图3.13:仪表板趋势短语28图3.14:情绪可解释性29图3.15:情绪验证30 图3.16:语言翻译性能32图3.17:PDF来源33图3.18:情绪可解释性34 图3.19:解决方案体系结构35图4.1:主题建模38 图4.2:主题建模解释器39表4.1:情绪分析模型40 ivSmartFi项目:为金融科技新闻探索AI/ML 缩写和缩略语 缩写Description缩写Description AI人工智能 API应用程序编程接口AppApplicationAWSAmazonWeb服务 BARDAIGoogle的生成AI工具 BERT来自变压器的双向编码器表示 BI商业智能BQ大查询 聊天GPT开放AI的生成AI 工具 DLP数据丢失预防ETL提取变换负载FedRAMP联邦风险和 授权管理程序 FinTech金融与技术 FTX期货交易所GCPGoogle云平台IAM身份访问 管理层 IoT物联网 ITSTI世界银行集团技术与创新实验室 JSONJavaScript对象表示法KPI关键绩效指标LDA潜在狄利克雷分配LLM大型语言模型 LookMLLooker建模语言 ML机器学习NLP自然语言处理 NMF负矩阵分解OCR光学字符识别POC概念证明PoV价值证明 罗伯塔BERT模型的变体RPA机器人过程 自动化 Saas软件即服务SmartFi智能金融 中小企业主题专家 TI实验室世界银行技术与创新实验室 TRE财政部 TREFT世界银行财务处金融技术股UI用户界面 VPC虚拟私有云 v SECTION 1概述 执行摘要 在当今快节奏的世界里,随时了解最新的金融科技新闻和趋势可能是一项挑战,这有助于为财务和运营战略的决策提供信息。互联网上可用的信息和意见数量可能是压倒性的,过滤掉对企业用户最相关和最重要的信息可能是一项挑战。技术 不断发展;新的趋势和发展可能每天都在出现。为了应对这一挑战,世界银行财政部金融技术部门 (TREFT)和世界银行集团技术与创新实验室(ITSTI)(以下简称“项目团队”)开展了一项框架研究,以探索新兴技术如何提供解决方案,以帮助用户访问策划的,可信的和相关的新闻来源,使他们了解趋势主题的情绪。 ITSTI实验室遵循结构化方法,使用设计思维方法来了解最终用户的需求,需求和痛点。项目团队确定了关键主题和感兴趣的术语的样本列表;各种可信来源(包括开源和订阅内容以及社交媒体渠道);以及感兴趣的地理区域,以帮助指导数据需求。该团队还进行了市场研究,以了解如何解决类似的问题,并以实验室知识为基础。 在整个研究过程中,我们与最大的搜索提供商GoogleClod合作。GoogleClodPlatform(GCP)提供了一系列工具和服务,这些工具和服务有助于使用机器学习来获取新闻,例如,云自然语言API可以从新闻文章中提取实体、情感和见解,以及许多其他功能。我们还与GoogleClod的合作伙伴公司SytasaIc.合作 。,专门从事情感分析,通过数据分析生成见解,并了解数字行为,为业务用户定制解决方案。 SiphosethuFanti/peopleimages.com 借助由GoogleCloud提供支持的Syntasa,我们合作设计和创建了仪表板的原型,该仪表板为用户提供了 以深入了解情绪趋势,以便可以按主题和区域快速识别行为变化。我们创建的可视化工具还提供了自定义过滤器的灵活性,以便快速访问易消化的FinTech主题,从而帮助用户了解最新趋势 及其行业的发展;确定新的机会;并做出明智的决定。 我们的合作为项目团队提供了机会,不仅可以探索潜在的解决方案,还可以向Syntasa学习 科技公司规划和开发人工智能(AI)和机器学习(ML)原型,以扩展到企业采用。世界银行技术与创新实验室(TILab)技术团队与Sytasa和GoogleClod密切合作,了解数据科学家如何构建定制的AI/ML模型,并测试其在透明度、问责制和合规性方面的准确性和可解释性,并确保AI系统公平、符合道德且使用安全。本报告概述了我们开发的解决方案的技术知识、价值驱动因素和功能。 项目背景 世界银行的财务业务,金融技术部门(TREFT)与财务业务部门和技术开发人员密切合作,从构思阶段到开发并成功实施,帮助领导财务部门的技术进步计划。 TREFT积极与本行各业务部门合作,为资金业务中的业务用例确定和实施合适的技术解决方案,并通过 内部和/或现成的解决方案。这一过程需要不断审查银行的内部技术能力,并与现有行业标准和新的市场发展进行比较。因此,对于TREFT来说,有选择地监控新技术趋势和解决方案,并随后确定它们是否适合改善财务业务,这一点非常重要。目前,该过程主要是手动执行的,有大量的人员时间和资源定期专用于此。当前的一些挑战包括:。 • • • • 手动采购和整合最相关和信息丰富的金融科技新闻和事件是乏味的。跟踪市场讨论以及围绕着著名的金融科技主题和事件的公众情绪。 搜索范围有限在新闻来源方面,考虑到时间和资源的限制。确定真实性新闻来源、主题相关性和潜在的主题分类。 为了应对这些挑战并系统地协调FinTech和技术新闻采购的流程,TREFT看到了一个独特的机会 探索模仿人类方法的AI系统,以便快速有效地获取与特定业务部门感兴趣的主题相关的策划新闻。一个相关的机会是自动化量化相关性,测量情绪和确定新闻来源后的偏见的过程。这可以通过镜像人类策略来衡量一篇文章的相关性,并确定其整体情绪和偏见来实现,这一过程也可以通过人工智能方法来支持。 鉴于这些机会的存在以及将这种人工智能解决方案部署到财政部内的多个用例的潜在好处,TREFT与其合作伙伴创新实验室合作,探索可以满足用例要求的内部和现成解决方案。 项目团队和赞助商 TREFT在所有机构项目,维护,预算和计划周期中协调世界银行财务处信息技术基础设施的有效内部管理 ,确保其符合目的,最新,安全和可靠。该部门还根据财政部在全球金融市场中的重要地位制定和维护适当的战略技术规划,并利用这一地位为市场和发展效应建立内部和外部伙伴关系。TREFT的技术计划包括领导财政部参与大规模系统更新和金融技术领域的新兴技术项目,如AI/ML,区块链,RPA和世界银行的金融范围项目。 TI实验室是世界银行集团信息和技术副总裁的一个专门部门,围绕三个主要支柱:创新、实验和能力建设。TI实验室与世界银行集团内的各个部门和单位以及外部合作伙伴密切合作,以确定可应用新兴技术解决业务和发展问题的潜在领域。它的目的是协助。 世界银行集团(WBG)业务团队负责问题框架、需求收集、数据准备、技术指导和原型交付,以帮助决策者评估一项投资是否值得投入运营。TI实验室的任务是边做边学,并在团队之间共享知识,以实现持续创新。 SECTION 2 用人工智能探索财经新闻 研究方法 收集和策划与特定主题或一组主题相关的新闻文章的最有效方法是什么? 1 2 现有的用于分析新闻文章的情感分析模型的准确性和可靠性如何,需要哪些类型的自定义或培训来提高其性能? 3 4 不同来源的新闻文章(社交媒体,传统新闻媒体,博客)在情感和与特定主题的相关性方面有何不同? 将情感分析结果可视化并呈现给用户的最有效方法是什么,以及如何定制这些方法以满足不同利益相关者的需求? 5 6 如何使用情绪分析来识别特定行业或领域中的趋势和新兴主题,以及可以从这种分析中获得哪些类型的见解? 使用情感分析来策划和分析新闻文章的伦理和法律含义是什么,以及如何在解决方案的开发和实施中解决这些问题? 7 不同的用户群体(分析师,高管,投资者)如何使用策划的新闻和情绪分析,以及哪些其他功能和功能对这些用户可能很重要? 业务挑战范围 ThescopeofthePoCwasdeterminedbytheprojectteamincollaborationwithSyntasa.FoundationaldataandbasematerialwasprovidedasinputtotheSyntasateamasdetailedbelow: TREFT业务运营感兴趣的相关主题以具有以下结构的整体Excel文档的形式提供给Sytasa。开发了主要主题,并将各种子主题归类为主题,然后形成了相关的FiTech和与技术相关的关键字库。为了提供额外的过滤机制并考虑到主题的地理相关性,提供了额外的地理位置和区域列表,主题子主题产生了更具体和相关的搜索结果。输入结构的简要示例可以在表2.1中看到,附录B中提供了详细的概述。 TABLE2.1 主题 资产令牌化 数字货币 Web3 Keywords •可替换令牌•ICO(首次硬币发行)•NFT(不可替代令牌)•可编程货币•可编程付款•碳标记化•安全令牌产品(STO) •CBDC(中央银行数字货币)•交付与付款(DvP)•数字资产•数字钱包•稳定币•FOMO(害怕错过)•即时付款 •区块链•加密货币•DApps(分散应用程序)•DLT(分布式分类帐技术 ) •分散式自治组织(DAO)•分散融资(DeFi)•互操作性 区域列表 域列表 过滤器 (北美、南美、欧洲、中东和北非地区、亚洲等) (federalreserve.gov、ecb.europa.eu、bankofcanada.ca、mas.gov.sg、imf.org等)