您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国际粮食政策研究所]:Longa : 用于班图语的自动语音识别工具 - 发现报告
当前位置:首页/其他报告/报告详情/

Longa : 用于班图语的自动语音识别工具

Longa : 用于班图语的自动语音识别工具

Longa:用于班图语的自动语音识别工具 NelsonMgangaa,EliotJones-Garciab*,AndreaGardeazabalMonsaluec,andJawooKood aZindi,开普敦,南非 b英国诺丁汉诺丁汉大学 c国际玉米和小麦改良中心(CIMMYT),墨西哥Texcoco 国际食品政策研究所(IFPRI),华盛顿特区,美国 INFOEXECUTIVESUMMARY 已提交2023年12月31日国际农场广播电台(FRI)和CGIAR数字创新研究计划 关键词AI,音频分析, 迁移学习,班图人 旗舰Co-LAB 工作包启用环境 阐述了开发端到端的自动语音识别管道,用于斯瓦希里语和卢甘达的翻译,翻译和分析。由于FRI的客户使用的语言数量以及可用于非洲语言语音识别的训练数据有限,这项任务尤其具有挑战性。该工具在斯瓦希里语中称为“Loga”或“让我们聊天”。Loga将用于接听目前从小农那里收到的多余电话,询问有关广播节目的问题,而FRI目前没有能力解决这些问题。充分实施后,Loga应允许FRI将其广播设计得更加复杂。 农民的需求,并更好地为最需要帮助的人提供见解,如女性和青年农民。合作的关键成果包括一系列迭代和协同开发的设计原则,以反映FRI和CGIAR的共同价值和目标,这是Loga概念的证明。建立在开源模型和开放访问语料库上,在最终工具完成后与开发人员社区共享,对卢甘达无线电语音性能和准确性的最新自动语音识别进行了10%的改进,使用现实世界的数据在音频增强过程中的性能得到了一些改进,并证明了微调是将Loga扩展到新语言的有效方法。合作的下一步将侧重于分析和解释农民电话的汇总。 andintegrationwiththeexistingFRIworkflowandsoftware.TheLongateamwillorganizeaseriesofworkshiewstomaximizetheutilityofLongaforFRIanditsimpactforsmallholderfarmersin 1.问题陈述 国际农场广播电台(FRI)是一家国际非营利组织,在撒哈拉以南非洲的40个国家/地区举办农业脱口秀节目,以使专家建议 小农可以理解。他们致力于“农民有很多话要说”的原则,“作为国家、组织和个人,我们都必须致力于共同倾听和采取行动……分享知识,并为 农民。因此,他们不仅广播专家之间的讨论,针对特定的当地问题,而且还接收并回答农民关于他们的问题 实践和要求。不幸的是,这些回应的很大一部分没有得到回应,因为没有工作人员手动翻译每个电话,信息仍然是不可访问的。这提供了一个巨大而丰富的数据集,直接与小农的需求和愿望说话。 *对应作者。电子邮件地址:eliot.jones@nottingham.ac.uk 在2023年9月,FRI启动了他们基于自然的解决方案(NBS)项目。该项目旨在启动“保护,可持续管理和恢复自然和改良生态系统的行动,以有效解决社会挑战和 适应性地,以提供人类福祉和生物多样性的好处,“根据国际保护协会的说法- 自然(IUCN)。在六个国家(布基纳法索,科特迪瓦,埃塞俄比亚,加纳,乌干达和赞比亚),20个广播电台正在与农村社区进行“空中Dia-logues” 站发现当地的优先事项,想法和经验,利用自然适应不断变化的气候。根据结果,将制作200多个有趣的广播纪录片,展示本地解决方案,并且高影响力的交互式广播节目将支持农村的非洲罐头为其社区带来基于自然的解决方案。这些节目中产生的最佳想法将通过与38个国家/地区的3500多家广播公司的网络共享的脚本和故事传播到整个非洲。 这些广播节目旨在创造一个环境,使妇女和青年在 关于气候的对话-以及决策和政治制定者正在关注他们的声音。 2.建议书 如图1所示,我们的目的是研究自动化转录、翻译和分析这些数据的过程的可能性,并提出一种名为LONGA(斯瓦希里语为“聊天”或“让我们聊天”)的工具,该工具可能会从广大农民那里收集丰富的信息,从而导致更适合和更持久的干预措施。 在2022年完成了概念证明,本报告详细介绍了对乌干达FRI办事处的访问,以更好地了解他们的挑战,模型开发的进展以及明年合作的意图。图1的第5到8阶段 将是这项工作的下一个重点,设计数据可以最好地解释,洞察力接口,并建立研究结果的方式。 3.设计原则 在我们与FRI的合作中,合成了以下设计原则,以塑造和评估Longa: 1)协作:该工具将基于FRI价值链中行为者的需求,价值和专业知识。 2)以用户为中心:该工具将能够转录,翻译和提供可操作的见解。 3)寿命:该工具最终将移交给FRI供独立使用。 4)数据驱动:该工具将足够强大,可以在现实世界的数据上进行训练,以满足现实世界的用例 5)灵活性:该工具将能够扩展到- 包括新的语言,而不需要最终用户的大量输入。 6)推进该领域:该工具将利用最先进的 技术,增强FRI工作流程,同时向更广泛的AI社区提供服务。 7)性别平等:该工具旨在扩大女性和青年农民表达农业关切的人数。 这些原则是通过CGIAR和FRI员工之间的迭代讨论和合作制定的 ,并形成了我们的设计途径,如下所述。 4.设计途径 随着人工智能(AI)研究和发展的重大飞跃,农民的数量可以 农业推广服务正在增加,通过收集有关其客户的数据并提供特定于站点的,基于证据的信息,建议和支持的质量也在增加。自然 特别是语言处理(NLP)工具,具有增强的远程数字通信渠道,允许交叉- 语言互动几乎没有人为干预,克服了文盲和地理隔离的障碍 。 但是,有两个问题减少了AI和NLP的影响农业推广。 首先是农民继续缺乏对智能手机或其他先进信息通信技术的访问。智能手机经常受到怀疑,因为数字空间可能会引入新的,不安全的空间,因此在农村社区中几乎没有信任。 在非洲建立和高度信任的无线电媒体,为服务不足的农民提供生命线。FRI与当地运营的广播电台合作,连接收购 信息具有政府的合法性和娱乐的吸引力。 Thesecondissueisinrelationtodesign. 需要。 最近的努力试图通过HuggingFace和Mozilla的CommonVoice项目等举措来增加NLP的低资源语言的代表性。这些开源贡献者网络不仅使非洲语言受益于模型,而且使用户贡献的语料库受益,这些语料库可用于构建更准确和高级的工具。 其他努力尝试从较高的资源语言转移学习,利用其语言属性来减少必要的训练数据以实现成功的输出。然而,由于实现更高的准确度所需的相对复杂和不可解释的模型设计,以及在其上训练模型的数据集不代表日常交互的事实,这些通常难以在实践中实现。 本研究针对NLP的一个方面,使自动语音识别(ASR)技术适应低资源环境。 图1FRI增强工作流程(来源:作者) guages,重点是Bantu小组,构建一个工具,可以很容易地集成到工作流中,以供现实世界使用。因此,该项目在广告中遇到了巨大的差距- 促进人工智能的发展,为由于私营部门投资和技能不足而无法获得的人群带来好处,将这些工具和知识本地化以支持未来的发展。 4.1.协作 第二年开始开发更强大的端到端ASR管道,对开源语音数据进行培训和测试。这将在计划于6月下旬与FarmRadioInternational举行的面对面会议中使用。图2显示了第一个au- 托尔参加了FRI和他们的客户广播电台之间的会议。 图2FRI、CGIAR和Simba电台(来源:作者) 这次访问是为了实现两个关键目标: FRI和CGIAR员工有机会进行协作,讨论当前进展以及后续步骤和部署 ASR模型的选项。 参加与乌干达广播电台一起启动新的FRI倡议。 数字创新团队发起的计划涉及开放UlizaInteractive-FRI用于管理广播节目录音的软件-供公众使用,允许广播电台使用该应用程序进行节目 除了与FRI相关的那些。该软件被重新设计,以允许更通用和用户友好的界面,这将允许用户为不同的节目设置配置文件(称为cam-paigns)并独立管理每个节目。 围绕ASR模型的讨论涉及将数字创新团队引入模型的概念 设计和展示模型的功能。这是为了帮助理解当前方法背后的动机,并更好地调整对Longa性能的期望。讨论还引发了关于如何将模型集成到FRI现有工作流程以及将模型部署到生产中所需的必要工作的对话。 表1是活动和产出的摘要 这是由每一个以及一些潜在的注释产生的- 非常重要的观察。 4.2.以用户为中心 ThecurrentstrategyusedbyFRIistoinformfarmers'decisionsthroughradio.ThismakesradiostationstheprimarytargetofFRIinterventionswhothenhelptoindirectlyimpactfarmingresultsthroughthevariousprograms.Forforthismodeltopro 无线电是内部信息的主要来源 社区,在农民中引起极大的尊重/信任。 Listenersarerepresentativeoftheentirefarmerpopulationandthereforedatacollectedduringinterviewsrepressentssharedviewsofthefarmcommunity.Theseare 然而,按不同的集水区分列,根据当地情况有不同的沟通和内容 属性。 通过广播节目共享的信息从听众传播到社区,从而最终影响更大的人口。这通常受到社会因素的限制- 例如,在男性户主家庭中,妇女不允许参加。 为确保干预的有效性,FRI监督每个广播节目的设计,并结合研究技术- niques.ThisallowstheMonitoring,Evaluation,Research,andLearning(MERL)teamtoassesseachproject’simpactandin 转向信息政策。此外,为了确保有效的目标, Theradioshowsareairledtothepublicbutonlyinalanguagepredentialinaspecificcommunity.Thisisdonetoencourage-ageparticipationfromlocalcommunitiessoastocollectdatafromwithinthedesiredpopulation. Uliza应用程序 Uliza是FRI用于管理与广播电台一起运行的各种项目的软件。该软件包括UlizaInteractive-通过其管理广播节目和采访回复/记录的用户界面-以及UlizaLog,后者包括数据库,用于存储和管理与各种广播节目相关的数据。 ThedesignofthesoftwarewouldallowforeasyintegrationofthemodelintoFRI’scurrentworkflow.SinceUlizainteractivealreadysupportsmanualtranscriptofrecords,incorp-ratingthemodelwouldonlyrequirethesoftwaretocallthemodel,runinferenceonthe 表1乌干达访问活动 日期 活动 输出 注释 2023年6月21日 FRI简介和组织运作概述。数字创新团队和Uliza应用程序简介。 来自FRI的PowerPoint演示文稿 各部门独立运作每个团队都专注于其目标,例如,DI团队致力于技术和MERL,专门从事影响评估 2023年6月22日 机器学习和ASR模型简介 。 讨论工作流程以及如何最好地集成。 Nelson的演讲和与数字创新团队的讨论 DI团队似乎很欣赏这项研究,并热衷于看到Lo