自然语言处理如何入门 --NLPer的打怪升级之路 1 张奇复旦大学 2 1946年2月14日,由美国军方定制的世界上第一台电子计算机“电子数字积分计算机”(ENIACElectronicNumericalAndCalculator) 1950年,图灵发表论文《计算机器与智能》 1954年,IBM实验室进行了自动翻译实验,将60句俄文自动翻译为英文 NaturalLanguageUnderstandingNaturalLanguageProcessing 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 基础 提高 相关资源 李宏毅2020机器学习深度学习(完整版)国语https://www.bilibili.com/video/BV1JE411g7XF 斯坦福CS224N《深度学习自然语言处理》课程(2021)byChristopherManning https://www.bilibili.com/video/BV1nP4y1j7rZ 神经网络与深度学习邱锡鹏https://www.bilibili.com/video/BV13b4y1177W 中科院宗成庆自然语言处理公开课https://www.bilibili.com/video/BV1Cb411T7Cd 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 CNNRBM RecurrentNNRecursiveNN LSTMGRU AttentionDeepRLTransformer ELMOBERT Prompt 20112012201320142015201620172018201920202021 1周内可独立实现R-NET、Transformer基本结构 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 ACL20213350篇论文投稿,最终有21.3%的论文被主会录用,并额外接收了14.9%的论文到Findings子刊。 EMNLP2021共收到有效投稿3114篇,录用754篇,录用率仅为24.82%。 ICML2021的论文接收结果已经公布,今年一共有5513篇有效投稿,其中1184篇论文被接收,接收率为21.5%。 ICLR2021共收到了2997篇论文投稿,相比去年的2594篇论文投稿,增加了15.5%。其中860篇论文被接收,接受率为28.7% NeuíIPS2021收到有效论文投稿9122篇,接收率为26%,只有3%论文被接收为Spotlight。 100+300PaperReadingGroup+Topic 500 1000+ 2000+ Abstract、IntroductionTitle BestPaper、Oral、Spotlight、Session、重点单位 10000+ ACL、EMNLP、NAACL、COLING、IJCAI、AAAI ICML、NIPS、ICLR、CVPR、ACMMM ContrastiveLearningforMany-to-manyMultilingualNeuralMachineTranslation Motivation:当前机器翻译任务还是以英语为中心,导致非英语方向发展滞后,本文中作者想要提出一个many-to-many的跨语言通用翻译模型。 Methods: 1.用对比学习的方法将多种语言映射到同一个语义空ss-间中,令不同语言同语义的句子在表示空间中尽量接近。 2.对句子中的phrase进行aligned的跨语言替换,对平行语料和单独语料的数据增强方法如下图 0NLPer的打怪升级路线图 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 4任务关—研究热点切换速度快 选择热门的方向 选择冷门的方向 1.有明显的益处; 2.描述简单; 3.尚且不具备明确的解法; 4.解决方案具备可测试性,大问题可以拆解为多个子问题,能观察到每个子问题的进程; 5.要确保研究中数据获取的可靠性以及足够数量 《学术研究你的成功之道》---凌晓峰,杨强 《学术研究你的成功之道》---凌晓峰,杨强 •横轴代表相应的研究领域用到的不同方法、方案和技术 •纵轴表示要解决的研究问题或潜在的研究问题 •具有相关性的研究问题要按照顺序排放,无相关性的研究问题可以随意摆放 “四纵三横”理论---王兴 之前的分词算法在处理未登录词或者处理领域特有词时,会有问题 之前的NER算法不会关注图像信息,但是没有图像信息的话,一些Tweets不能很好分析 对任务的理解—经验实验结果错误分析 大规模论文阅读--发现解决方案 HashtagRecommendationforMultimodalMicroblogUsingCo-AttentionNetwork CVPR,VisualQuestionAnswering任务论文大规模论文阅读--任务转换 之前的分词算法在处理未登录词或者处理领域特有词时,会有问题 之前的NER算法不会关注图像信息,但是没有图像信息的话,一些Tweets不能很好分析 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 尝试 通用 理论 莱特兄弟飞行者一号人类歷史上首次重于空气的航空器持续而且受控的动力飞行 ø"#$%&'()*+ø,#$%&-./012)*+ ø3#$%&456)789:;<*+ ø=#$%&>?'@456AB)PromptLearningC ø"#$%&'()*+ 词形分析任务 识别规则名词、不规则名词单数、不规则名词复数 规则名词“box”(以及其他以“z,s,x’’结尾的规则名词) ø,#$%&-./012)*+ 中文分词任务 特征工程(FeatureEngineering):我们要进行“无聊“的特征模板定义环节 ø,#$%&-./012)*+ 中文分词任务 结构工程(ArchitectureEngineering):神经网络虽然解放手动配置特征模板所需要的人力,但是是以需要人工去设计合适网络结构。 ø3#$%&456)789:;<*+ 目标函数挖掘(ObjectiveEngineering):这个过程研究者往往是通过引入额外的目标函数 到预训练语言模型上,以便让其更适配下游任务 36 ø3#$%&456)789:;<*+ ø=#$%&>?'@456AB)PromptLearningC Pre-training 情感倾向分析任务 输入:我喜欢这个电影 输出:“正面"或者"负面" PromptLearning转换为“完形填空", 输入:我喜欢这个电影,整体上来看,这是一个的电影 输出:“有趣的"或者"无聊的" ø"#$%&'()*+ø,#$%&-./012)*+ 语言学*** 语言学**,概率**,最优化*** ø3#$%&456)789:;<*+ 语言学,概率*,最优化** ø=#$%&>?'@456AB)PromptLearningC 语言学,概率*,最优化** øD#$%&EFG;<C øDHI#$%&JKLMC 语言学,概率***,最优化** 4从事自然语言处理深层次研究需要掌握基础理论 任务关 论文关 基础关 理论关 !" #$)( 编程关 %&'( 人类知识 !"#$ !"#$ !"%& &'()*+,-./012 !"'( 34567+,*/89 !"#) :;<=>E@ABCDEFfi *++, >HIJKLMNJOPQR -./0STUVW *+,-."/0⽂123⽅456789:;<"=>42 审稿人一定是专家,⽆无所不知。打印出来,仔细研读揣摩数天,对于看不懂的地⽅反复推 敲。即使你的英⽂文写得极其糟糕、即使你的⽂文章组织很混乱、即使你的表述很难看懂, 审稿人花费了大量的时间后终于看懂了,他认为你的工作是有意义的,决定给你个border line或以上的分数。 12345ffi789:;<=>?897@ 他不一定是专家,一直忙于其他事,在deadline到来之前一天要完成n篇。审稿时他往往先 看题目、摘要,扫一下introduction(知道你做什么),然后直接翻到最后找核心实验结果 (做得好不好),然后基本确定录还是不录(也许只用5分钟!)。如果决定录,剩下就是 写些赞美的话,指出些次要的小⽑毛病。如果决定拒,下面的过程就是细看中间部分找理由 拒了。 *AB89⼈CC=>?897@ 第⼀印象定录拒,5分钟内打动审稿人 以作者为核心整理工作 以读者为核心阐述⼯工作 信息的呈现符合读者的认知惯性 深入浅出,引人入胜,让读者快速找到想要的信息 尽量降低读者的理解难度 合理地综合使用信息元素:图>曲线>表>正文>公式 尽量提高读者阅读时的愉悦感 思想新颖、组织合理、逻辑严密论证充分、文笔优美、排版美观 图表格正文 公式算法证明 如何看浩如烟海的文献? •根据标题过滤50% •根据摘要再过滤20% •根据介绍再过滤20% •剩下的10%再仔细看论文 黄铠 中科院云计算中心首席科学家IEEELifeFellow •用一句话概括你所做的工作 •考虑搜索引擎的影响,包含关键词 •可以适当地别出心裁 几句话概括你的工作误区 •力图把所有细节都说清楚 •用很专业的术语来描述 •出现数学符号 用语要简单,让外行能看懂 研究的任务是什么 现有的方法有什么问题 我们的解决思路是什么 实现这个思路会遇到哪些难点 我们如何解决的 我们解决的还不错 Maeīal.Senīence-levelDisīanīRelaīionExīíacīionviaNegaīiveľíaining,ACL2021 问题是什么 我们的解决思路是什么 我们如何解决的 我们解决的还不错 LiangHuang.ForestReranking:DiscriminativeParsingwithNon-LocalFeatures.InACL2008. 研究的任务是什么 现有的方法哪些 现有的方法有什么问题 我们的解决思路是什么我们如何解决的 我们的核心贡献是什么 现在非常流行在第一页右上部分加入 一个图表说明本文的Motivation •每个段落有个论断性的中心句 •其余部分都是支撑句,围绕中⼼心句展开论证 •前人工作 •具体数据 •支撑句之间可分类组织 •段尾可以加上衔接句 JohnLafferty,AndrewMcCallum,andFernandoPereira.ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData.InICML2003. 不要一上来就描述你的工作,可以先介绍背景知识(往往就是baseline) •有利于降低初学者或其他领域学者的理解难度 •有利于对introduction中的论文做更详细的解释 •有利于对比baseline和你的方法 •英语不好说不清楚?用例子! •全篇统一使用一个runningexample,用来阐释你的方法(甚至是baseline) •围绕着runningexample,展开描述你的工作 •审稿人能从runningexample中更舒服地了解你的工作,读正文会花掉他/她更多时间 •看完runningexample,审稿人便能知道核心思想 •公认的标准数据和state-of-the-art系统 •实验先主后辅 •主实验(测试集):证明显著超过baseline •辅助实验(开发集):参数的影响 •不辞辛劳,做到极致!!! 如何写相关工作附录的写作技巧写作常见问题引用的写法 提高英语写作的窍门 67 !"$ƒ&'()*+,-./0 69 谢谢!