热门搜索：

2023年自然语言处理如何入门-NLPer的打怪升级之路报告-69页

文化传媒2024-12-08-复旦大学哪***

AI智能总结

自然语言处理入门指南

1. 基础关

目标1：NLP基本任务
- 包括分词、词形还原、命名实体识别等。
目标2：机器学习基本任务
- 包括监督学习、无监督学习等。
如何过关
- 推荐学习资源：李宏毅2020机器学习深度学习、斯坦福CS224N《深度学习自然语言处理》等。

2. 编程关

框架的迭代速度惊人
- 每年都有新的算法热点。
如何过关
- 1周内可独立实现R-NET、Transformer基本结构。

3. 论文关

NLP&ML相关论文每年10K+
- 如ACL、EMNLP等会议论文数量。
分层过滤，集团作战
- 大规模论文阅读，找到合适的切入点。
如何过关
- 对任务的理解、经验实验、错误分析、论文阅读等。

4. 任务关

研究热点切换速度快
- 如何选择热门或冷门方向？
选择热门方向
- 有明显益处，描述简单，尚未明确解决方案，具备测试性。
选择冷门方向
- 确保数据可靠性和数量充足。

5. 写作关

论文文发表流程
- 包括审稿人角色、撰写技巧等。
转变观念
- 以读者为核心，降低理解难度，提高阅读愉悦感。
标题的重要性
- 根据标题、摘要、介绍等筛选论文。
摘要写作技巧
- 几句话概括工作，避免使用复杂术语。
Introduction部分的写法
- 介绍研究任务、现有方法、问题及解决方案。
实验设计
- 使用标准数据，确保显著性，详细记录实验过程。
Caption包含充分的信息
- 图表应直接传达信息，无需额外阅读正文。

以上内容涵盖了自然语言处理入门的关键步骤和注意事项，帮助初学者逐步提升技能。

自然语言处理如何入门 --NLPer的打怪升级之路 1 张奇复旦大学 2 1946年2月14日，由美国军方定制的世界上第一台电子计算机“电子数字积分计算机”（ENIACElectronicNumericalAndCalculator） 1950年，图灵发表论文《计算机器与智能》 1954年，IBM实验室进行了自动翻译实验，将60句俄文自动翻译为英文 NaturalLanguageUnderstandingNaturalLanguageProcessing 任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识基础提高相关资源李宏毅2020机器学习深度学习(完整版)国语https://www.bilibili.com/video/BV1JE411g7XF 斯坦福CS224N《深度学习自然语言处理》课程(2021)byChristopherManning https://www.bilibili.com/video/BV1nP4y1j7rZ 神经网络与深度学习邱锡鹏https://www.bilibili.com/video/BV13b4y1177W 中科院宗成庆自然语言处理公开课https://www.bilibili.com/video/BV1Cb411T7Cd 任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识 CNNRBM RecurrentNNRecursiveNN LSTMGRU AttentionDeepRLTransformer ELMOBERT Prompt 20112012201320142015201620172018201920202021 1周内可独立实现R-NET、Transformer基本结构任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识 ACL20213350篇论文投稿，最终有21.3%的论文被主会录用，并额外接收了14.9%的论文到Findings子刊。 EMNLP2021共收到有效投稿3114篇，录用754篇，录用率仅为24.82%。 ICML2021的论文接收结果已经公布，今年一共有5513篇有效投稿，其中1184篇论文被接收，接收率为21.5%。 ICLR2021共收到了2997篇论文投稿，相比去年的2594篇论文投稿，增加了15.5%。其中860篇论文被接收，接受率为28.7% NeuíIPS2021收到有效论文投稿9122篇，接收率为26%，只有3%论文被接收为Spotlight。 100+300PaperReadingGroup+Topic 500 1000+ 2000+ Abstract、IntroductionTitle BestPaper、Oral、Spotlight、Session、重点单位 10000+ ACL、EMNLP、NAACL、COLING、IJCAI、AAAI ICML、NIPS、ICLR、CVPR、ACMMM ContrastiveLearningforMany-to-manyMultilingualNeuralMachineTranslation Motivation：当前机器翻译任务还是以英语为中心，导致非英语方向发展滞后，本文中作者想要提出一个many-to-many的跨语言通用翻译模型。 Methods： 1.用对比学习的方法将多种语言映射到同一个语义空ss-间中，令不同语言同语义的句子在表示空间中尽量接近。 2.对句子中的phrase进行aligned的跨语言替换，对平行语料和单独语料的数据增强方法如下图 0NLPer的打怪升级路线图任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识 4任务关—研究热点切换速度快选择热门的方向选择冷门的方向 1.有明显的益处； 2.描述简单； 3.尚且不具备明确的解法； 4.解决方案具备可测试性，大问题可以拆解为多个子问题，能观察到每个子问题的进程； 5.要确保研究中数据获取的可靠性以及足够数量《学术研究你的成功之道》---凌晓峰，杨强《学术研究你的成功之道》---凌晓峰，杨强 •横轴代表相应的研究领域用到的不同方法、方案和技术 •纵轴表示要解决的研究问题或潜在的研究问题 •具有相关性的研究问题要按照顺序排放，无相关性的研究问题可以随意摆放 “四纵三横”理论---王兴之前的分词算法在处理未登录词或者处理领域特有词时，会有问题之前的NER算法不会关注图像信息，但是没有图像信息的话，一些Tweets不能很好分析对任务的理解—经验实验结果错误分析大规模论文阅读--发现解决方案 HashtagRecommendationforMultimodalMicroblogUsingCo-AttentionNetwork CVPR,VisualQuestionAnswering任务论文大规模论文阅读--任务转换之前的分词算法在处理未登录词或者处理领域特有词时，会有问题之前的NER算法不会关注图像信息，但是没有图像信息的话，一些Tweets不能很好分析任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识尝试通用理论莱特兄弟飞行者一号人类歷史上首次重于空气的航空器持续而且受控的动力飞行 ø"#$%&'()*+ø,#$%&-./012)*+ ø3#$%&456)789:;<*+ ø=#$%&>?'@456AB)PromptLearningC ø"#$%&'()*+ 词形分析任务识别规则名词、不规则名词单数、不规则名词复数规则名词“box”(以及其他以“z，s，x’’结尾的规则名词) ø,#$%&-./012)*+ 中文分词任务特征工程（FeatureEngineering）：我们要进行“无聊“的特征模板定义环节 ø,#$%&-./012)*+ 中文分词任务结构工程（ArchitectureEngineering）：神经网络虽然解放手动配置特征模板所需要的人力，但是是以需要人工去设计合适网络结构。 ø3#$%&456)789:;<*+ 目标函数挖掘（ObjectiveEngineering）：这个过程研究者往往是通过引入额外的目标函数到预训练语言模型上，以便让其更适配下游任务 36 ø3#$%&456)789:;<*+ ø=#$%&>?'@456AB)PromptLearningC Pre-training 情感倾向分析任务输入：我喜欢这个电影输出：“正面"或者"负面" PromptLearning转换为“完形填空"，输入：我喜欢这个电影，整体上来看，这是一个的电影输出：“有趣的"或者"无聊的" ø"#$%&'()*+ø,#$%&-./012)*+ 语言学*** 语言学**，概率**，最优化*** ø3#$%&456)789:;<*+ 语言学，概率*，最优化** ø=#$%&>?'@456AB)PromptLearningC 语言学，概率*，最优化** øD#$%&EFG;<C øDHI#$%&JKLMC 语言学，概率***，最优化** 4从事自然语言处理深层次研究需要掌握基础理论任务关论文关基础关理论关 !" #$)( 编程关 %&'( 人类知识 !"#$ !"#$ !"%& &'()*+,-./012 !"'( 34567+,*/89 !"#) :;<=>E@ABCDEFfi *++, >HIJKLMNJOPQR -./0STUVW *+,-."/0⽂123⽅456789:;<"=>42 审稿人一定是专家，⽆无所不知。打印出来，仔细研读揣摩数天，对于看不懂的地⽅反复推敲。即使你的英⽂文写得极其糟糕、即使你的⽂文章组织很混乱、即使你的表述很难看懂，审稿人花费了大量的时间后终于看懂了，他认为你的工作是有意义的，决定给你个border line或以上的分数。 12345ffi789:;<=>?897@ 他不一定是专家，一直忙于其他事，在deadline到来之前一天要完成n篇。审稿时他往往先看题目、摘要，扫一下introduction（知道你做什么），然后直接翻到最后找核心实验结果（做得好不好），然后基本确定录还是不录（也许只用5分钟！）。如果决定录，剩下就是写些赞美的话，指出些次要的小⽑毛病。如果决定拒，下面的过程就是细看中间部分找理由拒了。 *AB89⼈CC=>?897@ 第⼀印象定录拒，5分钟内打动审稿人以作者为核心整理工作以读者为核心阐述⼯工作信息的呈现符合读者的认知惯性深入浅出，引人入胜，让读者快速找到想要的信息尽量降低读者的理解难度合理地综合使用信息元素：图>曲线>表>正文>公式尽量提高读者阅读时的愉悦感思想新颖、组织合理、逻辑严密论证充分、文笔优美、排版美观图表格正文公式算法证明如何看浩如烟海的文献？ •根据标题过滤50% •根据摘要再过滤20% •根据介绍再过滤20% •剩下的10%再仔细看论文黄铠中科院云计算中心首席科学家IEEELifeFellow •用一句话概括你所做的工作 •考虑搜索引擎的影响，包含关键词 •可以适当地别出心裁几句话概括你的工作误区 •力图把所有细节都说清楚 •用很专业的术语来描述 •出现数学符号用语要简单，让外行能看懂研究的任务是什么现有的方法有什么问题我们的解决思路是什么实现这个思路会遇到哪些难点我们如何解决的我们解决的还不错 Maeīal.Senīence-levelDisīanīRelaīionExīíacīionviaNegaīiveľíaining,ACL2021 问题是什么我们的解决思路是什么我们如何解决的我们解决的还不错 LiangHuang.ForestReranking:DiscriminativeParsingwithNon-LocalFeatures.InACL2008. 研究的任务是什么现有的方法哪些现有的方法有什么问题我们的解决思路是什么我们如何解决的我们的核心贡献是什么现在非常流行在第一页右上部分加入一个图表说明本文的Motivation •每个段落有个论断性的中心句 •其余部分都是支撑句，围绕中⼼心句展开论证 •前人工作 •具体数据 •支撑句之间可分类组织 •段尾可以加上衔接句 JohnLafferty,AndrewMcCallum,andFernandoPereira.ConditionalRandomFields:ProbabilisticModelsforSegmentingandLabelingSequenceData.InICML2003. 不要一上来就描述你的工作，可以先介绍背景知识（往往就是baseline） •有利于降低初学者或其他领域学者的理解难度 •有利于对introduction中的论文做更详细的解释 •有利于对比baseline和你的方法 •英语不好说不清楚？用例子！ •全篇统一使用一个runningexample，用来阐释你的方法（甚至是baseline） •围绕着runningexample，展开描述你的工作 •审稿人能从runningexample中更舒服地了解你的工作，读正文会花掉他/她更多时间 •看完runningexample，审稿人便能知道核心思想 •公认的标准数据和state-of-the-art系统 •实验先主后辅 •主实验（测试集）：证明显著超过baseline •辅助实验（开发集）：参数的影响 •不辞辛劳，做到极致！！！如何写相关工作附录的写作技巧写作常见问题引用的写法提高英语写作的窍门 67 !"$ƒ&'()*+,-./0 69 谢谢！

点击免费查看完整报告