您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:手机端侧AILLM的一些共识与非共识 - 发现报告
当前位置:首页/会议纪要/报告详情/

手机端侧AILLM的一些共识与非共识

2024-06-20未知机构D***
手机端侧AILLM的一些共识与非共识

1、端侧LLM性能瓶颈,不是算力,而是内存速度。 -每生成一个token需要把模型在内存中读出一遍,10-15tops算力即可实现7b10token/s以上的推理速度,功耗也远低于手游,所以无需担心H端侧。 -目前手机最快大概也就是LPDDR5T,9600MT/S,折合76.8GB/s,理论最高能实现7b手机端侧AILLM的一些共识与非共识。1、端侧LLM性能瓶颈,不是算力,而是内存速度。 -每生成一个token需要把模型在内存中读出一遍,10-15tops算力即可实现7b10token/s以上的推理速度,功耗也远低于手游,所以无需担心H端侧。 -目前手机最快大概也就是LPDDR5T,9600MT/S,折合76.8GB/s,理论最高能实现7bint4下20token/s,或14bint4下10token/s的输出 。 -存量手机大多内存带宽在40-60GB/s。2、端侧LLM落地,最大阻碍不是技术能力,是机制。 -云端可拦截不合规的胡说八道内容,端侧不能,因此国内手机厂商端侧落地的大模型都不是AGI类 ,而是文本总结、图像修复类。3、端侧AI应用,最大阻碍也不是技术能力,是交互——云端也一样-LLM的交互机制需要文字输 入,目前绝大多数手机用户唯一能用到文字输入的地方是评论区骂街,连自己意思都表达不清楚,更别说跟LLM交互。 4、端侧LLM各家技术上不存在绝对的领先落后。 -苹果的3b并非某些测评中表现的那么好,例如,其在MMLU四选一测试中成功的模拟了瞎几把选的概率。 但不重要,从国内技术追赶速度来看,训好一个端侧LLM大约也就是一年左右时间。 国内HhOV都有训好的7b规格的模型,至少从MMLU来看,比苹果强不少,端侧放开可直接上。因此,这些是苹果LLM的意义所在。 三星和Google的Gemini是弱弱联合,毫无影响力。1、苹果的端侧LLM有望推动机制进化。 2、苹果不管是交互的改进,还是对用户心智的影响,目前还是独一档的。 3、苹果有望带动用户用LLM。