近年来,大型语言模型(LLM)已在自然语言处理,编码生成,多模式理解和其他领域中迅速发展,并已成为流行人工智能系统的重要基础。但是,对模型能力的改善伴随着对计算机资源和存储的需求的迅速增加。如何实现高性能和高效率共存是AI的关键挑战。作为AI领域的先驱,华为Noah的方舟实验室使用Avant -Garde调查提供答案。今年4月,该团队成功地开发了基于阿斯顿计算机能源培训的通用语言模型Pangu Ultra。多个领域和评估可以与更大的稀缺模型(例如DeepSeek -R1)竞争,除了以前的密集型Lamas 405b和Mismtral Gield 2。5月初,他们推出了大型稀疏 - 尺度语言模型,Pangu ultra模型Moe,在Astend Astend Astend Asten 6000+模型中对MOE模型进行长期和稳定的培训。您是否想在较大的模型中获得有关团队研究的技术积累和研究结果的更多信息?从5月28日至30日,每天晚上7点至晚上9点,Machine Heart和Huawei Noah的方舟实验室庆祝了一系列共同的会议,将最新的进步推向了多种重要的技术方向,包括量化,修剪,MOE Architecture,MOE Architecture,KV和更多优化。一个很棒的模型。 5月28日:00-19:40CBQ:基于跨块的重建后LLM后LLM的定量框架的来宾是您的Zhijun,他是华为Noah方舟实验室的研究人员,是Xi'an Jiootong University的研究生。它的主要地址是研究是轻巧有效的大型语言模型和AIGC模型。他在CVPR,ECCV,Newl等主要学术会议上发表了几篇文章IP,ICLR等,以及Ntire@cvpr2023 Denoising TrackChampionganó船。共享摘要:在大型语言模型(LLM)中,在自然语言处理任务中的广泛应用中,其高计算和存储成本是实施的关键挑战。训练后的量化(PTQ)是一种低成本模型压缩技术,近年来已经取得了重大进步,但是随着超低位(W4A4,W4A8等)的量化,现有方法仍然遇到了绩效降低的重大问题。该文档对LLM中量化误差的原因进行了深入的分析,并表明,随着模型和宽度参数的增加,量化的位降低,量化精度和量化精度之间的依赖性变得越来越重要。为此,我们提出了基于跨块重建的PTQ方法CBQ(跨块量化)。 CBQ建立了多个多数之间的较长范围依赖性通过交叉覆盖依赖机制(CBD)的变压器块,Redonda Lora的自适应技术在薄薄的预处理策略(CFP)中引入了厚实的事物,以处理激活中的非典型权重和值,而管理层内的依赖项则管理。实验表明,CBQ在几个LLM和数据集中实现了超低量化性能的进展,大大超过了现有方法,仅在4.3小时内完成了4位CALL-65B模型的重量量化,这表明了效率和性能的良好平衡。 Documento:https://openreview.net/pdf?id=w4yh6hkz419:40-20:20 slimllm:大规模语言模型的精确结构化修剪方法简介:郭Ziaron是Huawei noah的Ark noah noah,来自中国科学毕业的Ark noah noah的研究人员。它主要参与模型压缩领域的相关工作。他的发现发表在顶部的ICMLP国际学习的顶级榜首,并发表了两篇文章,例如第一位作者/合作者。共享摘要:大规模语言模型(LLM)在许多应用程序中引起了广泛的关注,但由于功能较高,巨大的计算机成本是实际实施和应用程序,我们的位置大大有限。为了解决此问题,结构化修剪是有效压缩LLMS参数并减少计算工作的一种方法。关键是要评估每个子模块的重要性,并最大程度地减少性能损失。本文档为大型语言模型Slimllm提出了一种高效且结构化的快速修剪方法。对于通道和注意力头的修剪,我们根据一般的渠道或头部而不是简单的骨料子元中各个元素的重要性评估重要性,并且我们考虑了分组内部模块内元素之间的相互依赖性。此外,我们为输出矩阵设计了一个简单的线性回归策略,以根据该层迅速恢复性能并确定每层修剪速率的层提出重要的关系。在火焰参考点上,Slimllm有效地证明了保留修剪模型的精度并达到前卫 - garde绩效水平。 20:20-21:00知识轨迹:基于结构化知识监控的来宾的介绍是根据华为诺亚方舟实验室的研究人员Dai的。 Quanyu。他毕业于上海大学的博士学位。香港理工大学。它的主要研究兴趣是大语言建模代理,个性化的大语言模型,推荐系统。他在主要的学术会议和杂志上发表了50多篇文章,例如KDD,www,neurips,tkde,tnnls,并曾担任这些会议和杂志的审稿人。分享摘要:随着最新进展E搜索和生成(RAG)的E领域,LLM已参与多重倍数的复杂问题。提供了恢复迭代相关信息以进行管理的能力。这些方法通常在推理和搜索LLM之间交替,并逐渐在LLM上下文中积累外部信息。但是,IterationIt期间不断增长的环境使得很难捕获重要的信息片段。这两个关联和非valid推理步骤进一步加剧了这个过载问题。在这项工作中,我们提出了知识介绍。这是一个简洁有效的抹布框架,如下所示:(1)上下文过载问题:(1)上下文过载过载问题问题。 (2)促进多个步骤的高质量推断。与简单的堆叠搜索不同,知识轨迹可以自动跟踪所需的知识三倍,并创建与输入问题相关的特定知识图。这个结构化的工作流不仅提供了一个简单的-to -un阐述了LLM的推理上下文,但也自然地刺激了反思知识挫折的机制,该机制将LLM的产生的结果识别为用于自我指导促销的过程监督数据。经验研究的nto表明,知识轨迹将继续超过三个多主题问题的所有现有方法和响应点的现有方法,从而通过更新的自我指导版本来进一步扩大其好处。代码:https://github.com/rui9812/knowtrace共享内容于5月29日,19:00-19:40:40 pangue:将客人引入大规模的有效语言模型,在快速和缓慢的思想之间灵活地变化:汉·凯(Han Kai)是汉凯(Han Kai),是汉凯(Han Kai),是汉凯(Han Kai),汉凯(Han Kai),具有Huawei spard effice effice effice efcient standcient stand stand stand stand。华为终端,ICT和云服务已实现了相关的结果。他在AI领域发表了50多篇文章,Google Scholar被召集了17,000多个时间S,其中Ghostnet和TNT是最具影响力文件清单的决赛选手。他曾是Newlip,ICML,ICCV,ICLR,AAAI等会议主要领域的总裁,并被选为2%的全球斯坦福大学顶级学者名单。共享摘要:这项研究提出了Pangue是整合的(一种具有高效率和推理能力的灵活思维语言模型)。该模型基于神经元网络处理器(NPU)ASCE的培训,并具有交替进行快速和深刻思考的能力。考虑到现有的高计算成本推断(大量参数)和延迟问题(长期思考链)的大规模语言模型,创造了一个多维优化框架,该框架整合了三个中心技术。 (2)通过延迟公差编程框架来实现ASDRD平台上的可扩展学习Iority数据线。 (3)双重系统的笔框架和缓慢量提供效率和深度之间的自适应调整,提供手动/自动切换功能,以灵活地满足各种任务。实验表明,panguem显着减少了推理延迟,同时保持了嵌入式的出色精度,并且特别适合资源限制场景,例如移动设备。这项研究创建了一种通过统一方法来提高主恩丹语言模型的推理能力的方法,同时保持实际的实施能力。小路。 19:40-20:20 pangue-light:基于重量初始化的大型语言模型的最佳修剪框架,我们的客人将会出现。北京大学的智能科学。它的主要内容包括研究,这是大型语言模型,压缩和推理加速的建筑。他为实习生发表了50多篇文章举办会议和杂志,并引用了8000次。他曾担任Newlip等主要国际学术会议领域的主席。他赢得了CVPR24学生最好的学生,并被选为斯坦福大学全球前2%的2%的学者名单。共享摘要:这项研究提出了Pangu-Light,这是一种由Asteng NPU设计的大规模语言模型,这是一个有效的修剪框架。它的核心在于通过创新的加权初始化技术稳定和优化极端结构化修剪所带来的性能挑战。考虑到现有的大规模语言模型(LLM)在实际实施中面临的巨额数量和高推理成本,以及Menudo导致模型性能严重分解的传统修剪方法的问题(尤其是在严重的结构变化之后)(尤其是经过严重的结构变化)。 (1)多维结构化修剪:系统地执行S将模型宽度,深度,注意力头和RMSNORM层的临界驱动器的临界驱动器消除。 (2)核心重量恢复和结构调整策略:修剪重量的初始化后,通过在横层的修剪创新的注意力(CLAP)进行深度修剪后重新融入和重新集成参数后,在其中恢复并恢复了RMSNORM层后相关参数后,相关参数已恢复并恢复了稳定性,以稳定稳定。 (3)有向体系结构优化:RMSNORM层参数吸收技术,专为PANGE模型的ESTSPECIFIC SANDWICH GNOME拉力。实验结果表明,应用于Pangue Big模型的Pangu-Light框架可以实现压缩和推理模型的临界加速度,超过了常规的基线修剪方法(例如Minitrons,Cupzles等),并提出了PRU。NING模型比Qwen3-32b和其他模型表现出更全面的性能和精度。 20:20-21:00SA:基于低维压缩的有效选择性护理方法。嘉宾的简介:Teng Tong,华为Noah的方舟实验室的研究人员。他毕业于山东大学,并获得了新加坡国立大学的博士学位。它的主要研究兴趣是推断长度和对大语言模型的关注不足。共享摘要:在LLM的推理过程中,随着序列长度的增加,仔细的计算成为表现的主要瓶颈。请记住如何使用矩阵的稀缺性来减少计算超载和加速推理已成为一个重要问题。这种交换为我们提供了这种方法(有效的选择性注意),并可以在不调整模型参数的情况下实现序列长度的不足和推断。首先,我们调查鳍E谷物令牌的选择策略,可以在序列中灵活而精确地定位关键信息。为了降低代币选择的计算复杂性,ESA考虑了选择和计算机效率的灵活性,为咨询和钥匙引入了低维压缩机制。同时,引入了邻里冲击机制,以有效地减轻仅在第一个贷方代币中造成的信息遗漏问题。通过创新的稀缺护理设计,它创建了一个具有长文本处理的大型模型项圈。我要走了。此外,我们还基于块探索了更多的压缩和块选择,以实现对平台的有效支持,例如上升以适应硬件并提高推理效率。纸质地址:https://arxiv.org/abs/2502.144775相关结果在商业场景中以华为终端和华为云等商业方式使用。他毕业来自北京大学的博士学位。他在Newlip和ICML等主要会议上发表了50多种文章。他引用了Google Scholar的8,000多名,并担任Nuerips等主要国际会议领域的总裁。共享摘要:MOE模型与模型和推理效率的影响以及对行业模型主流的影响兼容。在这项研究中,我们提出了Pangue Pro MOE,这是一种上升的天然MOE模型(总参数72B,16B激活参数)。为了解决传统的MOE模型中的货物失衡问题,本研究提出了创新的Moge建筑。这确保了通过混合专家组的路由策略之间不同设备之间的专家数量的平衡,并将其模拟在Ascend平台上,以选择Assand亲和力的最佳规格。此外,柔软而硬的调整优化显着改善了Infere通过混合并行优化,一般计算融合,定量压缩,操作员优化和其他系统方法,硬件平台模型的NCE效率。常识量表,数学推理和其他方面。 19:40-20:20 Premoe:在大尺寸的宾客规模下对MOE模型的专业路线优化:华为Noah Ark Institute的研究人员Zhang Ying,毕业于北京的北京北京毕业于北京Jiaotong University。研究管理得到了加速,并且有有效的推理发展。共享摘要:混合专家模型(MOE)的体系结构允许语言模型扩展参数,以提高模型的有效性,并允许计算机避免推力成本的比例增长。但是,大规模MOE模型的内存需求极高,正在阻碍从云服务器到消费程度的计算机环境中的实现。这个螺柱y呈现在MOE层的专业激活模型中,任务特定专业化的重要现象。据此,这项研究提出了Premoe。这是对专家的路由的一种优化,该专家承认将MOE模型实施到许多实现动态专家负载的大量。该方案包括两个中央组件。 (1)修剪概率专家(PEP):输入任务条件的预期选择得分(TEC)的新指标(源自路由的逻辑值),以量化专家对特定任务的重要性,因此不包括最低关键专家集。 (2)搜索任务适应专家(TAER):一种紧凑的专家模型,该模型使用特定专家任务的分布来实现有效的推理,预先删除和存储各种任务。收到用户咨询后,TAER可以迅速匹配最相关和预先注册的任务模式NS,加载Sunor的一小部分专家,这些专家与重建模型的任务非常相关,从而大大减少了整个场景中的内存使用。使用多个MOE模型(72B,718B)的Pangu实验表明,PremoE实现了各种任务中专家的动态负载,将模型的模型降低了10%++的模型,具有数学和代码等高阶功能。这项研究是MOE在不降低推理能力的同时,在保持实际实施能力的同时,对MOE的入学NPU推理NPU推理效率提高了NPU的推理效率的先驱。 20:20-21:00不需要训练,几乎没有损失!我们向客人介绍了KV的优化,反思和压缩,该机制LLM的分析:Li Jin,华为Noah Ark实验室的研究人员,毕业于德国的Archen Technology Institution in Demple of Demancy in Dernation of Grand a。您的主要直接研究是加速推理和效率开发。共享摘要:KV内存压缩和超长反射压缩,长条目和输出正在加速LLM推断。它已成为一个令人难以置信的访问点。许多现有的方法需要进行精细的调整或对小型模型进行额外的培训,以实现高精度压缩,但根据精细调整电缆的不同,电缆是基于对模型功能的不可控制的损害,而小型模型的培训面临计算机电源的双重挑战和额外的时间成本,以及工业水平的实施。 Therefore, we propose two FLM inference acceleration solutions without training that use the theoretical analysis of the differences in the sensitivity of KV precision of each attention layer in a large -scale model, and maximizes the redundancy and the semantic structure of the long CADENA OF THOUGHT OF THE THOUGHT CHAIN OF THE CHAIN OF THOUGHT: 1) HARDWARE LIVED KV CAPETA HYBRIDA HYBRIDA Automatic Optimization AutomatiC算法自动算法KVTUNER; 2)基于TRIMR验证剂的有效反射压缩算法。 KVTUNER的理论分析基于护理机制获得了推理,在复杂的数据集(例如数学)中实现了KV的量化,而不会损失3.25位。从理论上讲,我们证明了注意力模式在对KV精度的敏感性上有所不同,并且实验发现该特征与模型的特征无关。两个阶段的智能修剪算法和小组修剪组压缩了搜索天文数字的空间,以快速求解。在线一般费用的实现为零,可以快速找到每一层中最佳的PKV精度砂,从而在有效的内存足迹和精度之间取得了最佳的平衡。 TRIMR的核心思想是引入光验证以动态识别冗余反射,指南LRM,STOP思考并提高模型的推理效率,例如Pangu-R-38B,Pangu Pro Moe,Pangu Ultra Moe,QWQ-32B,Math500,最高70%。设计的灵感来自人类的思维过程和数值优化理论。简化标识并依靠两个分类任务中的识别:响应存在性和平等验证,并在没有小型7B调谐模型的情况下变得能够。异步T3CS在线压缩系统是基于Asteng NPU的工业学位标准。帕普尔的地址:https://arxiv.org/abs/2502.044420http://arxiv.org/abs/2505.17155 Live Room