노타, 국산 NPU에서 2,360억 파라미터 'K-엑사원' 최적화…모델 크기 71% 줄였다
[테크수다 기자 도안구 eyeball@techsuda.com] AI 경량화·최적화 전문기업 노타가 퓨리오사AI(FuriosaAI)의 데이터센터용 NPU(신경망처리장치)에서 LG AI연구원의 대형 AI 모델 'K-엑사원(EXAONE) 236B' 최적화에 성공했다. 노타는 약 2,360억 개 파라미터 규모인 이 모델의 크기를 약 71% 줄이면서도 주요 벤치마크 3종 단순 평균 기준 원본 대비 약 99.2%의 정확도를 유지했다고 밝혔다. 국산 AI 반도체와 국내 AI 모델, 최적화 기술이 하나로 결합해 고성능 대형언어모델(LLM)을 국내 인프라에서 구동할 가능성을 확인한 사례다.
주요 내용:
- 퓨리오사AI 데이터센터용 NPU에서 LG AI연구원의 K-엑사원 236B 최적화에 성공
- 모델 크기를 약 71% 절감해 메모리 부담을 낮추면서, 과학 추론·지시 이해·수학 문제 해결 등 3종 벤치마크 평균에서 원본 대비 약 99.2% 정확도 유지
- 국산 NPU와 국내 AI 모델 및 최적화 기술 결합으로 소버린 AI 인프라 가능성 확인
K-엑사원 236B는 여러 전문가 모델을 선택적으로 활용하는 MoE(전문가 혼합) 구조를 채택한 대형 모델이다. MoE 구조는 모델 효율을 높이는 대신, 최적화 단계에서 각 전문가 모델이 안정적으로 작동하도록 하는 정교한 기술을 요구한다. 특히 프론티어급 대형 모델은 복잡한 문제를 풀 때 긴 추론 과정을 거치는 만큼, 양자화 단계에서 생긴 작은 오차가 누적되면 최종 답변의 정확도를 떨어뜨릴 수 있다. 노타는 모델 전체를 다시 조정하는 대신 성능 저하가 우려되는 구간만 정밀하게 분석해 필요한 부분에 최적화를 적용하는 방식으로 성능 손실을 최소화했다.
성능 평가에서도 의미 있는 결과가 나왔다. 노타는 K-엑사원의 모델 크기를 약 71% 줄여 대형 AI 모델 구동에 드는 메모리 부담을 낮추면서도 과학 추론, 지시 이해, 수학 문제 해결 등 주요 항목에서 원본과 유사한 정확도를 확보했다. 자체 평가 환경에서 최적화 모델은 과학 추론 항목(GPQA) 79.80점, 지시 이해 항목(IFBench) 68.98점, 수학 문제 해결 항목(AIME25) 88.57점을 기록했다. 크기를 줄이기 전 원본 모델이 각각 79.1점, 67.3점, 92.8점이었던 점을 고려하면 3개 항목 단순 평균 기준 원본 대비 약 99.2% 수준을 유지한 결과다.
이번 성과는 대형 AI 모델을 국산 NPU에서 단순히 실행하는 데 그치지 않고 실제 서비스에 필요한 성능과 안정성을 확인했다는 점에서 의미가 있다. 최근 글로벌 AI 산업에서는 최첨단 모델과 이를 구동하는 인프라에 대한 접근성이 핵심 쟁점으로 떠올랐고, 각국은 자국 내 AI 모델과 컴퓨팅 인프라를 확보하려는 소버린 AI 흐름에 주목하고 있다.
채명수 노타 대표는 "소버린 AI가 주목받는 흐름 속에서 중요한 것은 모델, 반도체, 최적화 소프트웨어가 하나의 실행 가능한 AI 인프라로 연결되는 것"이라며 "이번 성과는 퓨리오사AI의 데이터센터용 NPU, LG의 국가대표 AI 모델 K-엑사원, 노타의 최적화 기술이 결합해 대형 AI 모델의 실제 운영 가능성을 확인한 사례"라고 말했다.
노타의 K-엑사원 NPU 최적화, 이런 점이 궁금하다
Q. 모델 크기를 약 71% 줄였는데 성능은 어느 정도 유지됐나?
A. 과학 추론(GPQA), 지시 이해(IFBench), 수학 문제 해결(AIME25) 3개 항목 단순 평균 기준으로 원본 대비 약 99.2%의 정확도를 유지했다. 자체 평가 환경에서 최적화 모델은 각각 79.80점, 68.98점, 88.57점을 기록했다.
Q. 국산 NPU에서의 최적화가 왜 중요한가?
A. 일부 AI 모델과 인프라를 둘러싼 수출 통제 논의 이후 각국이 자국 내 AI 모델과 컴퓨팅 인프라를 확보하려는 소버린 AI 흐름이 주목받고 있다. 국산 반도체와 국내 AI 모델, 최적화 기술이 함께 작동할 수 있음을 확인했다는 점에서 의미가 있다.
Q. MoE 구조 모델의 최적화가 까다로운 이유는?
A. MoE는 여러 전문가 모델을 선택적으로 활용해 효율을 높이지만, 각 전문가 모델이 안정적으로 작동하도록 정교한 조정이 필요하다. 긴 추론 과정에서 양자화 오차가 누적되면 정확도가 떨어질 수 있어, 노타는 성능 저하 우려 구간만 선별 최적화했다.
Nota shrinks LG's 236-billion-parameter K-EXAONE by 71% on a domestic NPU, keeping near-original accuracy
SEOUL — Nota, a South Korean AI model optimization company, said it has optimized LG AI Research's large-scale K-EXAONE 236B model to run on FuriosaAI's data center NPU. The company reduced the model's size by roughly 71% while retaining about 99.2% of the original model's accuracy on average across three major benchmarks. The result shows that a domestic AI chip, a domestic AI model and optimization software can be combined to run a high-performance large language model (LLM) on local infrastructure.
Key Highlights
- Optimized LG AI Research's K-EXAONE 236B to run on FuriosaAI's data center NPU
- Cut model size by about 71% to ease memory demands while keeping roughly 99.2% of original accuracy across science reasoning, instruction-following and math benchmarks
- Demonstrated the potential of a sovereign AI stack by linking a domestic NPU, a domestic AI model and optimization technology
K-EXAONE 236B is a large model built on a Mixture-of-Experts (MoE) architecture that selectively activates specialized expert models. While MoE improves efficiency, it demands precise engineering during optimization to keep each expert model stable. Frontier-class models in particular run long reasoning chains, so even small errors introduced during quantization can accumulate and degrade final accuracy. Rather than re-tuning the entire model, Nota analyzed only the segments where performance could drop and applied optimization where needed, minimizing accuracy loss.
The performance results were meaningful as well. By shrinking K-EXAONE by about 71%, Nota lowered the memory load required to run the large model while preserving accuracy comparable to the original across science reasoning, instruction-following and math problem-solving. In Nota's own evaluation, the optimized model scored 79.80 on science reasoning (GPQA), 68.98 on instruction-following (IFBench) and 88.57 on math problem-solving (AIME25), against the original model's 79.1, 67.3 and 92.8, respectively — a simple average of about 99.2% of the original.
Beyond simply running the model on a domestic NPU, the project confirmed it can hold the performance and stability needed for real services. Access to advanced AI models and the infrastructure that runs them has become a central issue in the global AI industry, and following export-control discussions over certain models and hardware, countries are increasingly pursuing sovereign AI to secure their own models and computing infrastructure. "What matters amid the rise of sovereign AI is connecting models, chips and optimization software into a single, deployable AI infrastructure," said Chae Myung-soo, CEO of Nota. "This result confirms the real-world operability of a large AI model by combining FuriosaAI's data center NPU, LG's national flagship K-EXAONE model and Nota's optimization technology."
Nota's K-EXAONE optimization: key questions answered
Q. How much performance was retained after cutting the model by about 71%?
A. On a simple average of three benchmarks — science reasoning (GPQA), instruction-following (IFBench) and math problem-solving (AIME25) — the optimized model retained about 99.2% of the original's accuracy, scoring 79.80, 68.98 and 88.57, respectively.
Q. Why does optimizing on a domestic NPU matter?
A. After export-control discussions over certain AI models and infrastructure, countries are moving to secure their own AI models and computing power under the banner of sovereign AI. The project shows a domestic chip, a domestic AI model and optimization technology can work together.
Q. Why is optimizing an MoE model challenging?
A. MoE boosts efficiency by selectively using multiple expert models, but each must remain stable, requiring precise tuning. Because quantization errors can accumulate over long reasoning chains, Nota selectively optimized only the segments at risk of performance loss.
Nota在韩国国产NPU上优化LG"K-EXAONE"2360亿参数大模型 体积缩减约71%
首尔电——韩国AI轻量化与优化企业Nota日前宣布,已在FuriosaAI数据中心用NPU(神经网络处理器)上成功优化LG人工智能研究院的大型AI模型"K-EXAONE 236B"。Nota将这一约2360亿参数规模的模型体积缩减约71%,同时在三项主要基准测试的平均值上保持了相当于原始模型约99.2%的准确率。这一成果表明,国产AI芯片、国产AI模型与优化技术能够相互结合,在本地基础设施上运行高性能大语言模型(LLM)。
主要内容
- 在FuriosaAI数据中心用NPU上成功优化LG人工智能研究院"K-EXAONE 236B"
- 模型体积缩减约71%以缓解内存压力,并在科学推理、指令理解及数学解题三项基准平均值上保持约99.2%的准确率
- 国产NPU、国产AI模型与优化技术相结合,验证主权AI基础设施的可行性
K-EXAONE 236B采用选择性调用多个专家模型的MoE(混合专家)架构,是一款大型模型。MoE架构可提升模型效率,但在优化阶段需要精细的技术,以确保各专家模型稳定运行。尤其是前沿级大模型在求解复杂问题时会经历较长的推理过程,量化阶段产生的微小误差一旦累积,便可能影响最终答案的准确率。Nota并未对整个模型重新调整,而是精确分析可能出现性能下降的部分,仅在必要环节应用优化,从而将性能损失降至最低。
性能评估同样取得了有意义的结果。Nota将K-EXAONE的模型体积缩减约71%,降低了运行大模型所需的内存负担,同时在科学推理、指令理解、数学解题等主要项目上保持了与原始模型相近的准确率。在自有评估环境中,优化后的模型在科学推理项目(GPQA)得79.80分、指令理解项目(IFBench)得68.98分、数学解题项目(AIME25)得88.57分;缩减前原始模型分别为79.1分、67.3分、92.8分,三项简单平均后仍保持原始模型约99.2%的水平。
此次成果不仅在于让大型AI模型在国产NPU上运行,更确认了其可保持实际服务所需的性能与稳定性。近期,全球AI产业中,先进AI模型及其运行基础设施的可获取性正成为重要议题;在围绕部分模型与基础设施的出口管制讨论之后,各国谋求在本国境内确保AI模型与算力的主权AI趋势备受关注。Nota首席执行官Chae Myung-soo表示:"在主权AI受到关注的趋势中,关键在于将模型、芯片与优化软件连接为一个可落地运行的AI基础设施。""此次成果通过结合FuriosaAI数据中心用NPU、LG的国家代表AI模型K-EXAONE以及Nota的优化技术,验证了大型AI模型的实际运营可行性。"
Nota优化K-EXAONE,这些问题值得关注
Q. 模型缩减约71%后,性能保持了多少?
A. 在科学推理(GPQA)、指令理解(IFBench)、数学解题(AIME25)三项的简单平均值上,优化后的模型保持了原始模型约99.2%的准确率,分别得79.80分、68.98分和88.57分。
Q. 为何在国产NPU上进行优化很重要?
A. 在围绕部分AI模型与基础设施的出口管制讨论之后,各国正以主权AI为方向,谋求确保本国的AI模型与算力。此次成果表明国产芯片、国产AI模型与优化技术能够协同运作。
Q. MoE架构模型的优化为何具有难度?
A. MoE通过选择性调用多个专家模型来提升效率,但每个专家模型都须保持稳定,因而需要精细调整。由于量化误差可能在较长的推理过程中累积,Nota仅对可能出现性能下降的环节进行了针对性优化。
ノタ、韓国製NPUでLGの2360億パラメータ「K-EXAONE」を最適化 モデルサイズを約71%圧縮
【ソウル】韓国のAI軽量化・最適化企業ノタ(Nota)は、FuriosaAIのデータセンター向けNPU(ニューラル処理装置)でLG AI研究院の大規模AIモデル「K-EXAONE 236B」の最適化に成功したと発表した。約2360億パラメータ規模のこのモデルのサイズを約71%削減しながら、主要3ベンチマークの平均で原本に対し約99.2%の精度を維持した。国産AI半導体と国内AIモデル、最適化技術が一つに結びつき、高性能な大規模言語モデル(LLM)を国内インフラで運用できる可能性を示した事例だ。
主なポイント
- FuriosaAIのデータセンター向けNPUでLG AI研究院「K-EXAONE 236B」の最適化に成功
- モデルサイズを約71%削減してメモリ負担を軽減し、科学的推論・指示理解・数学問題の3ベンチマーク平均で約99.2%の精度を維持
- 国産NPUと国内AIモデル及び最適化技術の結合により、主権AI(ソブリンAI)インフラの可能性を確認
K-EXAONE 236Bは、複数の専門家モデルを選択的に活用するMoE(混合エキスパート)構造を採用した大規模モデルだ。MoE構造はモデル効率を高める一方、最適化の過程で各専門家モデルが安定して動作するよう精緻な技術を必要とする。とりわけフロンティア級の大規模モデルは複雑な問題を解く際に長い推論過程を経るため、量子化の段階で生じた小さな誤差が累積すると最終的な回答の精度を損ないかねない。ノタはモデル全体を調整し直すのではなく、性能低下が懸念される区間のみを精密に分析し、必要な部分に最適化を適用することで性能損失を最小限に抑えた。
性能評価でも意味のある結果が得られた。ノタはK-EXAONEのモデルサイズを約71%削減し、大規模モデルの実行に要するメモリ負担を下げながら、科学的推論・指示理解・数学問題などの主要項目で原本に近い精度を確保した。自社評価環境では、最適化モデルは科学的推論項目(GPQA)で79.80点、指示理解項目(IFBench)で68.98点、数学問題項目(AIME25)で88.57点を記録した。削減前の原本モデルがそれぞれ79.1点、67.3点、92.8点だったことを踏まえると、3項目の単純平均で原本比約99.2%の水準を維持した結果だ。
今回の成果は、大規模AIモデルを国産NPUで実行するにとどまらず、実サービスに必要な性能と安定性を確認した点に意義がある。世界のAI産業では先端モデルとそれを動かすインフラへのアクセス性が重要な争点として浮上しており、一部のモデルやインフラを巡る輸出規制の議論を経て、各国が自国内のAIモデルと計算インフラを確保しようとする主権AIの流れが注目されている。ノタのチェ・ミョンスCEOは「主権AIが注目される流れの中で重要なのは、モデル、半導体、最適化ソフトウエアが一つの実行可能なAIインフラとして結びつくことだ」とし、「今回の成果は、FuriosaAIのデータセンター向けNPU、LGの国家代表AIモデルK-EXAONE、ノタの最適化技術が結合し、大規模AIモデルの実際の運用可能性を確認した事例だ」と述べた。
ノタのK-EXAONE最適化、ここが知りたい
Q. モデルを約71%削減して、性能はどの程度維持されたのか。
A. 科学的推論(GPQA)、指示理解(IFBench)、数学問題(AIME25)の3項目の単純平均で、最適化モデルは原本比約99.2%の精度を維持し、それぞれ79.80点、68.98点、88.57点を記録した。
Q. 国産NPUでの最適化がなぜ重要なのか。
A. 一部のAIモデルとインフラを巡る輸出規制の議論を経て、各国は主権AIを掲げ自国のAIモデルと計算資源の確保に動いている。今回の成果は、国産半導体・国内AIモデル・最適化技術が協調して動作し得ることを示した。
Q. MoE構造のモデル最適化はなぜ難しいのか。
A. MoEは複数の専門家モデルを選択的に使い効率を高めるが、各モデルが安定して動く必要があり精緻な調整を要する。量子化誤差が長い推論過程で累積し得るため、ノタは性能低下が懸念される区間のみを選んで最適化した。
[Seoul = Techsuda eyeball@techsuda.com]
- 해외 기사의 경우 AI를 활용했다.