[뉴스] Perplexity, '추론 가속화'를 통해 Sonar 모델 속도 향상

2025-06-13 08:57
655
0
본문
Perplexity, '추론 가속화'를 통해 Sonar 모델 속도 향상
Perplexity는 대규모 언어 모델(LLM)의 생성 속도를 높이는 기술인 **추론 가속화(speculative decoding)**를 활용하여 Sonar 모델의 속도를 향상시키고 있습니다. 추론 가속화는 작고 빠른 "초안" 모델을 사용하여 토큰 후보를 제안한 다음, 더 크고 정확한 "타겟" 모델이 이를 검증하는 방식입니다. 이 과정을 통해 한 번에 여러 개의 토큰을 생성하여 토큰 간 지연 시간을 줄일 수 있습니다.
주요 내용:
- 추론 가속화 방법론: 이 글에서는 Target-Draft, EAGLE, MTP 등 다양한 추론 가속화 구현 방법을 설명하며, 특히 자사의 1B 모델을 사용하여 70B Sonar 모델의 속도를 높이는 방식에 초점을 맞춥니다.
- 도전 과제 및 해결책: 더 큰 모델을 위한 MTP 헤드 학습의 어려움과 이에 대한 해결책을 다루며, 성능 최적화를 위해 사용된 추론 엔진 및 스케줄링 방식을 자세히 설명합니다.
- FlashInfer 기반 추론 런타임: Perplexity의 추론 런타임은 FlashInfer를 중심으로 구성되어 있으며, 이는 어텐션 커널(attention kernel)을 구성하고 스케줄링하는 데 필요한 메타데이터를 결정합니다.
Perplexity는 이러한 기술을 통해 Sonar 모델의 효율성을 극대화하여 사용자에게 더욱 빠르고 정확한 응답을 제공하고자 합니다.
참조 링크: Perplexity 블로그
댓글목록0