혼자 AI 기반 학습도구를 개발 중인데,서비스 구조상 LLM 호출 지연 문제가 큰 고민중 하나입니다.
현재 고려하거나 일부 적용 중인 방식은 아래와 같습니다.
호출 최소화
캐시
자체 임베딩 + 벡터검색
사용자 브라우저측 LLM 호출처리
특히 운영 기준으로 가장 효과 가 컸던 최적화가 무엇인지 궁금합니다.
댓글을 남기려면 로그인이 필요합니다.
로그인 후 이 페이지로 돌아와 바로 댓글을 남길 수 있습니다.