N100에서 gemma 3-12b
N100 램16gb에서 openvino로 igpu 가동해서 gemma 3-1b 부터 4b 그리고 지금 12b를 사용중입니다
솔직히 4b만 해도 모델 4GB에 조금만 큰 데이터 넣어도 KV CACHE 급증해서 OOM 으로 프로세서 죽습니다
그래도 어쨋든 12b로 지금 100kb 이상도 처리가능 하도록 해서 가동중입니다 맥락손실을 최소화 하는 방법으로요
대신 우리가 10kb 정도(코드 100줄 정도) 를 gemini 3 pro 한테 추론시키면 몇초만에 답변하지만 N100의 gemma 3 12b는 20분 정도 걸립니다
일단 테스트로 그냥 해본거고 실제로는 1kb 미만 데이터로 1분 내 1건 처리할 수 있도록 할겁니다
1건(뉴스 리스트 20개 즉 제목 링크 요약 정보)에 1분이나 걸리는건 뭣하러 쓰냐 하겠지만 그것도 다 나름으로 쓰면 씁니다
1분에 1건씩 24시간 계속 하면(물론 그 정도 신호가 안 나옵니다. 기껏 해야 지금 아이디어로는 하루에 10건은 나올까 말까) 20개중 목적에 맞는 뉴스 몇개 × 60 × 24 개의 뉴스 제목 링크를 db에 저장가능하죠
이건 그냥 스크래핑한것과는 차원이 다른 정보입니다
n100 16gb ram gemma 3 12b만 하더라도 몇개월전에는 비싼 컴퓨터나 가능하던 일을 아주 저렴하게 할 수 있는 것이고요. 지금은 AI혁명의 시기이다보니 몇개월이 보통시기의 몇년에 해당하는 것 같습니다
뭐 대단한 추론이나 대랑 멸티모달 데이터가 필요한것도 아니고 rust scraper 와 redis/postgresql 과 함께 사용자가 미리 정의한 목적과 수집된 시장데이터에 따라 맥락에 맞는 뉴스들을 수집하는 것까지만 하면 되거든요
수집된 데이터는 다른 서버의 qwen 2.5-7b가 redis/postgresql 로 공유되는 그 데이터를 검열 교정 패키징 해서 최종적으로 chatgpt 5 api 한테 사용자의 목적에 맞는 질문과 함께 같이 전달되어 인사이트를 생성해 사용자에게 보고 되는 구조입니다
여기서 몇가지의 feedback 구조가 더 있긴 하지만 그건 생략하고
gemma 3-4b와 12b 를 한참 고민 했습니다
사실 4b만 해도 이 정도 기능이면 충분할겁니다. 하지만 12b가 좀 더 요구사항에 충실합니다. 4b를 antigravity llm 에이전트가 프롬프트 엔지니어링 빡세게 해서 말 잘 드토록 조련할 수도 있겠지만
그냥 12b를 씁니다. 대신 n100은 한계를 훌쩍 넘어 비명을 지를겁니다.