사실 그냥 설치형 LLM은 재미로 쓰고 있지만, 조만간 놋북에서 돌릴 경량 모델을 찾고 있던 중에 Ornith 가 나왔네요.
한줄요약 : 코드작성은 못하는데 훈수는 잘 둠
두줄요약 : 그렇게 훈수두지말고 지가 하라면 또 못함
아래는 제가 만들어 쓰는 코덱스 파이썬 딸깍 벤치 (aka 랩탑에서 돌리기 기준)
조건은 raw Ollama 모델, num_ctx=4096, temperature 0, Python 3.9 호환
전체 점수
모델 | Task Pass | Case Score | Accuracy | Avg tok/s |
|---|
Qwen3-Coder 30B-A3B | 5/6 | 35/37 | 94.59% | 42.27 |
Ornith 35B Q4 4K | 4/6 | 35/37 | 94.59% | 11.06 |
Devstral 24B Dense | 3/6 | 31/37 | 83.78% | 15.30 |
Ornith 9B Q8 | 4/6 | 29/37 | 78.38% | 23.00 |
항목별 점수
모델 | 코드 작성 | 에러 수정/버그픽스 | 자료구조 구현 | 에러 검출/리뷰 |
|---|
Qwen3-Coder 30B | 18/18 | 12/12 | 2/2 | 3/5 |
Ornith 35B | 17/18 | 11/12 | 2/2 | 5/5 |
Devstral 24B | 14/18 | 12/12 | 2/2 | 3/5 |
Ornith 9B Q8 | 12/18 | 12/12 | 0/2 | 5/5 |
에러 검출
모델 | Exact | Candidate Acc | Precision | Recall | F1 |
|---|
Ornith 9B | 3/5 | 90.32% | 88.89% | 94.12% | 91.43% |
Qwen3-Coder 30B | 3/5 | 87.10% | 84.21% | 94.12% | 88.89% |
코드 구조 이해
모델 | Exact | Candidate Acc | Precision | Recall | F1 |
|---|
Ornith 9B | 3/4 | 95.83% | 92.86% | 100.00% | 96.30% |
Qwen3-Coder 30B | 3/4 | 95.83% | 100.00% | 92.31% | 96.00% |
해석은 이렇다:
9B는 리뷰/검출에서 진짜 쓸 만하다. 특히 놓치는 것보다 더 잡으려는 recall 성향이 강함.
Qwen 30B는 더 보수적이다. false positive는 구조 이해 쪽에서 적지만, reachable bug 하나를 놓쳤음.
false positive control에서는 둘 다 약점이 있었다. 9B는 가짜 버그 2개, Qwen은 3개를 추가로 찍음.
포맷은 9B가 더 위험하다. 내용은 맞는데 JSON array를 안 지키고 {"A","B"} 형태를 냄. reviewer로 쓰려면 parser 보정이 필요함.
추천 구조는 그대로 명확해졌어:
코드 작성/수정: Qwen3-Coder 30B
에러 검출/구조 리뷰 1차: Ornith 9B
최종 적용 판단: Qwen 결과와 9B 리뷰 결과를 교차검증
strict block_patch.json 같은 출력은 9B 단독에 맡기면 안 됨.
Belum ada terjemahan (AI sedang memproses...)
No translation available yet (AI is processing...)