Ornith 1.0 9B 좋네요

118.99.***.***
3
  • 한국어
  • 바하사
  • 영어

사실 그냥 설치형 LLM은 재미로 쓰고 있지만, 조만간 놋북에서 돌릴 경량 모델을 찾고 있던 중에 Ornith 가 나왔네요.

한줄요약 : 코드작성은 못하는데 훈수는 잘 둠

두줄요약 : 그렇게 훈수두지말고 지가 하라면 또 못함

아래는 제가 만들어 쓰는 코덱스 파이썬 딸깍 벤치 (aka 랩탑에서 돌리기 기준)

조건은 raw Ollama 모델, num_ctx=4096, temperature 0, Python 3.9 호환

전체 점수

모델

Task Pass

Case Score

Accuracy

Avg tok/s

Qwen3-Coder 30B-A3B

5/6

35/37

94.59%

42.27

Ornith 35B Q4 4K

4/6

35/37

94.59%

11.06

Devstral 24B Dense

3/6

31/37

83.78%

15.30

Ornith 9B Q8

4/6

29/37

78.38%

23.00

항목별 점수

모델

코드 작성

에러 수정/버그픽스

자료구조 구현

에러 검출/리뷰

Qwen3-Coder 30B

18/18

12/12

2/2

3/5

Ornith 35B

17/18

11/12

2/2

5/5

Devstral 24B

14/18

12/12

2/2

3/5

Ornith 9B Q8

12/18

12/12

0/2

5/5

에러 검출

모델

Exact

Candidate Acc

Precision

Recall

F1

Ornith 9B

3/5

90.32%

88.89%

94.12%

91.43%

Qwen3-Coder 30B

3/5

87.10%

84.21%

94.12%

88.89%

코드 구조 이해

모델

Exact

Candidate Acc

Precision

Recall

F1

Ornith 9B

3/4

95.83%

92.86%

100.00%

96.30%

Qwen3-Coder 30B

3/4

95.83%

100.00%

92.31%

96.00%

해석은 이렇다:

  • 9B는 리뷰/검출에서 진짜 쓸 만하다. 특히 놓치는 것보다 더 잡으려는 recall 성향이 강함.

  • Qwen 30B는 더 보수적이다. false positive는 구조 이해 쪽에서 적지만, reachable bug 하나를 놓쳤음.

  • false positive control에서는 둘 다 약점이 있었다. 9B는 가짜 버그 2개, Qwen은 3개를 추가로 찍음.

  • 포맷은 9B가 더 위험하다. 내용은 맞는데 JSON array를 안 지키고 {"A","B"} 형태를 냄. reviewer로 쓰려면 parser 보정이 필요함.

추천 구조는 그대로 명확해졌어:

  • 코드 작성/수정: Qwen3-Coder 30B

  • 에러 검출/구조 리뷰 1차: Ornith 9B

  • 최종 적용 판단: Qwen 결과와 9B 리뷰 결과를 교차검증

  • strict block_patch.json 같은 출력은 9B 단독에 맡기면 안 됨.

로그인한 회원만 댓글 등록이 가능합니다.

개발한당

KR | ID | EN
  • IDR
  • KOR
8.67 -0.01

2026.06.30 KEB 하나은행 고시회차 968회

다가오는 한인 행사일정

  • 등록 된 일정이 없어요!