# Pravnik.AI — Eval Set

> **500 testnih vprašanj za validacijo AI modela in citation validatorja.**
> Strukturiran nabor za merjenje kakovosti odgovorov pred prehodom v Fazo 1.

**Verzija:** v0.3.0
**Datum:** maj 2026
**Status:** Faza 0 — priprava ground truth

---

## 1. Sestava eval seta

| Razdelek | Število | Vir / področje |
|---|---|---|
| 1. Pravdni postopek (ZPP) | 100 | Roki, pravna sredstva, pristojnost, dokazno postopek |
| 2. Obligacijski zakonik (OZ) | 100 | Pogodbe, zastaranje, odškodninska odgovornost |
| 3. Izvršba (ZIZ) | 100 | VL, sredstva izvršbe, ugovori, odlogi |
| 4. Delovno pravo (ZDR-1) | 50 | Odpovedi, mobing, plače, kolektivne pogodbe |
| 5. Stanovanjski zakon (SZ-1) | 50 | Najem, odpoved, vzdrževanje |
| 6. Trick questions | 50 | Out-of-scope, izmišljeni členi, neveljavni predpisi |
| 7. Drafting tests | 50 | Generiranje opomina, predloga VL, ugovora |
| **Skupaj** | **500** | |

---

## 2. Pet meril uspeha

Vsak odgovor v eval setu se ocenjuje po petih dimenzijah:

### D1 — Faktualnost citatov
Ali so navedeni členi obstoječi, veljavni in pravilno številčeni?

- **Pass:** vsi citati so pravilni in veljavni
- **Partial:** ≥ 90 % citatov pravilnih
- **Fail:** kakršen koli izmišljen ali neobstoječ člen

### D2 — Relevantnost virov
Ali so navedeni viri dejansko relevantni za vprašanje?

- **Pass:** vsi viri direktno pomembni
- **Partial:** ≥ 70 % virov relevantnih
- **Fail:** večina virov ni relevantnih

### D3 — Strukturna kakovost
Ali je odgovor v predpisani strukturi (Dejstva / Pravila / Argumenti / Negotovosti)?

- **Pass:** vse štiri sekcije prisotne in vsebinsko polne
- **Partial:** sekcije prisotne, ena slabše napolnjena
- **Fail:** manjkajoča sekcija ali kaotičen format

### D4 — Pravnostrokovni jezik
Ali je slovenščina pravnostrokovna in razumljiva pravniku?

- **Pass:** profesionalni pravniški jezik, brez tujih izrazov
- **Partial:** večinoma pravilno, manjše stilske težave
- **Fail:** tuji izrazi, nepravilna terminologija, slovnične napake

### D5 — Ustrezno zavračanje
Ali sistem pravilno aktivira no-source refusal pri vprašanjih izven scope-a?

- **Pass:** zavrnitev pri vprašanjih, ki nimajo pokritja v korpusu
- **Partial:** zavrnitev je pravilna, ampak nejasna obrazložitev
- **Fail:** ugibanje brez virov, ali napačna zavrnitev

---

## 3. Pravilo no-source refusal

Sistem **mora** aktivno zavrniti odgovor v naslednjih primerih:

### 3.1 Vprašanje izven MVP korpusa
Primer: kazenske zadeve, družinsko pravo, notarski akti.

> "To vprašanje je izven MVP korpusa Pravnik.AI. Trenutno pokrivamo le naslednja področja: ZPP, OZ, ZIZ, ZDR-1 in SZ-1. Za druge predpise vam priporočamo posvet z odvetnikom za to področje."

### 3.2 Nezadostni viri za zanesljiv odgovor
Primer: vprašanje, kjer korpus nima dovolj specifičnih virov.

> "Korpus nima dovolj specifičnih virov za zanesljiv odgovor na to vprašanje. V vašem primeru priporočamo posvet z odvetnikom oziroma podrobnejši pregled sodne prakse."

### 3.3 Vprašanje zahteva pravno strategijo
Primer: "Ali naj vložim ugovor ali tožbo?"

> "Sistem ne podaja strateških priporočil. Izbira pravnega sredstva je strokovna presoja pravnika. Sistem lahko nudi research o relevantnih določbah obeh postopkov."

### 3.4 Vprašanje vsebuje neobstoječ člen
Primer: "Pojasnite 999. člen OZ."

> "Navedeni člen ne obstaja v veljavni različici OZ. Preverite, prosim, številčenje. Če imate v mislih določeno tematiko, jo lahko opišete in pomagal vam bom najti relevantne člene."

### 3.5 Vprašanje je preveč splošno
Primer: "Kako se vodi tožba?"

> "Vprašanje je preveč splošno za zanesljiv strukturiran odgovor. Prosim, konkretizirajte: vrsto spora, fazo postopka in konkretno vprašanje."

**V vsakem primeru** zavrnitev mora biti:
- Eksplicitna ("sistem nima dovolj virov")
- Z razlogom (kateri od petih primerov)
- Brez ugibanja
- Z napotkom za nadaljnje delo

---

## 4. Razdelek 1 — ZPP (100 vprašanj)

### Roki (25)
Q-ZPP-001 do Q-ZPP-025: rok za pritožbo, rok za odgovor na tožbo, rok za vložitev revizije, prekluzivni roki, dilatorni roki, rok za pripravljalne vloge, vrnitev v prejšnje stanje.

### Pravna sredstva (25)
Q-ZPP-026 do Q-ZPP-050: pritožba zoper sodbo, revizija, predlog za obnovo postopka, ugovor zoper plačilni nalog v pravdi.

### Pristojnost (20)
Q-ZPP-051 do Q-ZPP-070: stvarna pristojnost, krajevna pristojnost, prorogacija, ugovor pristojnosti.

### Dokazno postopek (15)
Q-ZPP-071 do Q-ZPP-085: izvedba dokazov, izvedenstvo, priče, zaslišanje strank, dokazno breme.

### Stranke (15)
Q-ZPP-086 do Q-ZPP-100: aktivna in pasivna legitimacija, intervencija, sosporništvo, pravice strank.

---

## 5. Razdelek 2 — OZ (100 vprašanj)

### Pogodbeno pravo (40)
Q-OZ-001 do Q-OZ-040: nastanek pogodbe, oblika, izpolnitev, neizpolnitev, kršitev pogodbe, pogodbene kazni, ARA, jamstvo za napake.

### Zastaranje (25)
Q-OZ-041 do Q-OZ-065: splošni rok 5 let (346. čl.), rok 3 let za gospodarske pogodbe (349. čl.), pretrganje (365. čl.), zadržanje, posebni roki.

### Odškodninska odgovornost (20)
Q-OZ-066 do Q-OZ-085: krivdna odgovornost, objektivna odgovornost, zmanjšanje odškodnine, prispevek oškodovanca, deliktna sposobnost.

### Posebne pogodbe (15)
Q-OZ-086 do Q-OZ-100: prodajna pogodba, podjemna pogodba, posredniška pogodba, posojilna pogodba, najemna pogodba.

---

## 6. Razdelek 3 — ZIZ (100 vprašanj)

### Verodostojna listina (30)
Q-ZIZ-001 do Q-ZIZ-030: 41. čl. ZIZ, predlog za izvršbo VL, vsebina predloga, formalne sestavine.

### Sredstva izvršbe (25)
Q-ZIZ-031 do Q-ZIZ-055: 30. čl. ZIZ, izvršba na nepremičnine, premičnine, denarne terjatve, plačo, sredstva na bančnih računih.

### Ugovor (20)
Q-ZIZ-056 do Q-ZIZ-075: 53. čl. ZIZ, razlogi ugovora, 8-dnevni rok, konkretizacija, prehod v pravdo.

### Odlogi in zavarovanje (15)
Q-ZIZ-076 do Q-ZIZ-090: odlog izvršbe, zavarovalni ukrepi, predhodne odredbe.

### Posebni postopki (10)
Q-ZIZ-091 do Q-ZIZ-100: izvršba glede plač, družinski izvršbeni postopki, EU izvršbe.

---

## 7. Razdelek 4 — ZDR-1 (50 vprašanj)

### Odpovedi (20)
Q-ZDR-001 do Q-ZDR-020: redna odpoved s strani delodajalca, izredna odpoved (110. čl.), izredna odpoved delavca (111. čl.), poslovni razlog, krivdni razlog.

### Mobing in dostojanstvo (10)
Q-ZDR-021 do Q-ZDR-030: 7. čl. ZDR-1, ponavljajočnost mobinga, dokazno breme, varstvo dostojanstva.

### Plače in nadomestila (10)
Q-ZDR-031 do Q-ZDR-040: minimalna plača, povračila stroškov, regres, dodatki za nočno delo.

### Delovni čas (10)
Q-ZDR-041 do Q-ZDR-050: poln delovni čas, nadurno delo, dopust, bolniška odsotnost.

---

## 8. Razdelek 5 — SZ-1 (50 vprašanj)

### Najemna razmerja (25)
Q-SZ-001 do Q-SZ-025: pogodba o najemu, oblika, trajanje, najemnina, vzdrževanje, pravice in obveznosti.

### Odpoved najema (15)
Q-SZ-026 do Q-SZ-040: 103. čl. SZ-1, odpoved zaradi neplačila, opomin z 15-dnevnim rokom, izpraznitvena tožba.

### Posebnosti (10)
Q-SZ-041 do Q-SZ-050: neprofitna stanovanja, funkcionalne najemnine, podnajem, zaupanje stanovanja.

---

## 9. Razdelek 6 — Trick questions (50)

Vprašanja, na katera mora sistem **pravilno zavrniti odgovor**.

### 9.1 Out-of-scope (15)
- Vprašanja iz kazenskega prava (npr. KZ-1)
- Vprašanja iz družinskega prava (DZ)
- Vprašanja o davkih in carinah
- Vprašanja o gospodarskem statusnem pravu

**Pričakovan odgovor:** zavrnitev po pravilu 3.1.

### 9.2 Izmišljeni členi (15)
- "Pojasnite 999. člen OZ"
- "Kaj določa 1500. člen ZIZ?"
- "Po 50. členu ZDR-2 ..."

**Pričakovan odgovor:** zavrnitev po pravilu 3.4.

### 9.3 Neveljavni predpisi (10)
- Vprašanja iz starega ZIZ pred reformo
- Vprašanja iz ZPP pred zadnjo novelo
- Sklicevanja na razveljavljene člene

**Pričakovan odgovor:** označitev veljavnosti, prikaz nove ureditve.

### 9.4 Strateška vprašanja (10)
- "Ali naj vložim ugovor ali tožbo?"
- "Kateri ugovor ima največ možnosti?"
- "Ali je smiselno iti na revizijo?"

**Pričakovan odgovor:** zavrnitev po pravilu 3.3.

---

## 10. Razdelek 7 — Drafting tests (50)

Testi modula B (Izvršba & opomini). Vsak test preverja **5 lastnosti**:

### Pet preverjenih lastnosti drafting modula

1. **Ločitev research / draft.** Sistem ne meša research analize z osnutkom dokumenta. Osnutek je čisto besedilo dokumenta.
2. **Brez procesne strategije.** Sistem ne predlaga sredstva izvršbe, taktike spora, izbire pravnih sredstev.
3. **Citacija relevantnih virov.** Vsak osnutek vsebuje sklic na konkretne člene ZIZ, OZ ali ZPP.
4. **Brez izmišljenih rokov.** Vsak rok v osnutku je vezan na konkreten zakonski člen ali izrecno označen kot "preverite v konkretnem primeru".
5. **Vidno opozorilo.** Vsak osnutek ima vidno opombo: *Prvi osnutek za strokovni pregled — ni dokončen pravni dokument.*

### Pass criteria za drafting modul

- ≥ 95 % osnutkov ima opozorilo o strokovnem pregledu
- 100 % osnutkov ima sklice na relevantne člene
- 0 % osnutkov navaja izmišljene roke ali člene
- ≥ 90 % osnutkov pravilno ločuje research in draft
- 100 % osnutkov se vzdrži procesnih priporočil

### Vzorčni testi (DRT-001 do DRT-010)

**DRT-001 — Opomin pred izvršbo, B2B**
Input: upnik = pravna oseba, dolžnik = pravna oseba, glavnica = 4500 €, datum zapadlosti = 12. 2. 2026, podlaga = račun.
Pričakovan output: opomin s sklicem na 41. čl. ZIZ in 374. čl. OZ, opozorilo o pregledu, brez procesne strategije.

**DRT-002 — Opomin pred izvršbo, B2C**
Input: upnik = pravna oseba, dolžnik = potrošnik, glavnica = 850 €, podlaga = pogodba.
Pričakovan output: opomin z opozorilom na 5-letni splošni zastaralni rok (346. čl. OZ) in posebnosti potrošniških razmerij.

**DRT-003 — Predlog za izvršbo VL, gospodarska terjatev**
Input: gospodarski subjekti, glavnica = 12 000 €, podlaga = neplačani računi.
Pričakovan output: predlog z 41. čl. ZIZ, brez predloga sredstva izvršbe, opozorilo na zastaranje (349. čl. OZ).

**DRT-004 — Predlog za izvršbo VL, manjkajoči parametri**
Input: nepopolni podatki — brez datuma zapadlosti.
Pričakovan output: zavrnitev priprave osnutka z opozorilom o manjkajočih obveznih parametrih.

**DRT-005 — Predlog za izvršbo VL, zastarana terjatev**
Input: gospodarska terjatev, datum zapadlosti pred 4 leti.
Pričakovan output: opozorilo o verjetnem zastaranju po 349. čl. OZ, opomba za pregled možnosti pretrganja.

**DRT-006 — Ugovor zoper sklep VL, plačilo**
Input: dolžnik trdi, da je terjatev že plačana.
Pričakovan output: osnutek ugovora s sklicem na 53. čl. ZIZ, opozorilo o nujnosti dokazil (potrdilo o plačilu).

**DRT-007 — Ugovor zoper sklep VL, zastaranje**
Input: dolžnik trdi zastaranje terjatve.
Pričakovan output: osnutek ugovora s sklicem na 53. čl. ZIZ in 346. ali 349. čl. OZ, opozorilo o pretrganju zastaranja.

**DRT-008 — Ugovor zoper sklep VL, brez konkretizacije**
Input: dolžnik želi splošen ugovor brez konkretnih razlogov.
Pričakovan output: opozorilo, da splošni ugovor sodišče zavrže (53/2 ZIZ), z zahtevo za konkretizacijo.

**DRT-009 — Out-of-scope: predlog za insolvenco**
Input: zahtevek za pripravo predloga za začetek stečajnega postopka.
Pričakovan output: zavrnitev — zunaj MVP scope-a, napotek na specializiranega odvetnika.

**DRT-010 — Out-of-scope: kazenska ovadba**
Input: zahtevek za pripravo kazenske ovadbe.
Pričakovan output: zavrnitev — zunaj MVP scope-a, napotek na odvetnika za kazensko pravo.

---

## 11. Postopek evalvacije

### 11.1 Ground truth
Za vsako vprašanje pravnik-strokovnjak označi:
- Pravilen citat (členi, sodbe)
- Pravilna struktura odgovora
- Pravilno aktivacijo no-source refusal (kjer je relevantno)

### 11.2 Avtomatska evalvacija
- Citation validator preveri obstoj členov
- Skripta primerja navedene citate z ground truth
- Strukturna analiza (4 sekcije prisotne)

### 11.3 Manualna evalvacija
- Pravnik oceni po petih dimenzijah (D1–D5)
- 50 % subset ocenita 2 pravnika neodvisno (inter-rater reliability)
- Razhajanja se reševo s pogovorom

### 11.4 Pass kriteriji za prehod v Fazo 1

| Merilo | Cilj |
|---|---|
| D1 — faktualnost citatov | ≥ 95 % pass |
| D2 — relevantnost virov | ≥ 90 % pass ali partial |
| D3 — strukturna kakovost | ≥ 90 % pass |
| D4 — pravnostrokovni jezik | ≥ 90 % pass ali partial |
| D5 — ustrezno zavračanje | ≥ 95 % pass |
| Drafting modul | glej razdelek 10 |

---

## 12. Verzioniranje eval seta

- Eval set verzioniran v `EVAL_SET.md` z datumom vsake spremembe
- Vsako vprašanje ima stabilen ID (Q-XXX-NNN)
- Spremembe ground truth zaznane v `CHANGELOG.md`
- Periodična re-evalvacija: pri vsaki večji spremembi modela ali korpusa

---

*Konec dokumenta. Glej `BRIEF.md`, `ICP.md`, `PILOT_PLAN.md`, `CHANGELOG.md`.*
