Skip to content

code_index: exclure tests + eval ic-data-bot du corpus code#8

Merged
citarf merged 1 commit into
mainfrom
feat/depollute-tests-eval
Jun 19, 2026
Merged

code_index: exclure tests + eval ic-data-bot du corpus code#8
citarf merged 1 commit into
mainfrom
feat/depollute-tests-eval

Conversation

@citarf

@citarf citarf commented Jun 19, 2026

Copy link
Copy Markdown
Collaborator

2ᵉ couche de dé-pollution : le dataset d'éval ic-data-bot (questions+réponses) et ses tests contaminaient search_code. Exclusion docs/evals/* + tests/*. Les 3 questions code remontent rang 2/3/3 (vraies questions, k=8).

…s code

Après avoir retiré la gouvernance data-platform, les fichiers de TEST et surtout
le DATASET D'ÉVAL d'ic-data-bot (qui contient les questions ET les réponses
attendues) remontaient dans search_code et enterraient le vrai code — c'était de
la contamination directe. On exclut docs/evals/* et tests/* d'ic-data-bot du
corpus code (son code src/ reste indexé). Résultat : les 3 questions code passent
d'« absent du top-10 » à rang 2/3/3.
@citarf citarf merged commit e9477ee into main Jun 19, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant