Skip to content

code_index: dé-polluer code_chunks de la gouvernance data-platform#7

Merged
citarf merged 1 commit into
mainfrom
feat/code-index-depollute
Jun 19, 2026
Merged

code_index: dé-polluer code_chunks de la gouvernance data-platform#7
citarf merged 1 commit into
mainfrom
feat/code-index-depollute

Conversation

@citarf

@citarf citarf commented Jun 19, 2026

Copy link
Copy Markdown
Collaborator

search_code remontait la prose data-platform (catalog/contracts/inventory/lineage) avant le vrai code. Vérifié : 2/3 questions code passent ABSENT-du-top-10 → rang 1 une fois la prose exclue. exclude_per_repo (walk) + manifest (exclure gouvernance data-platform du corpus CODE, gardée dans docs_chunks) + index.py (rebuild FTS sur suppressions seules). docs_chunks/search_docs inchangé. 74 tests.

search_code remontait la prose FR de data-platform (catalog/contracts/inventory/
lineage…) AVANT le vrai code applicatif : pour « où est fait X dans le code », le
fichier attendu était absent du top-10, enterré sous des .md/.yaml de gouvernance
(déjà indexés, eux, dans docs_chunks/search_docs). Vérifié : en excluant cette
prose, 2/3 des questions code remontent rang 1.

- walk.iter_files : support `exclude_per_repo` (motifs relatifs, par repo) ;
- manifest : exclure de data-platform, côté CODE uniquement, catalog/contracts/
  inventory/lineage/audits/adr + *.md (gardés dans docs_chunks). Le vrai code
  (tools/*.py) reste indexé ;
- index.py : reconstruire le FTS aussi quand il n'y a QUE des suppressions
  (sinon BM25 incohérent après retrait de lignes).

docs_chunks (search_docs) totalement inchangé. 74 tests verts.
@citarf citarf merged commit 04cfa0c into main Jun 19, 2026
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant