Récupération des annotations manuelles

Bonjour,

Je souhaite récupérer les annotations manuelles du projet ECRU.
Je prends par exemple cet élément : Arkindex 1.9.3

Je trouve l’identifiant de la ligne 15 : https://demo.arkindex.org/api/v1/element/2574ed35-196d-45b9-9e0d-0c8ff480eb1d/transcriptions/

Et là je sèche… comment récupérer l’information manuelle liée : “Date”

Merci !

Bonjour,

L’entité “Date” est présente sur la page parente, pas sur la ligne elle même.

Vous pouvez trouver la transcription via ce même endpoint, mais en utilisant l’ID de la page: https://demo.arkindex.org/api/v1/element/03dbc07d-cf05-4ff6-9170-ed8625376cb1/transcriptions/

Avec l’ID de la transcription, vous pouvez utiliser le endpoint ListTranscriptionEntities qui vous fournira toutes les entités de la transcription: https://demo.arkindex.org/api/v1/transcription/13ed425a-a153-4e98-8fcb-17b283468882/entities/

:warning: Cet endpoint est paginé, et sur cette exemple, la Date est sur la page n°8 : https://demo.arkindex.org/api/v1/transcription/13ed425a-a153-4e98-8fcb-17b283468882/entities/?page=8

Merci pour cette réponse rapide. Je crois que j’avais déjà essayé ça mais comme les 2 derniers liens avec l’id de la transcription je tombe sur un “Not found”

bonjour,

pouvez-vous partager votre script ?

merci,

C Kermorvant

j’ai essayé avec

teklia-dan dataset entities teklia-bis-ecru-20250926-085330.sqlite

teklia-dan dataset tokens entities.yml

Je voulais mettre les end-tokens, mais ceci ne fonctionne pas

$ teklia-dan dataset tokens entities.yml --end-tokens
Traceback (most recent call last):
  File "/webhome/arkindex/venv/bin/teklia-dan", line 8, in <module>
    sys.exit(main())
             ^^^^^^
  File "/webhome/arkindex/venv/lib/python3.11/site-packages/dan/cli.py", line 31, in main
    status = args.pop("func")(**args)
             ^^^^^^^^^^^^^^^^^^^^^^^^
  File "/webhome/arkindex/venv/lib/python3.11/site-packages/dan/datasets/tokens/generate.py", line 35, in run
    "start": next(token_generator),
             ^^^^^^^^^^^^^^^^^^^^^
  File "/webhome/arkindex/venv/lib/python3.11/site-packages/dan/datasets/tokens/generate.py", line 23, in get_token
    raise Exception(f"More than {LIMIT} tokens asked")
Exception: More than 160 tokens asked

Puis

$ teklia-dan dataset extract teklia-bis-ecru-20250926-085330.sqlite --dataset-id 3c0e97c9-7c75-4bc5-ac7d-6d754378ed1b --element-type page --output data --tokens tokens.yml

2025-11-14 08:28:45,836 WARNING/dan.datasets.extract.arkindex: Dataset NER Sémantique (3c0e97c9-7c75-4bc5-ac7d-6d754378ed1b) does not have "train", "val" and "test" steps

pareil pour

$ teklia-dan dataset extract teklia-bis-ecru-20250926-085330.sqlite --dataset-id 078ed541-7db8-4e90-92b9-81ded412ad12 --element-type page --output data --tokens tokens.yml

2025-11-14 08:27:25,174 WARNING/dan.datasets.extract.arkindex: Dataset BIS | ECRU: BIS ECRU: Annotated sample training dataset v1 - Sémantique (078ed541-7db8-4e90-92b9-81ded412ad12) does not have "train", "val" and "test" steps

Bonjour,
je teste directement pour le moment, pour essayer de comprendre, et là j’ai un not found : https://demo.arkindex.org/api/v1/transcription/13ed425a-a153-4e98-8fcb-17b283468882/entities/

Le projet n’est pas public, vous devez être connecté sur votre navigateur ou utiliser un token d’API Arkindex pour accèder à la resource.

J’ai accès à https://demo.arkindex.org/api/v1/element/03dbc07d-cf05-4ff6-9170-ed8625376cb1/transcriptions/, j’ai l’impression d’être authentifié

Bonjour @Sebastien,

Voilà le script que j’ai utilisé pour générer la sortie que nous vous avons envoyé tout à l’heure.
Il faut installer la dépendence arkindex-export.

Bonne journée,


Yoann Schneider

Super, merci @Yoann.Schneider