ALLFA meeting 26 Jan 2016 (CR in French)

ALFFA réu 26 Janvier 2016 (Grenoble)

CR Réunion ALFFA

9h45-10h Accueil/Café

10h-10h30 Retour sur évaluation mi-parcours ANR & aspect contractuels éventuels

le retour ANR est dispo ICI (très positif malgré qq petites remarques)

10h30-12h Bilan activités par partenaire

LIG voir SLIDES

VOX :  travail sur Zarma, Hausa, Serere, Wolof, Pulaar

Hausa, Zarma: pas extrêmement avancé, validation des nombres en cours seulement

Wolof : tb avancement, enregistrement de voix contextuelles prévues

Serere : pas encore commencé

Pulaar : pas mal de données rassemblées, modules de lecture des nombres ; voxygen a un contact qui anime la communauté Peul –

Participation à Africacom 2015

Contacts SONATEL (Sénégal) : 2 voix françaises hommes&femmes avec accent sénégalais + voix wolof avec les mêmes locuteurs (service client en ligne, messages publicitaires)… évolution vers voix Wolof-Français car français est une langue véhiculaire pour les chiffres

DDL : Finalisation livre blanc hausa (insistera moins sur les aspects syntaxes, demande de retour de Vox sur les besoins en terme de contenu livres blancs) ; voir avec Sylvie Voisin si elle connaît quelqu’un qui pourrait aider sur le Peul

12h-13h Repas (plateaux)

13h-14h Objectifs à court terme

-livre blanc Hausa à finaliser : moins insister sur les aspects morpho-syntaxe (DDL)

-soumissions prevues à interspeech 2016 (session spéciale langues africaines) (LIG, peut-être VOX)

-atelier Talaf pendant JEP-TALN 2016 début Juillet (mathieu mangeot chair – a lieu le 4 juillet à Paris (INALCO)

14h-16h Objectifs année 3

-Langue visée pour livres blancs, ASR et TTS 

Pulaar semble être un bon candidat et intérêt de tous les partenaires

ASR : collecte financée sur Labex ASLAN (merci françois!) / methodo = cf Wolof ;  actions: LIG commence à regarder pour trouver des données txt sur le Web // Pour le livre blanc, DDL cherche contact éventuellement intéressé pour aider sur le travail de livre blanc (en collab. avec VOX)

TTS :  intérêt VOX ; pas mal de données déjà rassemblées, modules de lecture des nombres ; voxygen a un contact qui anime la communauté Peul

piste pour dernière année : le Lingala (RdC, Tanzanie) beaucoup de locuteurs !!! 2M L1, 7M L2 – langue bantoue …

-autres idées / actions :

a) transformation de voix pour augmenter les corpus d’apprentissage et la robustesse à la variabilité des locuteurs de test

=>après deadline interspeech (LIG – VOX)

b) Dans l’idée de faire du développement conjoint ASR/TTS, on pourrait faire l’analyse suivante sur le Wolof :

sur les 14 000 phrases d’apprentissage ASR, appliquer l’algoithme de “data condensation” de VOX =>  phrases ordonnées par pertinence =>  on selectionne un sous ensemble pour l’apprentissage de l’ASR et on évalue (faire cela pour différentes quantité de données d’apprentissage et comparer avec une sélection type “random”)

c) Faire un truc sur les tons en Hausa ? Dommage de ne pas traiter les tons

-cas d’usage suite projet ALFFA

pistes:

sécurité / contact airbus defense & space (intérêt pour Swahili & Turque) ; projet rapid dga
documentation des langues & android app pour collecte (LIG_Aikuma) ;
education : statut calculatrice (en stand by, difficile de lancer expé à grand échelle dans les écoles)
-relation client & serveurs vocaux (SONATEL) : 
TODO (actions court terme en vrac)
-échanges données textuelles wolof Vox-Lig  (deja fait dans le sens Lig=>Vox – attente Vox=>Lig) + Num2Text wolof envoyé par Vox au Lig
-retour Vox=>Ddl: sur données nécessaires dans livres blancs