@inproceedings{jacquelin-etal-2024-exploration,
title = "Exploration de la repr{\'e}sentation multidimensionnelle de param{\`e}tres acoustiques unidimensionnels de la parole extraits par des mod{\`e}les profonds non supervis{\'e}s.",
author = {Jacquelin, Maxime and
Garnier, Ma{\"e}va and
Girin, Laurent and
Vincent, R{\'e}my and
Perrotin, Olivier},
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.9",
pages = "82--91",
abstract = "Cet article propose une m{\'e}thodologie pour interpr{\'e}ter les dimensions de variation de la parole conversationnelle, extraites de fa{\c{c}}on non-supervis{\'e}e, et sur des donn{\'e}es multilocuteurs, par un algorithme d{'}apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corr{\'e}lation et de similarit{\'e} cosinus, nous montrons que la distribution de la fr{\'e}quence fondamentale et de la fr{\'e}quence centrale des trois premiers formants de l{'}ensemble d{'}apprentissage est encod{\'e}e par une direction d{\'e}di{\'e}e de l{'}espace latent. Lorsque la distribution est multimodale, les diff{\'e}rents modes du param{\`e}tre acoustique sont encod{\'e}s dans des dimensions distinctes. De plus, nous avons identifi{\'e} les directions expliquant la variation des param{\`e}tres au sein de chaque mode, et entre eux.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="jacquelin-etal-2024-exploration">
<titleInfo>
<title>Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.</title>
</titleInfo>
<name type="personal">
<namePart type="given">Maxime</namePart>
<namePart type="family">Jacquelin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Maëva</namePart>
<namePart type="family">Garnier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurent</namePart>
<namePart type="family">Girin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Rémy</namePart>
<namePart type="family">Vincent</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Olivier</namePart>
<namePart type="family">Perrotin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article propose une méthodologie pour interpréter les dimensions de variation de la parole conversationnelle, extraites de façon non-supervisée, et sur des données multilocuteurs, par un algorithme d’apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corrélation et de similarité cosinus, nous montrons que la distribution de la fréquence fondamentale et de la fréquence centrale des trois premiers formants de l’ensemble d’apprentissage est encodée par une direction dédiée de l’espace latent. Lorsque la distribution est multimodale, les différents modes du paramètre acoustique sont encodés dans des dimensions distinctes. De plus, nous avons identifié les directions expliquant la variation des paramètres au sein de chaque mode, et entre eux.</abstract>
<identifier type="citekey">jacquelin-etal-2024-exploration</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.9</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>82</start>
<end>91</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.
%A Jacquelin, Maxime
%A Garnier, Maëva
%A Girin, Laurent
%A Vincent, Rémy
%A Perrotin, Olivier
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G French
%F jacquelin-etal-2024-exploration
%X Cet article propose une méthodologie pour interpréter les dimensions de variation de la parole conversationnelle, extraites de façon non-supervisée, et sur des données multilocuteurs, par un algorithme d’apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corrélation et de similarité cosinus, nous montrons que la distribution de la fréquence fondamentale et de la fréquence centrale des trois premiers formants de l’ensemble d’apprentissage est encodée par une direction dédiée de l’espace latent. Lorsque la distribution est multimodale, les différents modes du paramètre acoustique sont encodés dans des dimensions distinctes. De plus, nous avons identifié les directions expliquant la variation des paramètres au sein de chaque mode, et entre eux.
%U https://aclanthology.org/2024.jeptalnrecital-jep.9
%P 82-91
Markdown (Informal)
[Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.](https://aclanthology.org/2024.jeptalnrecital-jep.9) (Jacquelin et al., JEP/TALN/RECITAL 2024)
ACL