Wat is Speaker Tracking?

Wanneer er meerdere mensen aanwezig zijn bij een vergadering en iemand spreekt, kan het lastig zijn om je te concentreren op de inhoud als het algemene beeld wordt weergegeven. Je aandacht kan dan wegvallen. De Speaker Tracking-functie pakt dit probleem aan door de spreker te centreren en een close-upweergave van hem of haar op het scherm te bieden. Deze functie biedt zowel een panoramisch beeld van de vergadering als gedetailleerde beelden van de spreker, wat je algehele vergaderervaring verbetert.
Hoe u speakertracking implementeert
De speaker tracking-functie wordt bereikt door de samenwerking van een microfoonarray en een camera. De microfoonarray bestaat uit meerdere microfoons, elk gepositioneerd op een aparte locatie binnen de array.
Wanneer iemand tijdens een vergadering spreekt, is er een tijdsvertraging tussen de geluidssignalen die verschillende microfoons bereiken. De microfoonarray kan de locatie van de geluidsbron bepalen door dit tijdsverschil te analyseren, met behulp van de geluidsbronlokalisatietechnologie die het gebruikt.
De camera ontvangt de hierboven genoemde informatie over de audiopositie en volgt deze op basis daarvan. Zo wordt een close-up van de spreker gemaakt in een geschikte verhouding.
Ten tweede, als er tijdens de vergadering niemand spreekt, schakelt de stemregistratiemodus automatisch over naar de automatische framingmodus, zoals geïntroduceerd in " Wat is Auto Framing? "
Technische voordelen
In een conferentieomgeving kunnen ruis en galm de lokalisatie van geluidsbronnen verstoren. De Speaker Tracking-functie van Yealink berekent de relatieve hoeken van meerdere microfoons met behulp van de GCC-PHAT-oplossing. Vervolgens worden statistische algoritmen voor nabewerking gebruikt om galm en ruis in de conferentieruimte effectief weg te filteren, waardoor de nauwkeurigheid van de lokalisatie van geluidsbronnen wordt verbeterd.
Functioneel effect

Producttoepassing
MeetingBoard-serie , MeetingBar AX-serie , UVC-86 , UVC-40 , En SmartVision 40 zijn uitgerust met een Speaker Tracking-functie.
Afgeleide functies op basis van spraaktracking: detectie van lipbewegingen en intercommodus
Lipbewegingsdetectie
De microfoons in de horizontale microfoonopstelling zijn horizontaal geplaatst, waardoor ze geluiden uit alle richtingen kunnen opvangen. Hierdoor wordt de geluidsopname in het horizontale vlak aanzienlijk verbeterd.
Wat betreft taaltracking in andere contexten, wordt de lipbewegingsmodus geïntroduceerd. De camera legt continue dynamische frame-informatie van de lippen vast, interpreteert de veranderingen in lipbeweging en identificeert en focust op de spreker wiens lippen in beweging zijn.
Lipbewegingsdetectie beheert effectief scenario's waarin deelnemers achter elkaar of in verschillende hoeken zitten. Het detecteerbare bereik voor lipbewegingsdetectie omvat een laterale gezichtshoek van ongeveer -60° tot +60° en een hellingshoek van -15° tot +30° (waarbij negatieve waarden een neerwaartse hoofdpositie aangeven en positieve waarden een opwaartse hoofdpositie). Deze mogelijkheid zorgt voor effectieve stemtracking vanuit meerdere hoeken.
Technische voordelen
Het algoritme dat wordt gebruikt voor het detecteren van lipbewegingen, voert eerst gezichtsdetectie uit en gebruikt vervolgens een sleutelpuntmodel om de belangrijkste coördinaten van het gezicht en de lippen te extraheren.
Vergeleken met het conventionele PFPLD-model kan dit sleutelpuntmodel effectief niet-frontale gezichtsscènes vanaf een grotere afstand vastleggen.
NME (Normalized Mean Error) is een evaluatiemetriek die wordt gebruikt om de prestaties van gezichtsherkenningspuntdetectiealgoritmen te meten. Een kleinere waarde geeft aan dat het voorspelde sleutelpunt dichter bij de werkelijke positie ligt, wat een betere algoritmeprestatie weerspiegelt.
Producttoepassing
UVC 86 en SmartVision 40 (binnenkort beschikbaar - blijf op de hoogte!) ondersteunen lipbewegingsdetectie. Wanneer UVC 86 meerdere vergelijkbare audiopositiesignalen van de microfoonarray ontvangt en niet in staat is om onderscheid tussen deze signalen te maken, activeert het lipbewegingsdetectie. Ondertussen voert SmartVision 40 realtime lipbewegingsdetectie uit tijdens spraaktracking.
Intercom-modus
Wanneer twee personen afwisselend converseren, kan de stemvolgmodus ervoor zorgen dat het scherm vaak wisselt, wat een negatieve invloed heeft op de kijkervaring. In dergelijke gevallen kunt u de intercommodus activeren om verschillende gespreksscenario's te accommoderen. Tijdens afwisselende dialogen worden de schermen van beide deelnemers omlijst; wanneer het gesprek echter is beëindigd en slechts één persoon gestaag blijft spreken, verschuift de focus naar het scherm van de actieve spreker.
Producttoepassing
UVC-86 Ondersteunt het openen in de Start-intercommodus van Yealink Room Connect.
Hoe benut u speaker tracking optimaal?
1. Omdat het algoritme afhankelijk is van gezichtsherkenning en het opvangen van geluid via een microfoon, kunnen wij als deelnemers de prestaties ervan optimaliseren door storende factoren in de vergaderruimte tot een minimum te beperken.
> Voordat u de functie gebruikt, moet u de lens kalibreren om ervoor te zorgen dat er geen objecten de vaste-focuslens blokkeren. Herkalibratie is nodig na het verplaatsen van de camera.
> Vermijd reflecties van mensen, paspoppen, tekenfilmfiguren en vergelijkbare objecten op glazen oppervlakken of whiteboards in vergaderruimten.
> Plaats deelnemers niet in ruimtes met een hoge blootstelling, omdat dit ertoe kan leiden dat detecties gemist worden.
> Om met de microfoonarray een optimale lokalisatie van de geluidsbron te bereiken, dient u voldoende afstand te houden tot zowel binnen- als buitengeluidsbronnen, zoals verkeersgeluiden en geluiden van de airconditioning.
2. Als er bij UVC 86 een foutmelding verschijnt wanneer er een audioapparaat van een derde partij is aangesloten, voer dan een upgrade uit naar versie 151.432.0.18 om te bepalen of het probleem hiermee is opgelost.