Home / Services / Datatjenester / Træning af flersproget AI

Træning af flersproget AI med stemmedata fra den virkelige verden

Oplev, hvordan en global teknologileder skalerede AI-talegenkendelse med mere end 120 timers forskellige stemmedata fra den virkelige verden.


Industri og tjenesteydelser

Om kunden
En af verdens største teknologivirksomheder, som betjener millioner af mennesker i mere end 70 lande, har sat sig for at gøre sin platform smartere og mere tilgængelig med nye AI-drevne stemmefunktioner. For at få succes havde de brug for flersprogede data, som virkelig afspejlede den måde, deres brugere taler og interagerer på i den virkelige verden - mangfoldige, autentiske og af høj kvalitet.

av_timer

100%
Levering til tiden, ingen omarbejdning nødvendig

attach_money

20%
reduktion i rekrutteringsomkostninger

mic

120+
timer med tale- og videodata indsamlet

group

170+
talere fra 6 engelske accentgrupper

Udfordringen

Sikring af, at Voice AI fungerer for alle

Forskellige stemmer for inkluderende AI

Virksomheden ønskede, at dens stemme-AI-funktioner skulle afspejle brugernes mangfoldighed. Det betød, at man skulle sørge for, at folk med forskellige engelske accenter - nogle af dem bliver ofte overset - var ordentligt repræsenteret i dataene.

Indfangning af forhold i den virkelige verden

Fordi brugerne interagerer med appen i alle slags miljøer, skulle AI'en også fungere godt i forskellige akustiske omgivelser: fra små mødelokaler til travle bestyrelseslokaler og ved hjælp af forskellige enheder.

Skalering uden distraktion

At håndtere denne type dataindsamling i stor skala i flere regioner var langt ud over virksomhedens interne ressourcer. De havde brug for en pålidelig partner, der kunne levere et brugsklart datasæt uden at sinke deres teams.

square-35

"Bag hvert datasæt er der en designudfordring. Den virkelige verdens mangfoldighed, logistiske kompleksitet og teknologiske præcision skal alle tilpasses for at levere AI-klare data i stor skala."

 

Jennifer Nacinelli, AI Data Program Manager, Acolad

square-27
Løsningen

En ramme for dataindsamling i den virkelige verden

Opbygning af et kontrolleret laboratorium

For at sikre, at dataindsamlingen var autentisk i forhold til kundens virkelige brugsscenarier, designede og byggede vi tre dedikerede optagelsesmiljøer for at efterligne virksomhedsopsætninger, fra små mødelokaler til store bestyrelseslokaler. Hvert rum havde forskellige akustiske forhold, og der blev brugt en lang række af markedets bedste enheder til at indsamle autentiske data til kundens AI-modeller.

Find de rigtige stemmer til datadiversitet

Vi vidste, at vi havde brug for forskellige stemmer for at opbygge en inkluderende AI. Vores team rekrutterede over 170 talere på tværs af flere lokationer. Vi startede i Las Vegas, men udvidede til Bangkok for at fange underrepræsenterede accenter, hvilket også hjalp os med at reducere omkostningerne og fremskynde projektets tidslinje. Projektets succes åbnede også døren til at indsamle data på nye sprog.

Håndtering af detaljerne på stedet

For at sikre en ensartet dataindsamlingsproces og output af høj kvalitet indsatte Acolad teams på stedet til at håndtere alt fra fejlfinding af udstyr til pleje af deltagerne. Vores end-to-end-koordinering sikrede, at hver session - og projektet i det hele taget - blev holdt på sporet.

Sikring af datakvalitet

At levere data af høj kvalitet handlede ikke kun om at registrere dem; det handlede også om grundig validering. Alt optaget indhold blev gennemgået og behandlet gennem menneskeledede workflows for at sikre transskriptionskvalitet og metadatakonsistens. Denne strenge kvalitetskontrol var med til at sikre træningsdataenes pålidelighed, så kunden kunne teste stemmens ydeevne under forskellige forhold og optimere sine AI-algoritmer i overensstemmelse hermed.

Diversity_3

Forskellige stemmer

En kurateret højttalerpulje for demografisk og engelsk accentdiversitet, der sikrede, at dataene afspejlede den globale brugerbase.
frame_person_mic

Realistiske miljøer

Specialbyggede optagelsesmiljøer, der simulerer mødeforhold i den virkelige verden.
automation

Sømløs udførelse

Fuldt styrede teams på stedet sikrede en problemfri dataindsamlingsproces og levering.
star_shine

Valideret kvalitet

Menneskevaliderede datasæt, som giver kunden pålidelige data, der er klar til brug i deres AI-modeller.
Resultaterne

Levering af inkluderende AI-træningsdata med stor effekt

Projektet leverede over 120 timers rige stemme- og videodata - fuldt kommenterede, demografisk forskellige og teknisk robuste. Ved at levere et pålideligt lyd- og videodatasæt af høj kvalitet gjorde Acolad det muligt for kunden at teste og forfine deres AI-transskription, tekstning og mødeopsummeringsværktøjer. Hvert projekt blev leveret 100 % til tiden uden behov for omarbejde, og vi hjalp kunden med at reducere rekrutteringsomkostningerne med 20 %.

Dette vellykkede partnerskab gjorde det muligt for denne globale teknologileder at fokusere mere effektivt på deres kerneforretning i tillid til, at deres AI blev trænet med data, der virkelig afspejlede den virkelige verden.

Vi leverede varen:

  • Realistiske træningsdata, der afspejler den virkelige verdens kompleksitet.
  • Forbedret nøjagtighed af AI-modellen.
  • hurtigere lancering
  • En skalerbar ramme for fremtidig projektudvidelse.
freelancer-avatars-centered 1

Har du brug for pålidelige data fra den virkelige verden til at drive din AI?