Musik AI Case Study

Syngende stemme Dataindsamling

Stemmebaseret sanglydsamling til EQ- og kompressionsalgoritmetræning: Fangst sproglig og musikalsk mangfoldighed

Stemmebaseret sanglydsamling

Projektoversigt

Shaip samarbejdede med en førende teknologivirksomhed for at indsamle forskellige sanglydoptagelser på tværs af fire prioriterede sprog: kinesisk, arabisk, spansk og russisk. Projektet havde til formål at levere data af høj kvalitet til træning af AI-baseret EQ og komprimeringsalgoritmer, som er afgørende for at forbedre automatiseret lydbehandling.

Samlingen omfattede 40 deltagere (10 pr. sprog) fra forskellige genrer, med fokus på optagelser i studiekvalitet ved brug af forskellige mikrofoner og miljøer.

Samling af sanglyd

Nøglestatistikker

4 sprog: kinesisk, arabisk, spansk, russisk

10 sangere per
sprog (40 i alt)

20 timer of
sang lyd

Lydformat: 48 kHz PCM, mono, WAV

Lydtransskription på modersmål

Projektvarighed:
18 uger

Projektets omfang

Dataindsamling

Omfanget omfattede samlingen af ​​sanglyd på fire målrettede sprog, optaget af rigtige kunstnere på tværs af flere musikalske genrer. Et studiemiljø blev brugt til at sikre højkvalitetsoptagelser egnet til træning af AI-modeller.

Vigtige krav

  • Deltagere: 10 sangere pr. sprog, med en afbalanceret kønsfordeling (50 % mænd, 50 % kvinder).
  • Genrer: En række genrer, selvidentificeret af kunstneren, valideret for konsistens.
  • Optagelsesmiljø: Studiekvalitet med flere mikrofonindstillinger (dynamisk, kondensator).
  • Lydformat: 48 kHz PCM, mono, WAV-filer, uden behandling (f.eks. ingen komprimering, EQ, rumklang).
  • Transskription: Sange, der skal transskriberes på det sprog, de synges, med særlige regler for tosprogede sange.
  • Sprog: kinesisk, arabisk, spansk, russisk
  • Transskription
    • Transskriptioner skal leveres på sproget for optagelsen (f.eks. hindi-linjer på Devanagari, efterfulgt af engelsk).
    • Sørg for, at hvert segment ikke er længere end 15 sekunder for klarhed og nøjagtighed.
  • Krav til lydoptagelse
    • Minimum 3 mikrofonindstillinger pr. optagesession.
    • 3 minutter pr. sang, med 3 optagelser pr. sang, hvilket sikrer forskellige mikrofonoptagelser for hver deltager.
    • Akustisk miljø i studiekvalitet uden baggrundsstøj.

Udfordringer

Deltager mangfoldighed

At sikre en afbalanceret fordeling af sangere efter køn, stemmetone/tonehøjde og musikalsk genre var en kompleks udfordring.

Datakonsistens

Opretholdelse af ensartede mikrofonindstillinger og miljø, mens du optager forskellige vokalpræstationer på flere sprog.

Lydkvalitetskontrol

Sikring af lyd i studiekvalitet uden ekstern støj og nøjagtig transskription på flere sprog.

Løsning

Shaip leverede en omfattende løsning til at opfylde projektets krav ved at:

  • Rekruttering af 40 sangere på tværs af fire sprog og sikring af forskellig repræsentation i køn, tonehøjde og musikalsk stil.
  • Udførelse af optagelser i studiekvalitet med forskellige mikrofontyper (dynamisk, kondensator) for at fange en bred vifte af lyddata.
  • Transskribering af optagelser nøjagtigt på de anvendte sprog, efter specifikke regler for tosprogede sange.
  • Samtykke: Samtykkeformularer vil blive indsamlet fra alle deltagere inden optagelse.

Resultat

De forskellige sanglyddata, der blev indsamlet, gjorde det muligt for klienten at udvikle et robust træningssæt til automatiserede EQ og komprimeringsalgoritmer, hvilket forbedrede kvaliteten af ​​lydbehandling. Optagelserne af høj kvalitet og detaljerede metadata sikrede, at AI-modellerne kunne håndtere forskellige musikalske genrer og sproglige kompleksiteter. Nøgleresultater:

  • Diverse lyddata i høj kvalitet til træning af AI-systemer.
  • Nøjagtig transskription og metadata til analyse.
  • Et stærkere grundlag for AI-baserede lydbehandlingsværktøjer.

Leverancer

  • 20 timers lydoptagelser i studiekvalitet (48 kHz PCM, mono WAV-filer).
  • Transskriptioner på optagelsens sprog.
  • Metadata: mikrofonmærke/model, DAC/lydgrænseflade, sangerprofil, genreoplysninger.
  • JSON-format til transskription med metadata.

Shaips evne til at fange mangfoldigheden af ​​musikalsk talent og sproglig rigdom har været uvurderlig for udviklingen af ​​vores EQ og komprimeringsalgoritmer. Deres team sikrede, at alle aspekter, fra kunstnerrekruttering til optagelseskvalitet, blev håndteret med præcision, hvilket gør dette til et væsentligt skridt i raffineringen af ​​vores automatiserede lydbehandlingssystemer.

Vi er virkelig taknemmelige for den tillid og samarbejde, Shaip har vist gennem hele processen. På trods af vores strenge og udfordrende tekniske krav har deres dedikation, hårde arbejde og sans for detaljer været enestående. Det har været en fornøjelse at arbejde med et team, der er så engageret i at levere ekspertise

Gylden-5-stjernet