Kinesisk datasæt

简体中文数据集

Kinesisk datasæt af høj kvalitet til AI og talemodeller

Oversigt

Titel (sprog)

Kinesisk sprogdatasæt

Datasættyper

Callcenter, Musik, Skrevet monolog, Mediedata (Podcastdata)

Land

Kina

Beskrivelse

Dette datasæt omfatter uskripterede syntetiske agent-kunde-telefonsamtaler (5-15 minutter), naturlige menneske-til-menneske-telefonsamtaler (15-60 minutter) og sanglyd med transskriptioner, hvilket leverer forskellige taledata til træning og evaluering af tale- og sprogteknologier.

Use Case

ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling

Datasætdetaljer

Sprog Datasættype Sampling Rate Højttalere Kanal Samlede timer Samlet antal højttalere
Kinesisk sang Music 48 kHz Enkel højttaler Mono 06:11:32 10
Kinesisk (traditionelt) Manuskriptmonolog 48 kHz Enkel højttaler Mono 1,499:00:00 1,805
Kinesisk accentueret engelsk Mediedata 16 kHz Flere højttalere Mono 306:04:58 2,130
Forenklet kinesisk Manuskriptmonolog 48 kHz Enkel højttaler Mono 2,761:00:00 3,725
Kinesisk med amerikansk accent og engelsk Call center 8 kHz 2 højttalere Dual 152:18:33 2,058
Kinesisk med amerikansk accent og engelsk Mediedata 16 kHz Flere højttalere Mono 245:55:15 468

Fremhævede klienter

Styrke teams til at opbygge verdensledende AI-produkter.

Shaip kontakt os

Kan du ikke finde det, du leder efter?

Nye hyldedatasæt bliver indsamlet på tværs af alle datatyper

Kontakt os nu for at give slip på dine bekymringer om dataindsamling af lyd/taletræning

  • Dette felt er til validering og bør overlades uændret.
  • Ved tilmelding er jeg enig med Shaip Privatlivspolitik og Servicevilkår og give mit samtykke til at modtage B2B marketingkommunikation fra Shaip.