Få nu 50 % RABAT* om Conversational AI Off-the-Shelf Datasæt
Tale- og lyddatasæt til chatbots, stemmeassistenter, taleaktiverede enheder.
*Tilbud i begrænset periode
Betroet af industriledere
Detaljer | Søgeord | Off-the-shelf sprogdatasæt | Call Center-samtaler 8khz* | Generiske samtaler 8khz* | Medier og podcasts 16khz* | Ytring/ scripted monolog 16khz* | Samlet volumen i timer | Dialekter dækket | Lyd Format | Teksttransskriptionsformat | Use Case | Kilde | CTA |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Afrikaans | Afrikaans lyddatasæt | 600 | 900 | 1500 | Afrikaans talt i Afrika | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
arabisk | Arabisk lyddatasæt | 800 | 1500 | 2300 | Arabisk fra Golflandene | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
kinesisk | Kinesisk lyddatasæt | 2000 | 2000 | kinesere fra Kina | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Danske | Dansk lyddatasæt | 400 | 600 | 2000 | 3000 | Dansk fra Danmark | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
Hollandsk | hollandsk lyddatasæt | 2000 | 2000 | hollændere fra Holland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Engelsk - AAVE Accent | Engelsk - AAVE (African American Vernacular English) lyddatasæt | 500 | 500 | 1000 | Den folkelige variant (nogle gange kendt som AAVE, typisk talt af det store flertal af arbejder- og middelklasse afroamerikanere) og den mere standardvariant (typisk talt af middelklasse afroamerikanere i formelle og offentlige situationer), men med en stærkere vægt på folkemunde. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk - Boston/New York Accent | Engelsk - Boston/New York lyddatasæt | 225 | 225 | 350 | 800 | Dette er en samling af flere regionale accenter, der tales i og omkring byerne Boston, New York og Philadelphia. Disse accenter lyder måske som ikke-lokale, men adskiller sig fra andre amerikanske accenter. På trods af et lokalt ordforråd, der er forskelligt fra andre dele af den engelsktalende verden, er disse accenter gensidigt forståelige med engelsk, der tales andre steder. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
Engelsk - kinesisk accent | Engelsk - kinesisk accent lyddatasæt | 150 | 300 | 450 | Talere, der taler kinesisk som deres første sprog, og som flyttede/immigrerede til USA som teenagere/voksne og lærte engelsk som deres andet sprog. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk - Deep South Accent | Engelsk - Deep South Audio Dataset | 275 | 275 | 450 | 1000 | Højttalere fra (i) Texas; (ii) North Carolina, South Carolina, Georgia; (iii) New Orleans; (iv) Florida panhandle; (v) Tennessee, Arkansas, Michigan. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
Engelsk - Hispanic Accent | Engelsk - Hispanic Accented Audio Dataset | 400 | 400 | 800 | Hispanic English refererer til de varianter af amerikansk engelsk, der tales af latinamerikanske amerikanere med forskellig national arv. Hovedfokus var på mexicanske amerikanere, talere af forskellig national oprindelse (f.eks. Mexico, Puerto Rico, Den Dominikanske Republik, Ecuador, Cuba osv.) og også fra forskellige regioner (f.eks. Californien, New York, Florida). Talere inkluderet var, der taler spansk som førstesprog, såvel som talere af latinamerikansk oprindelse, der taler spansk, har et arvesprog. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk - New Zealandsk accent | Engelsk - New Zealand lyddatasæt | 250 | 750 | 1000 | Højttalere på begge øer, inklusive en blanding af yngre højttalere (<40 år) og ældre højttalere (>40 år) i lige store forhold. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk - Singapore Accent | Engelsk - Singapore lyddatasæt | 400 | 600 | 1000 | Både Standard Singapore English og Colloquial Singapore English. Singaporeanere med forskellig etnisk baggrund (f.eks. kinesisk, malaysisk, indisk osv.) og med forskelligt uddannelsesniveau. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk - Sydafrika Accent | Engelsk - Sydafrika lyddatasæt | 400 | 600 | 1000 | Repræsentanter fra forskellige socioøkonomiske klasser og etnologiske baggrunde (f.eks. sydafrikanere med europæisk, afrikansk, indisk eller blandet baggrund). | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk - irsk accent | Engelsk - irsk lyddatasæt | 500 | 500 | engelsk talt i Irland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Engelsk - skotsk accent | Engelsk - skotsk lyddatasæt | 800 | 800 | Engelsk talt af skotsk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Engelsk - walisisk accent | Engelsk - walisisk lyddatasæt | 800 | 800 | walisisk engelsk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Fransk canadisk | Fransk canadisk lyddatasæt | 1000 | 1000 | Canadisk fransk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
hebraisk | Hebraisk lyddatasæt | 750 | 750 | 1500 | hebraisk i Israel | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
indonesisk | Indonesisk lyddatasæt | 1000 | 1000 | 2000 | Bahasa indonesisk | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
japansk | Japansk lyddatasæt | 2000 | 2000 | Japansk fra Japan | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
koreansk | Koreansk lyddatasæt | 100 | 200 | 1500 | 1800 | Højttalere spredt over hele Sydkorea. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
Malay | Malay Audio Datasæt | 500 | 500 | 1000 | Malayisk i Malaysia | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Mexicansk spansk | Mexicansk spansk lyddatasæt | 1250 | 1250 | Mexicansk fra Mexico | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
polsk | Polsk lyddatasæt | 250 | 2000 | 2250 | polsk fra Polen | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
russisk | Russisk lyddatasæt | 2000 | 2000 | Russisk fra Rusland | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Swahili | Swahili lyddatasæt | 350 | 650 | 1000 | sydafrikansk og kenyansk swahili | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Svensk | Svensk lyddatasæt | 350 | 650 | 1000 | svensk i Sverige | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Taiwan kinesisk | Taiwan kinesisk lyddatasæt | 1000 | 1000 | kinesisk fra Taiwan | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
Thai | Thai lyddatasæt | 350 | 450 | 800 | Et uformelt register, der bruges mellem venner, | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
tyrkisk | Tyrkisk lyddatasæt | 2000 | 2000 | Tyrkisk fra Tyrkiet | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||||
vietnamesisk | Vietnamesisk lyddatasæt | 600 | 400 | 1000 | Nordlige (f.eks. Hanoi), Centrale og Sydlige (f.eks. Ho Chi Minh City). | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Hindi | Hindi lyddatasæt | 800 | 2000 | 2800 | Hindi i Indien specifikt i nord, øst og vest regioner | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Hinglish | Indisk engelsk lyddatasæt | 300 | 500 | 800 | Indsamlet fra indiske byer, der er økonomiske knudepunkter i landet på grund af voksende økonomiske muligheder. Sådanne steder kan være Noida, Delhi, Dehradun, Chandigarh, Mumbai, Kolkata, Bangalore, Pune, Chennai, Hyderabad osv. | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||
Engelsk | Engelsk lyddatasæt | 700 | 700 | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | |||||
Kannada | Kannada lyddatasæt | 60 | 100 | 40 | 200 | Kannada fra Karnataka, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
malayalam | Malayalam lyddatasæt | 60 | 100 | 40 | 200 | Malayalam fra Kerala, Lakshadweep og Puducherry | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
oriya | Oriya lyddatasæt | 60 | 100 | 40 | 200 | Oriya fra dele af Odisha, Vestbengalen, Jharkhand og Chhattisgarh | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
punjabi | Punjabi lyddatasæt | 60 | 100 | 40 | 200 | Punjabi fra Punjab, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
tamil | Tamil lyddatasæt | 60 | 100 | 240 | 400 | Tamil fra Tamil Nadu, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
telugu | Telugu lyddatasæt | 100 | 950 | 950 | 2000 | Telugu fra Andhra Pradesh, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
bengalsk | Bengalsk lyddatasæt | 60 | 100 | 40 | 200 | Bengali fra Vestbengalen, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
gujarati | Gujarati lyddatasæt | 60 | 100 | 40 | 200 | Gujarati fra Gujarat, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
Marathi | Marathi lyddatasæt | 60 | 100 | 40 | 200 | Marathi fra Maharashtra, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt | ||
Assamesisk | Assamisk lyddatasæt | 60 | 100 | 40 | 200 | Assamisk fra Asssam, Indien | . Wav | .json | ASR, Virtual Assistant, Chatbot, Conversational AI, Speech Analytics, TTS, Language Modeling | Saip | Kontakt Kontakt |
Dyb ekspertise inden for konversations AI
Conversational AI eller Chatbots eller Virtual / Digital Assistants er kun så smarte som teknologien og dataene bag dem. Hos Shaip tilbyder vi dig et bredt sæt af det diversificerede lyddatasæt til Natural Language Processing (NLP), der efterligner samtaler med rigtige mennesker, som lader dig bringe din AI til live. Med vores dybe forståelse hjælper vi dig med at bygge og lokalisere AI-aktiverede talemodeller med den største præcision med rige og strukturerede datasæt på flere sprog fra hele kloden. Vi tilbyder flersproget lydindsamling, lydtransskription og lydannoteringstjenester baseret på dine krav, mens vi fuldt ud tilpasser ønsket hensigt, ytringer og demografisk distribution.
Indsamling af scriptet tale
Spontan taleindsamling
Transkription af lyddata
Datamærkning og kommentar
Shaip lader dig træne din Conversational AI-platform nøjagtigt, så den kan:
- Tal, tekst og chat problemfrit på tværs af flere kanaler.
- Lær af eksisterende interaktioner i form af chat, stemmetransskriptioner, transaktioner osv. og foreslå & samtale baseret på disse erfaringer.
- Forstå hensigten bag menneskelig tale og fjern tvetydighed i forståelsen af menneskeligt sprog.
- Interagere med dig på en-til-en basis og kan trænes i at identificere brugere og huske tidligere samtaler.
En verdensleder inden for konversations AI træningsdata
Timer med lyddata på mere end 100 sprog - hentet, transskriberet og kommenteret
Licensdata til taledata
20k + timers taledata på 40+ sprog og dialekter, der dækker en række 55+ emner fra forskellige domæner, dvs. callcenter, debatter, generelle samtaler, taler, podcasts osv.
Indsamling af taledata
Saml lyd- og taledata (monolog, 2-personers samtale, human-bot-chat) på over 100 sprog fra hele verden, tilpasset dit AI-krav.
Transskription af taledata
Omkostningseffektiv lydtranskription eller lydkommentar gennem en stærk arbejdsstyrke på 30,000 samarbejdspartnere med garanteret TAT, nøjagtighed og besparelser
Fremskynd din konversations AI-appudvikling med Audio Collection & Audio Annotation Services
Shaip-fordelen
Skala
Vi kan kilde, skalere og levere lyddata fra hele verden på flere sprog og dialekter baseret på dine krav.
ekspertise
Vi har den rigtige ekspertise med hensyn til nøjagtig og upartisk dataindsamling, transkription og guldstandard-kommentar.
Netværk
Et netværk af mere end 30,000 kvalificerede bidragsydere, som hurtigt kan tildeles dataindsamlingsopgaver til at opbygge AI-træningsmodel og opskaleringstjenester.
Teknologier
Vi har en fuldt AI-baseret platform med proprietære værktøjer og processer til at udnytte arbejdsflowstyringen 24 * 7 døgnet rundt.
Agility
Vi tilpasser os meget hurtigt ændringer i kundernes behov og hjælper med at fremskynde AI-udvikling med taledata af høj kvalitet 5-10 gange hurtigere end konkurrencen.
Sikkerhed
Vi lægger stor vægt på datasikkerhed og privatliv og er også certificeret til at håndtere meget regulerede følsomme data.
Hvad vi gør bedst
Træningsdata
Få mærkede data af højeste kvalitet på en brøkdel af tiden. Den er guldstandard, pålidelig og klar til at træne dine AI- og ML-modeller for at opnå det højeste niveau af ydeevne.
Dataindsamling, mærkning og kommentar
Med Shaip får du mere end 15 års dokumenteret ekspertise i at indsamle, transskribere og kommentere kvalitetsdata. Med vores globale arbejdsstyrke kan vi indsamle data fra hele kloden og derefter levere mærknings- og annoteringstjenester med den perfekte mængde færdighedsniveau og ekspertise, der kræves til dine data.
Datakataloger og licensering
Med vores enorme beholdning af millioner af datasæt kan du indsamle og organisere efter behov. Vi kan derefter licensere disse kvalitetsdata til dine specifikke AI- og ML-brugskrav. Derudover er disse data tilgængelige til en brøkdel af prisen, hvis du selv skulle oprette dem.
Vil du bygge dit eget datasæt?
Kontakt os nu for at lære, hvordan vi kan indsamle et tilpasset datasæt til din unikke AI-løsning.