Stemmebaserede UPI-betalingsprompter: Fang diversitet til forbedrede AI-modeller
Udnyttelse af Shaips ekspertise inden for hurtig oprettelse og forskellige lydoptagelser til at understøtte stemmebaserede UPI-betalingssystemer med højkvalitets, kulturelt forskelligartede data.
Projektoversigt
Shaip samarbejdede med en førende fintech-virksomhed for at udvikle en stemmebaseret betalingsapplikation ved at oprette og optage forskellige UPI-betalingsprompter. Projektet involverede oprettelsen af 2,500 unikke prompter og 87,000 diversificerede prompter på tværs af 13 betalingsrelaterede hensigter, såsom at sende penge, anmode om penge, saldoforespørgsel og regningsbetalinger. Disse prompter blev optaget over 200 timer af 45 talere fra forskellige regioner, baggrunde og aldersgrupper, hvilket sikrer en bred vifte af sproglig og miljømæssig mangfoldighed.
Projektets mål var at udvikle træningsdata af høj kvalitet til en AI-model, der kan genkende og reagere på stemmekommandoer relateret til UPI-betalinger i virkelige omgivelser.
Nøglestatistikker
Lydtimer med UPI-betalingsprompter er optaget
200
Talere fra forskellige baggrunde (alder, uddannelse, region)
45
Hensigter dækket, med 87,000+ diversificerede prompter
13
Sprog: Engelsk, med talere fra forskellige modersmålsbaggrunde (Kumaoni, Bengali, Malayalam, Gujarati, Hindi, Marathi osv.)
Projektets omfang
Hurtig oprettelse
Omfanget omfattede oprettelse af unikke prompter til et stemmebaseret UPI-betalingssystem. Prompts blev designet til at dække flere hensigter og sikre, at de var forskellige i struktur, ordforråd og navngivne enheder. Nogle nøgleaspekter inkluderede:
13 hovedhensigter, herunder:
- Send penge: 65,653 unikke og diversificerede prompter
- Saldoforespørgsel: 3,052 opfordringer
- Anmod om penge: 26,972 opfordringer
- Transaktionshistorik, genopladning, regningsbetaling osv.
Lydoptagelse
For at sikre ægthed og anvendelighed i den virkelige verden blev prompter optaget af 45 talere fra forskellige sproglige baggrunde. Mangfoldigheden fanget gennem forskellige modersmål, regionale dialekter og miljøer (indendørs og udendørs) hjalp med at forbedre træningsdataene.
- Sproglig mangfoldighed: Brugere taler flydende engelsk, men med forskellige modersmål, såsom Kumaoni, Gujarati, Hindi, Bangla, Marathi og Malayalam.
- Alder, køn og uddannelsesmæssig baggrund: Data fangede en bred vifte af demografi.
- By- og landlige højttalere: For at afspejle brugen i den virkelige verden blev både by- og landlige talere inkluderet.
- Optagelsesmiljø: Lydoptagelser blev udført i både indendørs og udendørs omgivelser, med en række baggrundsstøj inkluderet.
Udfordringer
Sproglig og regional mangfoldighed
At sikre, at prompter afspejler forskellige regionale dialekter og højttalerkarakteristika krævede omhyggelig planlægning og udførelse.
Naturlige lydvariationer
Håndtering af baggrundsstøj og miljøforhold (indendørs vs. udendørs) var afgørende for anvendelse i den virkelige verden.
Forskellige højttalerprofiler
Inddragelsen af talere fra forskellige aldersgrupper, uddannelsesbaggrunde og landdistrikter/byregioner introducerede kompleksitet i at fange autentiske data.
Løsning
Shaip leverede en løsning, der adresserede projektets udfordringer ved at implementere avancerede NLP-teknikker og omhyggelig planlægning i både hurtig oprettelse og registrering. Nøgleaspekter af løsningen omfattede:
Hurtig oprettelse
- 2,500 Der blev skabt unikke prompter, hver diversificeret efter struktur og ordforråd.
- 13 hensigter blev dækket, lige fra grundlæggende betalingsanmodninger til mere komplekse forespørgsler såsom transaktionshistorik og regningsbetalinger.
Lydoptagelse
- 200 timer af lydoptagelser blev udført af 45 brugere, der sikrer diversitet på tværs af modersmål, miljøer og højttalerdemografi.
- Både indendørs og udendørs miljøer blev brugt til optagelse for at sikre naturlig lydvariation.
- Talere repræsenterede en række regionale dialekter, hvilket sikrede nøjagtig sproglig repræsentation.
| Intent | Send | Balanceundersøgelse | Anmod om penge | Transaktionshistorik |
|---|---|---|---|---|
| Hurtig | Foretag en betaling på 2100 til Sumatri for husleje | Jeg vil gerne vide min nuværende saldo på min opsparingskonto. | Kan du anmode Raji om tre hundrede og atten rupier for en nødsituation? | Vis mig min betalingskorttransaktionshistorik. |
| gujarati | સુમાત્રીને ઘરના ભાડા પેટે એકવીસસફ ચસફ | હું મારા બચત ખાતામાં મારી વર્તમાનનબઇ વા માંગુ છું. | શું તમે રાજી પાસેથી ઇમર્જન્સી માટઍ ત ર રૂપિયા માંગી શકો છો? | મને મારા ડેબિટ કાર્ડના વ્યવહાર દેડઋ. |
| Hindi | सुमात्री को मकान किराए के लिए इक्ॕरऌ का भुगतान करें। | मैं अपने बचत खाते में वर्तमान शेष शान शान ाहता हूँ। | क्या आप राजी से किसी इमरजेंसी के ल।ऌ लनत रह रुपये मांग सकते हैं? | मुझे मेरा डेबिट कार्ड का लेनदेन ब्रौ |
| malayalam | വീട്ടുവാടകയായി സുമത്രിക്ക് രണ്ടിര്ടാര ന്നൂറ് നൽകൂ. | എൻ്റെ സേവിംഗ്സ് അക്കൗണ്ടിലെ നിലവിലയവില ാൻ ഞാൻ ആഗ്രഹിക്കുന്നു. | രാജിയോട് മുന്നൂറ്റി പതിനെട്ട് ര്നടാൿരാ വശ്യത്തിന് ആവശ്യപ്പെടാമോ? | എൻ്റെ ഡെബിറ്റ് കാർഡ് ഇടപാട് വിവകണ . |
| telugu | ఇంటి అద్దె కోసం సుమత్రికి ఇరవై ఒక్క ించండి | నేను నా సేవింగ్స్ అకౌంట్ లో నా ప్రత్రత ెన్స్ ను తెలుసుకోవాలనుకుంటున్నాను. | ఎమర్జెన్సీ కోసం రాజిని మూడు వందల్ররররররর రూపాయలు అడగగలరా? | నా డెబిట్ కార్డ్ లావాదేవీ చరిత్రనన ంచండి. |
| Bangla (বাংলা) | বাড়ি ভাড়ার জন্য সুমাত্রিকে ২১,০০র পির োধ করুন | আমি আমার সঞ্চয় অ্যাকাউন্টে বর্লমান স জানতে চাই। | আপনি রাজির কাছে তাৎক্ষণিক অবস্থান্থান্জ তিনশো আঠারো টাকা চাইতে পারেন? | আমার ডেবিট কার্ডের লেনদেনের ইতিহনাই আমার ডেবিট |
| Marathi | सुमात्रीला घराच्या भाड्यासाठी दॾनज एकशे रुपये द्या. | मला माझ्या बचत खात्यातील सध्याचालऍि जाणून घ्यायचा आहे. | आपण राजीकडून तातडीसाठी तीनशे अठरुा र मागू शकता का? | माझ्या डेबिट कार्डचे व्यवहार दाखवा. |
Resultatet
De forskellige lyddata af høj kvalitet leveret af Shaip gjorde det muligt for klienten at udvikle et AI-drevet stemmebaseret UPI-betalingssystem, der er i stand til at genkende kommandoer i forskellige dialekter, miljøer og sammenhænge. Dataene hjalp med at forbedre:
- Stemmegenkendelse i realtid i komplekse miljøer.
- Mere nøjagtig UPI-transaktion håndtering for en bredere vifte af brugere.
- Skalerbarhed: Projektet danner et stærkt grundlag for at udvide til andre indiske sprog.
Leverancer
- 200 timer af lydfiler (8 kHz PCM WAV-format, mono)
- 87,000 + diversificerede prompter kommenteret med unikke hensigter
- Metadata: Højttalerprofiler, miljødetaljer og transskriptionsnøjagtighed
Shaips evne til at fange Indiens mangfoldighed gennem unikke prompter og autentiske lydoptagelser har været en game-changer for vores stemmebaserede UPI-betalingssystem. Deres team sikrede, at alle aspekter af projektet – fra hurtig oprettelse til optagelseskvalitet – blev håndteret med præcision, hvilket hjalp os med at opbygge en mere inklusiv, robust stemmegenkendelsesmodel.