Pag-aaral ng Kaso: Pakikipag-usap AI

Higit sa 3k oras ng Data na Nakolekta, Naka-segment at Na-transcribe para bumuo ng ASR sa 8 Indian na wika
Pakikipag-usap ai
Nilalayon ng pamahalaan na bigyang-daan ang mga mamamayan nito ng madaling pag-access sa mga serbisyo sa internet at digitale sa kanilang sariling wika sa pamamagitan ng Bhashini Project.

Ang BHASHINI, ang platform ng pagsasalin ng wika na hinimok ng AI ng India, ay isang mahalagang bahagi ng inisyatiba ng Digital India.

Dinisenyo para magbigay ng mga tool ng Artificial Intelligence (AI) at Natural Language Processing (NLP) sa mga MSME, startup, at independiyenteng innovator, nagsisilbing pampublikong mapagkukunan ang Bhashini platform. Ang layunin nito ay isulong ang digital inclusion sa pamamagitan ng pagpapagana sa mga mamamayan ng India na makipag-ugnayan sa mga digital na inisyatiba ng bansa sa kanilang mga katutubong wika.

Bukod pa rito, nilalayon nitong makabuluhang palawakin ang pagkakaroon ng nilalaman ng internet sa mga wikang Indian. Ito ay partikular na naka-target sa mga lugar ng pampublikong interes tulad ng pamamahala at patakaran, agham at teknolohiya, atbp. Dahil dito, ito ay mag-udyok sa mga mamamayan na gumamit ng internet sa kanilang sariling wika, na nagtataguyod ng kanilang aktibong pakikilahok.

Tunay na Solusyon sa Mundo

Pinakawalan ang Kapangyarihan ng Lokalisasyon gamit ang Data

Nangangailangan ang India ng isang platform na tututuon sa paglikha ng mga multilingual na dataset at mga solusyon sa teknolohiya ng wika na nakabatay sa AI upang makapagbigay ng mga digital na serbisyo sa mga wikang Indian. Upang ilunsad ang inisyatibong ito, nakipagsosyo ang Indian Institute of Technology, Madras (IIT Madras) sa Shaip upang mangolekta, mag-segment at mag-transcribe ng mga dataset ng wikang Indian para bumuo ng mga multi-lingual na modelo ng pagsasalita.

Hamon

Para tulungan ang kliyente sa kanilang speech roadmap ng Speech Technology para sa mga wikang Indian, kailangan ng team na kumuha, mag-segment at mag-transcribe ng malalaking volume ng data ng pagsasanay para bumuo ng AI model. Ang mga kritikal na kinakailangan ng kliyente ay:

Pagkolekta ng data

  • Kumuha ng 3000 oras ng data ng pagsasanay sa 8 Indian na wika na may 4 na dialect bawat wika.
  • Para sa bawat wika, kukunin ng supplier ang Extempore Speech at
    Pag-uusap mula sa Mga Pangkat ng Edad na 18-60 taon
  • Tiyakin ang magkakaibang halo ng mga nagsasalita ayon sa edad, kasarian, edukasyon, at diyalekto
  • Tiyakin ang magkakaibang halo ng mga kapaligiran sa pag-record ayon sa Mga Pagtutukoy.
  • Ang bawat audio recording ay dapat na hindi bababa sa 16kHz ngunit mas mainam na 44kHz

Segmentation ng Data

  • Gumawa ng mga segment ng speech na 15 segundo at timestamp ang audio sa millisecond para sa bawat partikular na speaker, uri ng tunog (speech, babble, music, ingay), turn, sambit, at mga parirala sa isang pag-uusap
  • Gumawa ng bawat segment para sa target na sound signal nito na may 200-400 millisecond padding sa simula at pagtatapos.
  • Para sa lahat ng mga segment, ang mga sumusunod na bagay ay dapat punan ie, Oras ng Pagsisimula, Oras ng Pagtatapos, ID ng Segment, Antas ng Loudness, Uri ng Tunog, Code ng wika, Speaker ID, atbp.

Transkripsyon ng Data

  • Sundin ang mga detalye ng mga alituntunin sa transkripsyon sa paligid ng Mga Character at Espesyal na Simbolo, Spelling at Grammar, Capitalization, Abbreviations, Contractions, Indibidwal na Binibigkas na mga Letra, Numero, Punctuation, Acronym, Hindi Mahusay, Pagsasalita, Hindi Naiintindihan na Pagsasalita, Hindi Target na Wika, Hindi Pagsasalita atbp.

Pagsusuri ng Kalidad at Feedback

  • Ang lahat ng mga pag-record ay sasailalim sa pagtatasa at pagpapatunay ng kalidad, tanging na-validate na pananalita lang ang ihahatid

Solusyon

Sa aming malalim na pag-unawa sa AI sa pakikipag-usap, tinulungan namin ang kliyente na mangolekta, mag-segment at mag-transcribe ng data sa isang pangkat ng mga ekspertong collector, linguist at annotator para bumuo ng malaking corpus ng audio dataset sa 8 Indian na wika

Ang saklaw ng trabaho para sa Shaip ay kasama ngunit hindi limitado sa pagkuha ng malalaking volume ng audio training data, pag-segment ng mga audio recording sa maramihang, pag-transcribe ng data at paghahatid ng kaukulang JSON file na naglalaman ng metadata [SpeakerID, Age, Gender, Language, Dialect,
Mother Tongue, Kwalipikasyon, Trabaho, Domain, Format ng file, Dalas, Channel, Uri ng Audio, Bilang ng mga nagsasalita, Bilang. Ng Mga Banyagang Wika, Nagamit na setup, Narrowband o Wideband na audio, atbp.].

Nakakolekta si Shaip ng 3000 oras ng audio data sa sukat habang pinapanatili ang nais na antas ng kalidad na kinakailangan upang sanayin ang teknolohiya ng pagsasalita para sa mga kumplikadong proyekto. Ang Explicit Consent Form ay kinuha mula sa bawat kalahok.

1. Pagkolekta ng data

2. Segmentation ng Data

  • Ang data ng audio na nakolekta ay higit pang nahati sa mga segment ng pagsasalita na 15 segundo bawat isa at na-timestamp sa millisecond para sa bawat partikular na tagapagsalita, uri ng tunog, mga pagliko, pagbigkas, at mga parirala sa isang pag-uusap
  • Ginawa ang bawat segment para sa naka-target na sound signal nito na may 200-400 milliseconds padding sa simula at dulo ng sound signal.
  • Para sa lahat ng mga segment, ang mga sumusunod na bagay ay naroroon at napuno ie, Start Time, End Time, Segment ID, Loudness Level (Loud, Normal, Quiet), Primary Sound Type (Speech, Babble, Music, Noise, Overlap), Language Code Speaker ID, Transcription atbp.

3. Quality Check at Feedback

  • Ang lahat ng mga pag-record ay nasuri para sa kalidad at ang mga napatunayan lamang na pag-record ng pagsasalita na may WER na 90% at TER na 90% ang naihatid
  • Sinunod ang Checklist ng Kalidad:
    » Max na 15 segundo ng haba ng segment
    » Transkripsyon mula sa mga partikular na domain, katulad ng: Panahon, iba't ibang uri ng balita, kalusugan, agrikultura, edukasyon, trabaho o pananalapi
    » Mababang ingay sa background
    » Walang Audio clip off – Walang pagbaluktot
    » Tamang audio segmentation para sa transkripsyon

4. Transkripsyon ng Data
Ang lahat ng binigkas na salita, kabilang ang mga pag-aalinlangan, mga salitang tagapuno, maling pagsisimula, at iba pang verbal tics, ay tumpak na nakuha sa transkripsyon. Sinunod din namin ang mga alituntunin sa transkripsyon ng mga detalye tungkol sa malalaking titik at maliliit na letra, pagbabaybay, capitalization, pagdadaglat, contraction, numero,
bantas, Mga Acronym, Hindi Mahusay na Pagsasalita, mga ingay na hindi nagsasalita atbp. Bukod dito, ang Daloy ng Trabaho na sinundan para sa Koleksyon at Transkripsyon ay nasa ibaba:

Kalalabasan

Ang mataas na kalidad na data ng audio mula sa mga dalubhasang linguist ay magbibigay-daan sa Indian Institute of Technology – Madras, na tumpak na magsanay at bumuo ng mga multilingguwal na modelo ng Speech Recognition sa 8 Indian na wika na may iba't ibang diyalekto sa itinakdang oras. Ang mga modelo ng pagkilala sa pagsasalita ay maaaring gamitin upang:

  • Pagtagumpayan ang hadlang sa wika para sa digital inclusion sa pamamagitan ng pagkonekta sa mga mamamayan sa mga inisyatiba sa kanilang sariling wika.
  • Itinataguyod ang Digital na Pamamahala
  • Catalyst upang bumuo ng isang ecosystem para sa mga serbisyo at produkto sa mga wikang Indian
  • Mas naka-localize na digital na content sa mga domain ng pampublikong interes, partikular, sa pamamahala at patakaran
Golden-5-star

Humanga kami sa kadalubhasaan ni Shaip sa pakikipag-usap sa AI space. Ang kanilang pangkalahatang kakayahan sa pagpapatupad ng proyekto mula sa pagkuha, pagse-segment, pag-transcribe at paghahatid ng kinakailangang data ng pagsasanay mula sa mga dalubhasang linguist sa 8 wika sa loob ng mahigpit na mga timeline at alituntunin; habang pinapanatili pa rin ang katanggap-tanggap na pamantayan ng kalidad."

Pabilisin ang pag-develop ng iyong Conversational AI application ng 100%

Tampok na Mga kliyente

Binibigyan ng kapangyarihan ang mga koponan upang makabuo ng mga produktong AI na nangunguna sa buong mundo.