Heeft u audio en wenst u gebruik te maken van de laatste ontwikkelingen op het gebied van de technologie van spraakherkenning? Transcriptie.com helpt u graag verder! Wij zijn gespecialiseerd in het transcriberen van audio. Normaliter doen we dit handmatig omdat we ervan overtuigd zijn dat een transcribent uw audio beter kan interpreteren. Desalniettemin werken we met de laatste technologie en hiervoor zijn we op dit moment onze spraakherkenningssoftware voor aan het testen. Wilt u gebruik maken van onze Speech Engine? Uw feedback en input zou zeer gewaardeerd worden. Daarom kunt u nu tijdelijk uw audio uploaden en laten uitwerken door onze spraakmachine voor slechts €0,30 per minuut audio. U kunt uw audio hier uploaden en u kunt hier contact met ons opnemen voor meer informatie.
Een Speech Engine, of spraakmachine is een spraakherkenningssoftware die audio omzet naar tekst. Als u een smartphone heeft, dan heeft u waarschijnlijk al eens ervaring gehad met het inspreken van tekst en dat een tekstverwerker uw audio omzet naar tekst. Wellicht heeft u zich wel eens afgevraagd hoe een dusdanige spraaktechnologie werkt? Misschien heeft u zich zelfs wel eens afgevraagd waarom er nog bureaus zijn die transcriptie service dienen aan te bieden? Hieronder leggen we graag op zeer simpele wijze uit hoe de technologie in drie stappen werkt.
De eerste stap in spraakherkenning is de zogeheten ADC conversie, wat staat voor de omzetting van analoge spraak naar digitale data. Om het simpel uit te drukken: als u spreekt, ontstaan er vibraties in de lucht. Het ADC onderdeel van een spraakherkenner splitst de audio op in kleinere intervallen en meet vervolgens de geluidsgolven. Het systeem verwijderd vervolgens bijgeluiden of ruis en kan de geluidsfrequentie ook aanpassen. Hierna wordt het geluid genormaliseerd en op een constant volume niveau gebracht. Tot slot is het mogelijk dat de spraakherkenner de snelheid van de sprekers aanpast. De reden hiervoor is dat mensen zelden op eenzelfde snelheid praten en de geluidsgolven dienen hierop aangepast te worden.
Als de audio gedigitaliseerd is matcht de spraakherkenner de data (gemeten in kleine segmenten van honderdsten van een seconde) met de fonemen die bekend zijn in de taal. Een foneem is een van origine Griekse term en betekent een klank of verzameling van klanken die een betekenisonderscheidende functie hebben. De Nederlandse taal kent 39 á 40 fonemen, afhankelijk van hoe men de klinkers en medeklinkers telt. Dit is hetzelfde voor bijvoorbeeld de Engelse en Franse taal (beiden ongeveer 40), iets minder dan voor de Duitse taal (ongeveer 45) en veel minder dan Deens (52) en Litouws (59). Hoe meer fonemen een taal heeft, hoe gecompliceerder de Speech Engine het heeft.
De laatste stap is de meest complexe stap voor een spraakmachine: op basis van de fonemen de context bepalen van wat er (waarschijnlijk) ingesproken is. De spraakherkenner baseert zich op een grote database van woorden, zinnen en teksten. Via statistische analyses beschouwt het wat de meest waarschijnlijke ingesproken tekst is geweest. Deze tekst wordt vervolgens getoond.
Er zijn veel grote bedrijven zoals Apple, Google, Microsoft, Amazon en IBM bezig met de ontwikkeling van spraaktechnologie. Daarnaast zijn er nog de gevestigde partijen in de spraaktechnologie zoals Nuance (beter bekend van Dragon Speech Recognition). Deze richten zich met name op de ontwikkeling in de Engelse taal, ware het niet dat de huidige technologische mogelijkheden en kennis op het gebied van Neural Networks voor een enorme stroomversnelling heeft gezorgd op het gebied van spraaktechnologie.
De twee meest vooraanstaande bedrijven op dit gebied zijn op dit moment Microsoft en IBM. Zij behalen een foutmarge van ongeveer (en “slechts”) 5-10% bij discreet gesproken Engelse audio tussen twee sprekers met een simpel vocabulaire. Er zijn mensen binnen Microsoft die claimen een foutmarge van 1% te kunnen realiseren. Hiervoor moet wel opgemerkt worden dat het dan om één spreker gaat waar de spraakherkenner goed en duidelijk van de stem heeft kunnen leren.
De Speech Engine die Transcriptie.com gebruikt is de beste in de Nederlandse taal en heeft een accuraatheid van ongeveer 90%. Dit wil niet zeggen dat wanneer u uw audio uploadt naar onze server en er in de output 1000 woorden uitkomen, er hiervan 900 juist en juist geplaatst zijn. Als u echter genoeg heeft aan een basaal transcript van uw audio en het zelf wenst te redigeren dan is dit met behulp van onze service mogelijk.
Zoals we hierboven hebben aangegeven: u kunt voor slechts €0,30 per minuut audio gebruik maken van onze spraak technologie. Deze service biedt Transcriptie.com u aan omdat de technologie zich nog in een test versie bevindt. Uw feedback wordt dan ook zeer gewaardeerd! Mocht u de machine geprobeerd hebben en wenst u toch een menselijke redactie, dan helpen wij u graag verder en ontvangt u 10% korting op de reguliere transcriptie service. U kunt uw audio hier uploaden.