OpenAI giver ChatGPT en stemme til at reagere på prompter og kommandoer

Læsere som dig hjælper med at støtte MUO. Når du foretager et køb ved hjælp af links på vores websted, kan vi optjene en affiliate-kommission. Læs mere.

ChatGPT er klar til at blive en interaktiv generativ AI-oplevelse. OpenAI afslørede, at verdens førende AI-chatbot vil være i stand til at tale og svare på brugerforespørgsler ved hjælp af en syntetiseret, formentlig AI-genereret, stemme.

Sammen med sin nyfundne stemme vil ChatGPT også være i stand til at reagere på og diskutere specifikke billeder, der er uploadet til den eller snappet, mens du bruger ChatGPT Android- eller iOS-appen. Billedgenkendelsesfunktionen lyder som Google Lens og andre apps, der bruger neurale netværk til at registrere data og information nøjagtigt.

OpenAI giver ChatGPT en stemme

Den 25. september 2023, ChatGPT-udvikler OpenAI afsløret det ville give sin verdensledende generative AI-chatbot en stemme. ChatGPT-brugere kan tale direkte til chatbotten og anmode om, at den taler tilbage, hvilket effektivt giver ChatGPT mulighed for at tale direkte med stemmen for første gang.

OpenAIs eksempelklip viser en kvinde, der beder ChatGPT om at skabe en unik godnathistorie, som ChatGPT behørigt reagerer på med en kvindelig syntetiseret stemme.

hvordan man tilføjer app til vizio smart tv

Ifølge Kablet , blev den nye tekst-til-tale-model udviklet internt. Det kan generere 'menneskelignende' lyd fra tekst og et par sekunders eksempel tale ( ved hjælp af OpenAI Whisper-modellen ) og tal i forskellige toner og stilarter. Du kan finde en række stemmeprøver på OpenAI's blog .

Nogle virksomheder tager allerede OpenAI's nye stemmemodel i brug. For eksempel bruger Spotify OpenAIs tekst-til-tale-model til at oversætte podcasts til forskellige sprog, og kombinerer ChatGPTs sprogoversættelsesevner med dens nye taleevne.

ChatGPTs nye tekst-til-tale-model er kun tilgængelig for Plus- og Enterprise-abonnenter, der bruger de officielle Android- og iOS-apps og forventes at blive udrullet inden for de næste to uger (startende fra den 25. september 2023). Desuden er den nye stemmefunktion begrænset til engelsk til at begynde med, selvom vi forventer, at dette ændrer sig hurtigt.

ChatGPT kan genkende og og fotografier

Den anden del af OpenAIs ChatGPT-opdatering er evnen til at analysere og tale billeder uploadet til værktøjet. Muligheden for visuel billedanalyse blev vist i GPT-4-opdateringsvideoerne, men er ikke blevet diskuteret meget siden da ( ChatGPT-kodetolk til side ).

Nu får ChatGPT funktionalitet svarende til Google Lens. Du kan uploade et billede til ChatGPT eller tage et billede ved hjælp af dit smartphone-kamera i ChatGPT-appen, og det vil detaljere billedet og tilføje mere kontekst, hvor det er nødvendigt.

At kalde det 'ligner Google Lens' gør det virkelig en uretfærdighed. Muligheden for at chatte frem og tilbage om billedet for at få mere information og kontekst gør det yderst nyttigt for en bred vifte af indstillinger. Det er dog vigtigt at bemærke det med småt, hvor OpenAI gør det klart, at det har begrænset ChatGPTs 'evne til at analysere og komme med direkte udsagn om mennesker' af hensyn til privatlivets fred og nøjagtighed. Stadig, kunne et OpenAI-drevet 'Who Is This'-værktøj være under arbejde i fremtiden? (Lad os håbe ikke!)

Ligesom den nye tekst-til-tale-model vil OpenAI udrulle billedgenkendelse i de næste to uger, selvom den vil være tilgængelig på alle platforme, ikke kun ChatGPT-appen.

Privatliv, sikkerhed og andre problemer

Implikationerne af en stemmedrevet ChatGPT er skarpe. Selvfølgelig er det spændende. Men evnen til at skabe en unikt syntetiseret stemme ved at bruge blot et kort uddrag som eksempel har betydelige privatlivs- og sikkerhedsproblemer. Potentialet for ondsindede aktører til at udnytte disse værktøjer er enormt, og som med ethvert generativt kunstig intelligens-værktøj, når ånden er ude af flasken, vil den absolut ikke gå ind igen. Ingen mængde AI-regulering fra regeringer eller tankeledere kan vende tilbage tidevandet.

Selv OpenAI's advarsel om emnet ser ud til at gå uden om det åbenlyse på trods af at nævne problemerne:

Disse muligheder udgør imidlertid også nye risici, såsom potentialet for, at ondsindede aktører udgiver sig for at være offentlige personer eller begår bedrageri. Det er grunden til, at vi bruger denne teknologi til at drive en specifik use case - stemmechat.

Da dette er toppen af isbjerget, kan du forvente et tilbageslag mod ChatGPTs nyfundne stemme, især når der er en forudsigelig stigning i ubehagelige overskrifter, der hævder, at ChatGPT bliver brugt til at begå svindel og så videre.

OpenAI gør ChatGPT til Go-To AI-appen

Jo mere OpenAI føjer brugervenlige funktioner til ChatGPT, jo mere bliver det til den generative AI-app. Som den første til at nå udbredt berømmelse under det indledende generative AI-boom, er ChatGPT stadig førende og er den eneste app, som man bruger, på trods af konkurrence fra folk som Google Bard (og potentielt Google Gemini) og Anthropics Claude.

Så længe OpenAI kan fortsætte med at tilføje funktioner, der gør ChatGPT nemmere at bruge, vil det holde folk hooked og skubbe stadig tættere på målet om et ægte multimodalt AI-værktøj.