De 6 bedste præ-trænede modeller til arbejde og forretning

Læsere som dig hjælper med at støtte MUO. Når du foretager et køb ved hjælp af links på vores websted, kan vi optjene en affiliate-kommission. Læs mere.

Barrieren for at træne en effektiv og pålidelig AI er reduceret betydeligt takket være den offentlige udgivelse af mange præ-trænede modeller. Med de fortrænede modeller kan uafhængige forskere og mindre virksomheder strømline processer, øge produktiviteten og få værdifuld indsigt gennem brugen af kunstig intelligens.

MUO video af dagen RUL FOR AT FORTSÆTTE MED INDHOLD

Der er efterhånden mange fortrænede modeller, du kan bruge og finjustere. Afhængigt af dit specifikke problem vil du måske bruge en model frem for en anden. Så hvordan ved du, hvilken præ-trænet model du skal bruge?

For at hjælpe dig med at beslutte er her nogle af de mest populære fortrænede modeller, du kan bruge til at øge dit arbejde og din virksomheds produktivitet.

1. BERT (Tovejs indkoderrepræsentationer fra transformere)

BERT er en encoder-transformer, der revolutionerede naturlig sprogbehandling (NLP) med sin selvopmærksomhedsmekanisme. I modsætning til traditionelle tilbagevendende neurale netværk (RNN), der behandler sætninger det ene ord efter det andet, tillader BERTs selvopmærksomhedsmekanisme modellen at veje betydningen af ord i en sekvens ved at beregne opmærksomhedsscore mellem dem.

bedste sted at sælge computerdele

BERT-modeller har evnen til at forstå den dybere kontekst i en sekvens af ord. Dette gør BERT-modeller ideelle til applikationer, der kræver kraftfuld kontekstuel indlejring, der har stærk ydeevne på tværs af forskellige NLP-opgaver, såsom tekstklassificering, navngivne entitetsgenkendelse og besvarelse af spørgsmål.

BERT-modeller er typisk store og kræver dyr hardware at træne. Så selvom det anses for det bedste til mange NLP-applikationer, er ulempen ved at træne BERT-modeller, at processen ofte er dyr og tidskrævende.

2. DistilBERT (Destilleret BERT):

Ønsker du at finjustere en BERT-model, men har du ikke de penge eller den tid, der kræves? DistilBERT er en destilleret version af BERT, der bevarer omkring 95 % af sin ydeevne, mens den kun bruger halvdelen af antallet af parametre!

DistilBERT anvender en lærer-elev-uddannelsestilgang, hvor BERT er underviser og DistilBERT er elev. Træningsprocessen involverer destillering af lærerens viden til eleven ved at træne DistilBERT til at efterligne adfærden og outputsandsynligheder BERT.

På grund af destillationsprocessen har DistilBERT ikke token-type indlejringer, har reducerede opmærksomhedshoveder og mindre feed-forward lag. Dette opnår en væsentlig mindre modelstørrelse, men ofrer en vis ydeevne.

Ligesom BERT, er DistilBERT bedst udnyttet i tekstklassificering, navngivne enhedsgenkendelse, tekstlighed og omskrivning, besvarelse af spørgsmål og sentimentanalyse. Brug af DistilBERT giver dig muligvis ikke det samme niveau af nøjagtighed som med BERT. Brug af DistilBERT giver dig dog mulighed for at finjustere din model meget hurtigere, mens du bruger mindre på træning.

3. GPT (Generative Pre-trained Transformer)

Billedkredit:ilgmyzin/ Unsplash

Har du brug for noget til at hjælpe dig med at generere indhold, give forslag eller opsummere tekst? GPT er OpenAIs præ-trænede model, der producerer sammenhængende og kontekstuelt relevante tekster.

I modsætning til BERT, som er designet under encoder transformer arkitekturen, er GPT designet som en dekoder transformer. Dette gør det muligt for GPT at være fremragende til at forudsige de næste ord baseret på konteksten af den forrige sekvens. Uddannet i store mængder tekst på internettet lærte GPT mønstre og relationer mellem ord og sætninger. Dette giver GPT mulighed for at vide, hvilke ord der er mest passende at bruge i et bestemt scenarie. At være en populær præ-trænet model, er der avancerede værktøjer såsom AutoGPT som du kan bruge til gavn for dit arbejde og din virksomhed.

Selvom GPT er fantastisk til at efterligne menneskeligt sprog, har GPT intet grundlag i fakta udover det datasæt, der bruges til at træne modellen. Da det kun er ligeglad med, om det genererer ord, der giver mening baseret på konteksten af tidligere ord, kan det fra tid til anden give forkerte, opdigtede eller ikke-faktiske svar. Et andet problem, du måske har ved at finjustere GPT, er, at OpenAI kun tillader adgang via en API. Så uanset om du vil finjustere GPT eller bare fortsæt med at træne ChatGPT med dine tilpassede data , skal du betale for en API-nøgle.

hvorfor er linux bedre end windows

4. T5 (Text-to-Text Transfer Transformer)

T5 er en meget alsidig NLP-model, der kombinerer både encoder- og dekoderarkitekturer for at tackle en bred vifte af NLP-opgaver. T5 kan bruges til tekstklassificering, opsummering, oversættelse, besvarelse af spørgsmål og sentimentanalyse.

Med T5 med små, basis- og store modelstørrelser kan du få en encoder-dekoder-transformermodel, der bedre passer til dine behov med hensyn til ydeevne, nøjagtighed, træningstid og finjusteringsomkostninger. T5-modeller bruges bedst, når du kun kan implementere én model til dine NLP-opgaveapplikationer. Men hvis du skal have den bedste NLP-ydeevne, vil du måske bruge en separat model til kodnings- og afkodningsopgaver.

5. ResNet (Residual Neural Network)

Leder du efter en model, der kan udføre computervisionsopgaver? ResNet er en dyb læringsmodel designet under Convolutional Neural Network Architecture (CNN), der er nyttig til computervisionsopgaver såsom billedgenkendelse, objektdetektering og semantisk segmentering. Da ResNet er en populær præ-trænet model, kan du finde finjusterede modeller, og derefter bruge transfer learning for hurtigere modeltræning .

ResNet fungerer ved først at forstå forskellen mellem input og output, også kendt som 'rester'. Efter at resterne er identificeret, fokuserer ResNet på at finde ud af, hvad der er mest sandsynligt mellem disse input og output. Ved at træne ResNet på et stort datasæt, lærte modellen komplekse mønstre og funktioner og kan forstå, hvordan objekter normalt ser ud, hvilket gør ResNet fremragende til at udfylde mellemrummet mellem input og output af et billede.

Da ResNet kun udvikler sin forståelse baseret på det givne datasæt, kan overfitting være et problem. Dette betyder, at hvis datasættet for et specifikt emne var utilstrækkeligt, kan ResNet fejlagtigt identificere et emne. Så hvis du skulle bruge en ResNet-model, skulle du finjustere modellen med et betydeligt datasæt for at sikre pålidelighed.

6. VGGNet (Visual Geometry Group Network)

VGGNet er en anden populær computervisionsmodel, der er lettere at forstå og implementere end ResNet. Selvom det er mindre kraftfuldt, bruger VGGNet en mere ligetil tilgang end ResNet, ved at bruge en ensartet arkitektur, der deler billeder i mindre stykker og derefter gradvist lærer deres funktioner.

Med denne enklere metode til at analysere billeder er VGGNet nemmere at forstå, implementere og ændre, selv for relativt nye forskere eller udøvere af dyb læring. Du vil måske også bruge VGGNet over ResNet, hvis du har et begrænset datasæt og ressourcer og gerne vil finjustere modellen til at være mere effektiv inden for et specifikt område.

Adskillige andre præ-trænede modeller er tilgængelige

Forhåbentlig har du nu en bedre idé om, hvilke præ-trænede modeller du kan bruge til dit projekt. De omtalte modeller er nogle af de mest populære i forhold til deres respektive områder. Husk, at der er mange andre fortrænede modeller offentligt tilgængelige i deep learning-biblioteker, såsom TensorFlow Hub og PyTorch.

Du behøver heller ikke kun at holde dig til én præ-trænet model. Så længe du har ressourcerne og tiden, kan du altid implementere flere præ-trænede modeller, der gavner din applikation.