Sådan downloader og installerer du Llama 2 lokalt

Sådan downloader og installerer du Llama 2 lokalt
Læsere som dig hjælper med at støtte MUO. Når du foretager et køb ved hjælp af links på vores websted, kan vi optjene en affiliate-kommission. Læs mere.

Meta udgav Llama 2 i sommeren 2023. Den nye version af Llama er finjusteret med 40 % flere tokens end den originale Llama-model, hvilket fordobler dens kontekstlængde og overgår væsentligt andre tilgængelige open source-modeller. Den hurtigste og nemmeste måde at få adgang til Llama 2 er via en API via en online platform. Men hvis du vil have den bedste oplevelse, er det bedst at installere og indlæse Llama 2 direkte på din computer.





Med det i tankerne har vi lavet en trin-for-trin guide til, hvordan du bruger Text-Generation-WebUI til at indlæse en kvantiseret Llama 2 LLM lokalt på din computer.





Hvorfor installere Llama 2 lokalt

Der er mange grunde til, at folk vælger at køre Llama 2 direkte. Nogle gør det af hensyn til privatlivets fred, nogle for tilpasning og andre for offline-funktioner. Hvis du undersøger, finjusterer eller integrerer Llama 2 til dine projekter, så er adgang til Llama 2 via API muligvis ikke noget for dig. Pointen med at køre en LLM lokalt på din pc er at reducere afhængigheden af tredjeparts AI-værktøjer og brug AI når som helst og hvor som helst uden at bekymre dig om at lække potentielt følsomme data til virksomheder og andre organisationer.





Med det sagt, lad os begynde med trin-for-trin-vejledningen til at installere Llama 2 lokalt.

Trin 1: Installer Visual Studio 2019 Build Tool

For at forenkle tingene, vil vi bruge et et-klik installationsprogram til Text-Generation-WebUI (programmet, der bruges til at indlæse Llama 2 med GUI). Men for at dette installationsprogram skal fungere, skal du downloade Visual Studio 2019 Build Tool og installere de nødvendige ressourcer.



Hent: Visual Studio 2019 (Gratis)

  1. Gå videre og download fællesskabsudgaven af ​​softwaren.
  2. Installer nu Visual Studio 2019, og åbn derefter softwaren. Når den er åbnet, skal du sætte kryds i boksen Desktop udvikling med C++ og tryk på installer.   HuggingFace modelnavnekonvention

Nu hvor du har Desktop-udvikling med C++ installeret, er det tid til at downloade Text-Generation-WebUI-installationsprogrammet med et enkelt klik.





Trin 2: Installer Text-Generation-WebUI

Text-Generation-WebUI-installationsprogrammet med et enkelt klik er et script, der automatisk opretter de nødvendige mapper og opsætter Conda-miljøet og alle nødvendige krav til at køre en AI-model.

For at installere scriptet skal du downloade et-klik-installationsprogrammet ved at klikke på Kode > Download ZIP.





Hent: Text-Generation-WebUI Installer (Gratis)

  1. Når den er downloadet, skal du udpakke ZIP-filen til din foretrukne placering og derefter åbne den udpakkede mappe.
  2. Rul ned i mappen og se efter det passende startprogram til dit operativsystem. Kør programmerne ved at dobbeltklikke på det relevante script.
  3. Din antivirus kan muligvis oprette en advarsel; det er fint. Opfordringen er blot en antivirus falsk positiv til at køre en batchfil eller et script. Klik på Løb alligevel .
  4. En terminal åbnes og starter opsætningen. Tidligt vil opsætningen pause og spørge dig, hvilken GPU du bruger. Vælg den passende type GPU installeret på din computer, og tryk på Enter. For dem uden et dedikeret grafikkort, vælg Ingen (jeg vil køre modeller i CPU-tilstand) . Husk, at det er meget langsommere at køre på CPU-tilstand sammenlignet med at køre modellen med en dedikeret GPU.   Placering af Llama 2-model til modelmappe
  5. Når opsætningen er fuldført, kan du nu starte Text-Generation-WebUI lokalt. Du kan gøre det ved at åbne din foretrukne webbrowser og indtaste den angivne IP-adresse på URL'en.
  6. WebUI er nu klar til brug.

Programmet er dog kun en modellæsser. Lad os downloade Llama 2, så modellæsseren kan starte.

Trin 3: Download Llama 2-modellen

Der er en del ting at overveje, når du skal beslutte dig for, hvilken iteration af Llama 2 du har brug for. Disse omfatter parametre, kvantisering, hardwareoptimering, størrelse og brug. Alle disse oplysninger vil blive fundet angivet i modellens navn.

  • Parametre: Antallet af parametre, der bruges til at træne modellen. Større parametre giver mere dygtige modeller, men på bekostning af ydeevne.
  • Anvendelse: Kan enten være standard eller chat. En chatmodel er optimeret til at blive brugt som en chatbot som ChatGPT, mens standarden er standardmodellen.
  • Hardware optimering: Henviser til hvilken hardware der bedst kører modellen. GPTQ betyder, at modellen er optimeret til at køre på en dedikeret GPU, mens GGML er optimeret til at køre på en CPU.
  • Kvantisering: Angiver præcisionen af ​​vægte og aktiveringer i en model. Til inferencing er en præcision på q4 optimal.
  • Størrelse: Refererer til størrelsen af ​​den specifikke model.

Bemærk, at nogle modeller kan være arrangeret anderledes og måske ikke engang har de samme typer information vist. Denne type navnekonvention er dog ret almindelig i KrammeFace Modelbibliotek, så det er stadig værd at forstå.

I dette eksempel kan modellen identificeres som en mellemstor Llama 2-model trænet på 13 milliarder parametre optimeret til chat-inferencing ved hjælp af en dedikeret CPU.

For dem, der kører på en dedikeret GPU, skal du vælge en GPTQ model, mens for dem, der bruger en CPU, skal du vælge GGML . Hvis du vil chatte med modellen, som du ville med ChatGPT, skal du vælge snak , men hvis du vil eksperimentere med modellen med dens fulde muligheder, skal du bruge standard model. Hvad angår parametre, skal du vide, at brug af større modeller vil give bedre resultater på bekostning af ydeevne. Jeg vil personligt anbefale dig at starte med en 7B model. Med hensyn til kvantisering, brug q4, da det kun er til inferencing.

Hent: GGML (Gratis)

Hent: GPTQ (Gratis)

Nu hvor du ved, hvilken iteration af Llama 2 du har brug for, skal du gå videre og downloade den model, du ønsker.

I mit tilfælde, da jeg kører dette på en ultrabook, vil jeg bruge en GGML-model finjusteret til chat, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Når overførslen er færdig, skal du placere modellen i tekst-generation-webui-main > modeller .

Nu hvor du har downloadet din model og placeret i modelmappen, er det tid til at konfigurere modelindlæseren.

Trin 4: Konfigurer Text-Generation-WebUI

Lad os nu begynde konfigurationsfasen.

  1. Åbn igen Text-Generation-WebUI ved at køre start_(dit OS) fil (se de foregående trin ovenfor).
  2. Klik på fanerne over GUI'en Model. Klik på opdateringsknappen i rullemenuen model, og vælg din model.
  3. Klik nu på rullemenuen for Model læsser og vælg AutoGPTQ for dem, der bruger en GTPQ-model og ctransformere for dem, der bruger en GGML-model. Klik til sidst videre belastning for at indlæse din model.
  4. For at bruge modellen skal du åbne fanen Chat og begynde at teste modellen.

Tillykke, du har indlæst Llama2 på din lokale computer!

Prøv andre LLM'er

Nu hvor du ved, hvordan du kører Llama 2 direkte på din computer ved hjælp af Text-Generation-WebUI, bør du også være i stand til at køre andre LLM'er udover Llama. Husk blot modellernes navnekonventioner, og at kun kvantificerede versioner af modeller (normalt q4-præcision) kan indlæses på almindelige pc'er. Mange kvantificerede LLM'er er tilgængelige på HuggingFace. Hvis du vil udforske andre modeller, så søg efter TheBloke i HuggingFaces modelbibliotek, og du burde finde mange tilgængelige modeller.

brænd en bootbar iso -fil til et usb -flashdrev og lad den starte