Ikke la lagring bli nøkkelflaskehalsen i modellopplæring

Det er blitt sagt at teknologiselskaper enten leter etter GPUer eller er på vei til å anskaffe dem.I april kjøpte Tesla-sjef Elon Musk 10 000 GPUer og uttalte at selskapet ville fortsette å kjøpe et stort antall GPUer fra NVIDIA.På bedriftssiden presser IT-personell også hardt på for å sikre at GPU-er hele tiden brukes for å maksimere avkastningen på investeringen.Noen selskaper kan imidlertid oppleve at mens antallet GPU-er øker, blir GPU-tomgang mer alvorlig.

Hvis historien har lært oss noe om high-performance computing (HPC), er det at lagring og nettverk ikke skal ofres på bekostning av å fokusere for mye på databehandling.Hvis lagring ikke effektivt kan overføre data til dataenhetene, selv om du har flest GPUer i verden, oppnår du ikke optimal effektivitet.

I følge Mike Matchett, analytiker ved Small World Big Data, kan mindre modeller kjøres i minnet (RAM), noe som gir mer fokus på beregning.Imidlertid kan større modeller som ChatGPT med milliarder av noder ikke lagres i minnet på grunn av de høye kostnadene.

"Du kan ikke få plass til milliarder av noder i minnet, så lagring blir enda viktigere," sier Matchett.Dessverre blir datalagring ofte oversett under planleggingsprosessen.

Generelt, uansett brukstilfelle, er det fire vanlige punkter i modelltreningsprosessen:

1. Modellopplæring
2. Inferensapplikasjon
3. Datalagring
4. Akselerert databehandling

Når du oppretter og distribuerer modeller, prioriterer de fleste kravene quick proof-of-concept (POC) eller testmiljøer for å starte modellopplæring, med datalagringsbehov som ikke blir tatt i betraktning.

Utfordringen ligger imidlertid i det faktum at opplæring eller slutningsdistribusjon kan vare i måneder eller til og med år.Mange selskaper skalerer raskt opp modellstørrelsene sine i løpet av denne tiden, og infrastrukturen må utvides for å imøtekomme de voksende modellene og datasettene.

Forskning fra Google på millioner av ML-treningsarbeidsbelastninger viser at gjennomsnittlig 30 % av treningstiden brukes på inputdatapipeline.Mens tidligere forskning har fokusert på å optimalisere GPUer for å øke hastigheten på trening, gjenstår det fortsatt mange utfordringer med å optimalisere ulike deler av datapipeline.Når du har betydelig beregningskraft, blir den virkelige flaskehalsen hvor raskt du kan mate data inn i beregningene for å få resultater.

Spesielt krever utfordringene innen datalagring og -administrasjon planlegging for datavekst, slik at du kontinuerlig kan trekke ut verdien av data etter hvert som du utvikler deg, spesielt når du begir deg ut i mer avanserte brukstilfeller som dyp læring og nevrale nettverk, som stiller høyere krav til lagring når det gjelder kapasitet, ytelse og skalerbarhet.

Spesielt:

Skalerbarhet
Maskinlæring krever håndtering av enorme mengder data, og etter hvert som datavolumet øker, forbedres også nøyaktigheten til modellene.Dette betyr at virksomheter må samle inn og lagre mer data hver dag.Når lagring ikke kan skaleres, skaper dataintensive arbeidsbelastninger flaskehalser, begrenser ytelsen og resulterer i kostbar GPU-tomtid.

Fleksibilitet
Fleksibel støtte for flere protokoller (inkludert NFS, SMB, HTTP, FTP, HDFS og S3) er nødvendig for å møte behovene til forskjellige systemer, i stedet for å være begrenset til en enkelt type miljø.

Ventetid
I/U-latens er avgjørende for å bygge og bruke modeller ettersom data leses og leses flere ganger.Å redusere I/O-latenstiden kan forkorte treningstiden til modellene med dager eller måneder.Raskere modellutvikling gir direkte større forretningsfordeler.

Gjennomstrømning
Gjennomstrømningen til lagringssystemer er avgjørende for effektiv modellopplæring.Treningsprosesser involverer store datamengder, typisk i terabyte per time.

Parallell tilgang
For å oppnå høy gjennomstrømning deler treningsmodeller opp aktiviteter i flere parallelle oppgaver.Dette betyr ofte at maskinlæringsalgoritmer får tilgang til de samme filene fra flere prosesser (potensielt på flere fysiske servere) samtidig.Lagringssystemet må håndtere samtidige krav uten å gå på akkord med ytelsen.

Med sine enestående evner innen lav latenstid, høy gjennomstrømning og storskala parallell I/O, er Dell PowerScale et ideelt lagringskomplement til GPU-akselerert databehandling.PowerScale reduserer effektivt tiden som kreves for analysemodeller som trener og tester multi-terabyte datasett.I PowerScale all-flash-lagring øker båndbredden med 18 ganger, og eliminerer I/O-flaskehalser, og kan legges til eksisterende Isilon-klynger for å akselerere og låse opp verdien av store mengder ustrukturerte data.

Dessuten gir PowerScales multiprotokolltilgangsmuligheter ubegrenset fleksibilitet for å kjøre arbeidsbelastninger, slik at data kan lagres ved hjelp av én protokoll og få tilgang til ved hjelp av en annen.Spesifikt hjelper de kraftige funksjonene, fleksibiliteten, skalerbarheten og funksjonaliteten i bedriftsklasse til PowerScale-plattformen å løse følgende utfordringer:

- Akselerer innovasjon med opptil 2,7 ganger, og reduser modelltreningssyklusen.

- Eliminer I/O-flaskehalser og gi raskere modellopplæring og validering, forbedret modellnøyaktighet, forbedret datavitenskapelig produktivitet og maksimert avkastning på datainvesteringer ved å utnytte funksjoner i bedriftskvalitet, høy ytelse, samtidighet og skalerbarhet.Forbedre modellnøyaktigheten med dypere datasett med høyere oppløsning ved å utnytte opptil 119 PB med effektiv lagringskapasitet i en enkelt klynge.

- Oppnå distribusjon i stor skala ved å starte små og uavhengig skalere databehandling og lagring, og levere robuste databeskyttelses- og sikkerhetsalternativer.

- Forbedre datavitenskapelig produktivitet med analyse på stedet og forhåndsvaliderte løsninger for raskere distribusjoner med lav risiko.

- Utnytte velprøvde design basert på de beste teknologiene, inkludert NVIDIA GPU-akselerasjon og referansearkitekturer med NVIDIA DGX-systemer.PowerScales høye ytelse og samtidighet oppfyller kravene til lagringsytelse i alle trinn av maskinlæring, fra datainnsamling og forberedelse til modelltrening og konklusjon.Sammen med OneFS-operativsystemet kan alle noder sømløst operere innenfor den samme OneFS-drevne klyngen, med funksjoner på bedriftsnivå som ytelsesstyring, dataadministrasjon, sikkerhet og databeskyttelse, noe som muliggjør raskere gjennomføring av modellopplæring og validering for bedrifter.


Innleggstid: Jul-03-2023