Lad ikke opbevaring blive den vigtigste flaskehals i modeltræning

Det er blevet sagt, at teknologivirksomheder enten søger efter GPU'er eller er på vej til at erhverve dem.I april købte Teslas CEO Elon Musk 10.000 GPU'er og udtalte, at virksomheden ville fortsætte med at købe en stor mængde GPU'er fra NVIDIA.På virksomhedssiden presser it-personale også hårdt på for at sikre, at GPU'er konstant bruges til at maksimere investeringsafkastet.Nogle virksomheder kan dog opleve, at mens antallet af GPU'er stiger, bliver GPU's tomgang mere alvorlig.

Hvis historien har lært os noget om high-performance computing (HPC), er det, at lagring og netværk ikke skal ofres på bekostning af at fokusere for meget på beregning.Hvis lager ikke effektivt kan overføre data til computerenhederne, selvom du har flest GPU'er i verden, opnår du ikke optimal effektivitet.

Ifølge Mike Matchett, analytiker hos Small World Big Data, kan mindre modeller udføres i hukommelsen (RAM), hvilket tillader mere fokus på beregning.Større modeller som ChatGPT med milliarder af noder kan dog ikke gemmes i hukommelsen på grund af de høje omkostninger.

"Du kan ikke passe milliarder af noder i hukommelsen, så opbevaring bliver endnu vigtigere," siger Matchett.Desværre bliver datalagring ofte overset under planlægningsprocessen.

Generelt, uanset brugssituationen, er der fire fælles punkter i modeltræningsprocessen:

1. Modeluddannelse
2. Anvendelse af konklusioner
3. Datalagring
4. Accelereret computing

Når man opretter og implementerer modeller, prioriterer de fleste krav hurtig proof-of-concept (POC) eller testmiljøer for at starte modeltræning, hvor datalagringsbehov ikke tages i betragtning.

Udfordringen ligger imidlertid i, at træning eller implementering af konklusioner kan vare i måneder eller endda år.Mange virksomheder skalerer hurtigt deres modelstørrelser op i løbet af denne tid, og infrastrukturen skal udvides for at kunne rumme de voksende modeller og datasæt.

Forskning fra Google om millioner af ML-træningsarbejdsbelastninger afslører, at gennemsnitligt 30 % af træningstiden bruges på inputdatapipeline.Mens tidligere forskning har fokuseret på at optimere GPU'er for at fremskynde træning, er der stadig mange udfordringer med at optimere forskellige dele af datapipeline.Når du har betydelig beregningskraft, bliver den virkelige flaskehals, hvor hurtigt du kan indlæse data i beregningerne for at få resultater.

Specifikt kræver udfordringerne inden for datalagring og -styring planlægning af datavækst, hvilket giver dig mulighed for løbende at udtrække værdien af ​​data, efterhånden som du udvikler dig, især når du begiver dig ud i mere avancerede brugssager såsom deep learning og neurale netværk, som stiller højere krav til opbevaring i form af kapacitet, ydeevne og skalerbarhed.

I særdeleshed:

Skalerbarhed
Maskinlæring kræver håndtering af enorme mængder data, og efterhånden som mængden af ​​data stiger, forbedres modellernes nøjagtighed også.Det betyder, at virksomheder skal indsamle og opbevare flere data hver dag.Når lagring ikke kan skaleres, skaber dataintensive arbejdsbelastninger flaskehalse, hvilket begrænser ydeevnen og resulterer i dyr GPU inaktiv tid.

Fleksibilitet
Fleksibel understøttelse af flere protokoller (inklusive NFS, SMB, HTTP, FTP, HDFS og S3) er nødvendig for at opfylde behovene i forskellige systemer i stedet for at være begrænset til en enkelt type miljø.

Reaktionstid
I/O latency er afgørende for opbygning og brug af modeller, da data læses og genlæses flere gange.Reduktion af I/O-latenstiden kan forkorte modellernes træningstid med dage eller måneder.Hurtigere modeludvikling betyder direkte større forretningsfordele.

Gennemløb
Lagersystemernes gennemstrømning er afgørende for effektiv modeltræning.Træningsprocesser involverer store mængder data, typisk i terabyte i timen.

Parallel adgang
For at opnå høj gennemstrømning opdeler træningsmodeller aktiviteter i flere parallelle opgaver.Dette betyder ofte, at maskinlæringsalgoritmer får adgang til de samme filer fra flere processer (potentielt på flere fysiske servere) samtidigt.Lagersystemet skal håndtere samtidige krav uden at gå på kompromis med ydeevnen.

Med sine enestående egenskaber inden for lav latenstid, høj gennemløb og storskala parallel I/O er Dell PowerScale et ideelt lagringssupplement til GPU-accelereret databehandling.PowerScale reducerer effektivt den tid, der kræves til analysemodeller, der træner og tester multi-terabyte-datasæt.I PowerScale all-flash-lagring øges båndbredden med 18 gange, hvilket eliminerer I/O-flaskehalse og kan føjes til eksisterende Isilon-klynger for at accelerere og låse op for værdien af ​​store mængder ustrukturerede data.

Desuden giver PowerScales multi-protokol adgangsmuligheder ubegrænset fleksibilitet til at køre arbejdsbelastninger, hvilket gør det muligt at lagre data ved hjælp af én protokol og få adgang til ved hjælp af en anden.Specifikt hjælper PowerScale-platformens kraftfulde funktioner, fleksibilitet, skalerbarhed og virksomhedsfunktionalitet med at løse følgende udfordringer:

- Accelerer innovation med op til 2,7 gange, hvilket reducerer modeltræningscyklussen.

- Eliminer I/O-flaskehalse og giv hurtigere modeltræning og validering, forbedret modelnøjagtighed, forbedret datavidenskabsproduktivitet og maksimeret afkast på computerinvesteringer ved at udnytte funktioner i virksomhedskvalitet, høj ydeevne, samtidighed og skalerbarhed.Forbedre modelnøjagtigheden med dybere datasæt med højere opløsning ved at udnytte op til 119 PB effektiv lagerkapacitet i en enkelt klynge.

- Opnå udrulning i stor skala ved at starte små og uafhængige skaleringer af computer og lagring og levere robuste databeskyttelses- og sikkerhedsmuligheder.

- Forbedre datavidenskabens produktivitet med in-place analytics og prævaliderede løsninger til hurtigere implementeringer med lav risiko.

- Udnyttelse af gennemprøvede designs baseret på de bedste teknologier, inklusive NVIDIA GPU-acceleration og referencearkitekturer med NVIDIA DGX-systemer.PowerScales høje ydeevne og samtidighed opfylder kravene til lagerydeevne på alle stadier af maskinlæring, fra dataindsamling og forberedelse til modeltræning og konklusioner.Sammen med OneFS-operativsystemet kan alle noder problemfrit fungere inden for den samme OneFS-drevne klynge, med funktioner på virksomhedsniveau såsom præstationsstyring, datastyring, sikkerhed og databeskyttelse, hvilket muliggør hurtigere gennemførelse af modeltræning og validering for virksomheder.


Indlægstid: Jul-03-2023