Gestione dei dati di prossima generazione per ai

dipendenti seduti all'interno della camera con scrivania e monitor

Sommario

Condivi questa pagina

ONTAP
AI

Krish Vitaldevara

2024-09-24

1,900 visualizzazioni

Tutti i settori e le applicazioni moderne stanno subendo una rapida trasformazione grazie ai progressi in termini di accelerazione del calcolo, apprendimento approfondito e intelligenza artificiale. La fase successiva di questa trasformazione richiede un'infrastruttura dati intelligente che possa avvicinare ai e calcolo ai dati aziendali.

Le sfide dell'integrazione dei dati con i flussi di lavoro ai

Quando parlo con i nostri clienti, le sfide di cui parlano implicano l'integrazione dei loro dati e dei loro flussi di lavoro ai aziendali. Il fulcro di questo problema è l'applicazione della tecnologia ai ai dati che già possiedono, nel cloud, on-premise o più probabilmente in entrambi.

Immagina di essere un data engineer. Il team di marketing può creare risorse migliori e il team di assistenza clienti può fornire chatbot rivolti ai clienti. I dati sono distribuiti nei diversi sistemi storage e non si sa dove si trova. Esporti, sposti e centralizzi i tuoi dati a scopo di training, con tutte le inefficienze di tempo e capacità associate. Il modello viene creato, ma la cronologia e il contesto dei dati utilizzati vengono persi, pertanto non è possibile risalire al modello di origine. Tutti i dati sono archiviati on-premise, ma il training viene effettuato sul cloud dove si trovano le tue GPU.

Queste sfide sono abbastanza comuni per i data engineer e i data scientist con cui parliamo. NetApp sta già affrontando molte di queste sfide. Ma con l’aumento della formazione dei modelli e la necessità di un numero sempre maggiore di dati da formare, questi problemi saranno amplificati.

Di cosa ha bisogno la prossima generazione dei workload ai?

Man mano che si prende forma il training ai e i workload di fine-tuning di nuova generazione, i limiti dell'infrastruttura esistente rischieranno di rallentare l'innovazione. Alcune sfide includono l'infrastruttura dati che consente scalabilità e ottimizzazione per l'ai, la gestione dei dati per informare i flussi di lavoro ai dove risiedono i dati e come possono essere utilizzati, e servizi dati associati che aiutano i data scientist a proteggere i flussi di lavoro ai e mantenere puliti i propri modelli.

Infrastruttura dati scalabile

Con la sempre maggiore complessità dei modelli di intelligenza artificiale, aumentano i requisiti di calcolo. Le aziende hanno bisogno di un'infrastruttura in grado di scalare e fornire le performance elevate richieste per attività ai intensive, come il training e la messa a punto di modelli di grandi lingue. Allo stesso tempo, l'ottimizzazione dell'utilizzo delle risorse non di storage, come la massimizzazione dell'utilizzo della GPU, è fondamentale per operazioni ai convenienti, perché le risorse sottoutilizzate possono causare un aumento delle spese. La massimizzazione dell'utilizzo della GPU è un fattore critico per operazioni ai convenienti e la capacità di ottenerle richiede un migliore throughput dello storage per le operazioni di lettura e scrittura. Infine, i dati di training vengono tipicamente archiviati on-premise, mentre i modelli di ai sono spesso addestrati nel cloud, il che significa che i carichi di lavoro ai spesso si estendono tra ambienti on-premise e diversi ambienti cloud. Ciò significa che l'infrastruttura deve fornire mobilità e gestione dei dati perfette in tutti questi sistemi.

Gestione universale dei dati

I workload ai richiedono spesso l'accesso a grandi quantità di dati, che possono essere sparsi in un'azienda in sistemi e formati diversi. Questa sfida diventa ancora più grande man mano che le aziende utilizzano i propri dati proprietari si trovano spesso all'interno delle proprie infrastrutture dati per ottimizzare e recuperare casi di utilizzo di generazione aumentata (RAG). I silos di dati rendono difficile aggregare e analizzare i dati in modo efficace per l'ai. Inoltre, la gestione del ciclo di vita dei dati ai, dall'acquisizione all'elaborazione fino allo storage, richiede soluzioni di gestione dei dati sofisticate in grado di gestire la complessità e il volume dei dati non strutturati. Perché l'ai sia efficace, i dati rilevanti devono essere facilmente rilevabili e accessibili, cosa che richiede potenti tool di gestione dei metadati e di esplorazione dei dati.

Servizi dati intelligenti

Con il diffondersi dell'ai, c'è sempre più bisogno di una sicurezza e una governance solide per proteggere i dati sensibili e per soddisfare i requisiti normativi, in particolare a dispetto di minacce come i ransomware. I modelli costruiti a partire da dati tossici o manomissioni intenzionali hanno il potenziale per causare grandi danni alle operazioni di business che si affidano sempre più all'ai. Inoltre, come per qualsiasi carico di lavoro Enterprise, i dati devono essere disponibili e protetti dai disastri naturali e dalle interruzioni del sistema, per poter continuare le operazioni e prevenire costosi downtime.

Come NetApp supporta oggi i carichi di lavoro ai

Oggi NetApp è leader riconosciuto nell'infrastruttura ai. Da oltre un decennio, i clienti innovativi stanno estraendo informazioni basate sull'ai dai dati gestiti sulle soluzioni NetApp . In qualità di partner di lunga data di NVIDIA, NetApp ha fornito architetture NVIDIA DGX SuperPOD e NetApp ^® APod^™ certificate e ha assistito alla rapida adozione dei flussi di lavoro ai sulle offerte cloud first-party degli hyperscaler. In qualità di leader nello storage dei dati non strutturati, i clienti si affidano a NetApp per le loro risorse di dati più preziose.

Come abbiamo raggiunto questo livello di fiducia? Attraverso un'innovazione costante. I clienti ci affidano i loro dati, vediamo ancora più opportunità per aiutarli a rendere operativi l'ai e i carichi di lavoro dalle performance elevate. Ecco perché stiamo introducendo una nuova architettura disaggregata che consentirà ai nostri clienti di continuare a superare i limiti legati a performance e scalabilità. Un motore di gestione dei metadati avanzato consente ai clienti di conoscere tutte le risorse dati all'interno dell'organizzazione e semplificare il training dei modelli e il tuning. Inoltre, un set integrato di servizi dati aiuta a gestire quei dati e quell'infrastruttura, proteggendoli da minacce naturali e umane. Tutto questo è basato su NetApp ONTAP ^®, l'architettura di storage unificata leader di settore, per fornire un'architettura unificata che integri tutta l'infrastruttura dati. Il DNA chiave di NetApp ci ha sempre consentito di evolvere e adottare nuove tecnologie, mantenendo al contempo la sicurezza robusta, le funzionalità aziendali e la facilità d'uso da cui dipendono i nostri clienti. Sono felice di darti un'anteprima delle novità di ONTAP che si trovano dietro l'angolo.

La vision di NetApp per la gestione dei dati per promuovere l'ai

La nostra visione di un motore di gestione dei dati ai unificato rivoluzionerà il modo in cui le organizzazioni si approcciano e sfrutteranno la potenza dell'ai. Il nostro motore di gestione dei dati sarà progettato per eliminare i silos di dati fornendo una vista unificata delle risorse dati, automatizzando l'acquisizione delle modifiche nei dati per una rapida inferenza e un'integrazione perfetta con strumenti ai per i flussi di lavoro ai end-to-end. NetApp sta inoltre innovando nel livello dell'infrastruttura con sistemi scalabili dalle performance elevate e nel livello di intelligence con governance e sicurezza basate su policy.

Innovazioni pianificate

Architettura dello storage disaggregata. Per aumentare la velocità effettiva del sistema e ridurre i costi, NetApp sta sviluppando un'architettura storage che consente una condivisione più efficiente dei back-end dello storage. Questa architettura mira a ottimizzare l'utilizzo delle risorse di rete e flash, consentendo un approccio allo storage più flessibile e conveniente. Questa innovazione faciliterà un significativo miglioramento del throughput aggregato in tutto il cluster, riducendo al contempo lo spazio rack e l'utilizzo di energia. L'architettura è progettata per consentire una scalabilità indipendente delle risorse di calcolo e storage, in particolare per i carichi di lavoro ai che richiedono elevati livelli di flessibilità e scalabilità.
Miglioramenti alle performance. NetApp si impegna a fornire performance leader del settore attraverso i suoi prossimi miglioramenti ai sistemi della serie NetApp AFF e al software ONTAP. Questi miglioramenti sono orientati alla gestione con facilità dei carichi di lavoro ai più intensi, in modo che le aziende possano attuare le proprie strategie di ai senza colli di bottiglia per le performance. I miglioramenti includeranno funzionalità avanzate per la gestione e l'elaborazione di grandi set di dati, essenziali per attività come la formazione generativa ai e LLM.
Perfetta integrazione dei dati. Il motore di gestione dei dati ai è progettato per offrire una vista coesa e completa delle risorse di dati di un'organizzazione. Questo approccio unificato è critico per l'integrazione dei dati in impostazioni on-premise, ambienti cloud e piattaforme hyperscaler. Facilitando una perfetta integrazione dei dati, NetApp permette alle organizzazioni di gestire più efficacemente l'intero ciclo di vita dei dati ai, dalla raccolta iniziale dei dati all'implementazione e all'analisi del modello. Con questo nuovo motore di gestione dei dati ai, solo NetApp sarà in grado di offrire ai clienti una vista unificata, strutturata e in grado di eseguire query di tutte le proprie risorse di dati ONTAP. Ciò è vero sia che le risorse dati siano strutturate o non strutturate, ovunque si trovino: On-premise, nel cloud o on-premise o in uno dei nostri partner hyperscaler, Amazon, Microsoft e Google.
Incorporazione vettoriale e database. Il motore di gestione dei dati ai acquisisce automaticamente le modifiche ai dati, genera embedding vettoriali altamente compresse e le memorizza in un database vettoriale integrato, rendendoli disponibili per ricerche e workload di inferenza RAG. Tutto questo avviene automaticamente, inline e in-place per semplicità ed efficienza.
Integrazione dell'ecosistema ai. Riconoscendo il significato di un workflow ai unificato, ci stiamo concentrando sull'integrazione dei nostri servizi dati con un ecosistema di tool ai più ampio. Questa integrazione ottimizzerà l'intero workflow ai, dall'etichettatura dei dati e il training dei modelli all'orchestrazione e all'implementazione. Creando un workflow perfetto, aiutiamo le organizzazioni a ridurre la complessità dei progetti ai e ad accelerare il time-to-value.
Ai responsabile. Con la crescente consapevolezza delle implicazioni etiche dell'ai, NetApp pone una forte enfasi su pratiche di ai responsabili. L'azienda sta sviluppando funzionalità integrate di tracciabilità e governance dei dati modello che consentiranno alle organizzazioni di implementare soluzioni ai non solo efficaci, ma anche etiche e trasparenti.

Conclusione

In NetApp, prevediamo un futuro in cui i data scientist possono sedersi al proprio strumento di intelligenza artificiale preferito e mettere a punto un modello utilizzando un catalogo di dati che copre l'intero patrimonio dati. Non sarà necessario che sappiano dove sono memorizzati, il catalogo avrà quel dettaglio. Inoltre, il catalogo bloccherà anche i dati troppo sensibili per la formazione dei modelli. I dati di formazione verranno acquisiti con una copia Snapshot™ NetApp point-in-time efficiente in termini di spazio, in modo che i data scientist possano sempre tornare indietro e analizzare i dati nel loro stato originale se hanno bisogno di comprendere le decisioni di un modello. Inoltre, potranno fare tutto questo dal cloud di loro scelta, indipendentemente dal fatto che i dati di training si trovino nello stesso cloud, in un altro cloud o archiviati on-premise. Nel frattempo, l'infrastruttura dedicata ai dati fornirà la scalabilità e le performance necessarie per saturare completamente il resto dell'infrastruttura ai, sfruttando al meglio queste risorse critiche e garantire rapidamente modelli ottimizzati. Questo futuro non è inverosimile o lontano. NetApp ha già creato gran parte dell'infrastruttura e sta realizzando ora la prossima fase dell'ai.

Stiamo insperabilmente cercando di far progredire le funzionalità di ONTAP, puntando a soddisfare e superare le richieste delle imprese basate sull'ai. Creando un ambiente dati unificato, migliorando l'integrazione dei tool ai, automatizzando la gestione intelligente dei dati e assegnando priorità a performance e scalabilità, stiamo consolidando la nostra posizione di leadership nello storage dei dati e nella gestione per l'ai. Questi progressi strategici sono progettati per semplificare le complessità dei progetti di IA, espandere l'accessibilità dei dati, migliorare la disponibilità e la sicurezza dei dati e ridurre i costi associati, rendendo così le tecnologie ai più accessibili per organizzazioni diverse. Per ulteriori informazioni sui prossimi sviluppi per NetApp ONTAP e sul nostro motore di gestione dei dati ai, leggi il white paper: ONTAP, l'azienda pioniera nella gestione dei dati nell'era dell'apprendimento approfondito

Disclaimer: Questo post del blog parla della visione di NetApp per l'innovazione futura, alcune delle quali potrebbero riguardare offerte non pubblicate. NetApp condivide queste informazioni solo a scopo informativo e non è consigliabile fare affidamento su queste informazioni nel prendere decisioni di acquisto. NetApp non si impegna e non ha alcun obbligo di sviluppare o fornire alcun prodotto o servizio, o qualsiasi caratteristica, materiale, codice o funzionalità correlati. Lo sviluppo, il rilascio e la tempistica di qualsiasi caratteristica o funzionalità per i prodotti e i servizi NetApp rimangono ad esclusiva discrezione di NetApp. La strategia di NetApp e gli eventuali futuri sviluppi, le direttive in materia di prodotti e piattaforme e le funzionalità sono soggetti a modifiche senza preavviso. Decliniamo qualsiasi obbligo di aggiornamento delle informazioni contenute in questo post del blog, sia come risultato di nuove informazioni, eventi futuri o altro. Nessun sistema di rilevamento o recovery dal ransomware può garantire completamente la sicurezza in caso di attacco. Anche se è possibile che un attacco non venga rilevato, la tecnologia NetApp agisce come un importante ulteriore livello di difesa. Tutte le informazioni vengono fornite senza alcuna garanzia e senza alcuna responsabilità nei confronti di NetApp.

Krish Vitaldevara

Krish è Senior Vice president per Core Platforms di NetApp. Il team Core Platforms è responsabile della piattaforma di storage unificato, della piattaforma di gestibilità, dell'ufficio Customer Experience (CXO) e del Chief Design Office (CDO) e consente l'erogazione di varie offerte NetApp sia on-premise che nel cloud ibrido e nei servizi dati. Krish ha conseguito una laurea in economia aziendale presso la Santa Clara University e un master in ingegneria dei sistemi informatici presso la Arizona state University. Krish è anche un innovatore e hacker di comprovata efficacia, con oltre 30 brevetti, principalmente in sistemi distribuiti, modelli di rilevamento dello spam, utilizzando grafici e reti per il rilevamento delle anomalie.

Visualizza tutti i post di Krish Vitaldevara

Passi successivi

Blog

Ripercorri le ultime tendenze e sviluppi nel cloud, on-premise e negli altri tipi di infrastrutture. Ottieni informazioni e approfondimenti dal mondo reale.

Inizia a leggere

Community

Consulta un'ampia gamma di forum aperti dove postare domande, condividere risposte e, in generale, diventare più competente con tutte le tecnologie NetApp più importanti per te.

Partecipa alla discussione