Wpis Ray Data i Docling rozwiązują największy problem korporacyjnej AI pojawił się na BitcoinEthereumNews.com. Zach Anderson 27 lutego 2026 16:58 Nowa integracjaWpis Ray Data i Docling rozwiązują największy problem korporacyjnej AI pojawił się na BitcoinEthereumNews.com. Zach Anderson 27 lutego 2026 16:58 Nowa integracja

Ray Data i Docling rozwiązują największy problem AI w przedsiębiorstwach

2026/02/28 12:33
3 min. lektury


Zach Anderson
27 lutego 2026 16:58

Nowa integracja łączy rozproszone przetwarzanie Ray Data z analizowaniem dokumentów Docling, aby przetwarzać ponad 10 tysięcy złożonych plików dla aplikacji RAG w ciągu godzin zamiast dni.

Zespoły korporacyjne budujące aplikacje AI właśnie otrzymały rozwiązanie swojego najbardziej frustrującego wąskiego gardła. Anyscale szczegółowo opisał, jak połączenie Ray Data z Docling może przekształcić tygodnie przetwarzania dokumentów w godziny—rozwój, który może przyspieszyć harmonogramy wdrożeń dla firm dysponujących masywnych archiwów dokumentów.

Integracja techniczna odnosi się do tego, co insiderzy nazywają „wąskim gardłem danych" w systemach Retrieval-Augmented Generation. Podczas gdy dema sprawiają, że generatywna AI wygląda prosto, rzeczywistość polega na zmaganiu się z tysiącami starszych plików PDF, złożonych tabel i osadzonych obrazów, z którymi tradycyjne narzędzia przetwarzania radzą sobie słabo.

Co faktycznie się zmienia

Silnik strumieniowego wykonywania Ray Data przesyła dane jednocześnie przez zadania CPU i GPU. Architektura natywna dla Pythona eliminuje narzut serializacji, który nęka inne frameworki podczas tłumaczenia danych między środowiskami językowymi. Dla zespołów przeprowadzających wnioskowanie wsadowe lub wstępne przetwarzanie ogromnych zbiorów danych oznacza to szybsze cykle iteracji.

Docling obsługuje złożoność analizowania, która psuje większość tradycyjnych narzędzi—dokładnie wyodrębniając tabele i układy przy jednoczesnym zachowaniu struktury semantycznej. Po zintegrowaniu z Ray Data każdy węzeł roboczy uruchamia instancję Docling z osadzonymi modelami AI w pamięci, umożliwiając równoległe przetwarzanie dokumentów na dużą skalę.

Architektura działa w ten sposób: sterownik Ray Data zarządza wykonywaniem i serializuje kod zadań do dystrybucji. Pracownicy odczytują bloki danych bezpośrednio z pamięci i zapisują przetworzone pliki JSON do miejsca docelowego. Sterownik nigdy nie staje się wąskim gardłem, ponieważ nie obsługuje rzeczywistej przepustowości danych.

Fundament Kubernetes

KubeRay organizuje klastry Ray na Kubernetes, obsługując dynamiczne automatyczne skalowanie od 10 do 100 węzłów w sposób przejrzysty. System obejmuje automatyczne odzyskiwanie w przypadku awarii węzłów roboczych—krytyczne dla dużych zadań pozyskiwania, które nie mogą pozwolić sobie na ponowne uruchomienie od zera.

Kompleksowy przepływ przenosi dokumenty z magazynu obiektów przez analizowanie i dzielenie na fragmenty, generuje osadzenia na węzłach GPU i zapisuje do baz danych wektorowych takich jak Milvus. Aplikacje RAG następnie odpytują bazę danych, aby dostarczyć kontekst do LLM.

Firmy, w tym Pinterest, DoorDash i Instacart, już używają Ray Data do przetwarzania ostatniej mili i trenowania modeli, co sugeruje, że technologia wykazała wykonalność produkcyjną.

Poza prostym wyszukiwaniem

Szerszy cel dotyczy tutaj przepływów pracy agentowej AI, gdzie autonomiczne agenty wykonują zadania wieloetapowe. Jakość przetworzonych danych staje się bardziej krytyczna, gdy agenci polegają na precyzyjnej dokumentacji, aby działać w imieniu użytkowników. Organizacje budujące skalowalne architektury pozycjonują się teraz na zaawansowane łańcuchy wnioskowania z wieloma sekwencyjnymi wywołaniami LLM.

Red Hat OpenShift AI i platformy Anyscale zapewniają opcje wdrożenia z wymaganiami ładu korporacyjnego. Fundament open-source oznacza, że zespoły mogą rozpocząć testowanie bez poważnych przeszkód w zakupach.

Dla zespołów AI, które obecnie poświęcają więcej czasu na przygotowanie danych niż na dostrajanie modeli, ta integracja oferuje praktyczną drogę naprzód. Pytanie nie brzmi, czy rozproszone przetwarzanie dokumentów ma znaczenie—ale czy Twoja infrastruktura może obsłużyć to, co nadejdzie.

Źródło obrazu: Shutterstock

Źródło: https://blockchain.news/news/ray-data-docling-enterprise-ai-document-processing

Okazja rynkowa
Logo Raydium
Cena Raydium(RAY)
$0.5616
$0.5616$0.5616
-6.58%
USD
Raydium (RAY) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z [email protected] w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.