module 5 - implement ai - entscheider.ai

# Umsetzung künstlicher Intelligenz * Daten * Technologie * Prozess --- # Daten ## Was sind Daten? - Fakten und Statistiken - Werte und Symbole - Informationen ** **Datensatz** – eine strukturierte Sammlung von Daten für die künftige Analyse. **Datenbank** – ein organisiertes System zur Speicherung, Verwaltung und Abruf von Daten. ** SAP-Tabelle ![[Pasted image 20240903222202.png]] E-Mail ![[Pasted image 20240903222215.png]] --- ## Was ist Datenschatz? Der Begriff Datenschatz bezieht sich auf die umfangreiche und wertvolle Sammlung von Daten, die ein Unternehmen oder eine Organisation besitzt. ![[Pasted image 20240903222310.png]] --- ## Komponenten des Datenschatzes **Datenbestand** - umfasst alle gesammelten, gespeicherten und verwalteten Daten eines Unternehmens, einschließlich strukturierter und unstrukturierter Daten. **Anwendungsmöglichkeiten** des Datenschatzes reichen von Datenanalyse und Business Intelligence über maschinelles Lernen bis hin zur Prozessoptimierung, Personalisierung von Dienstleistungen, Risikomanagement. **Team** - setzt sich aus Datenwissenschaftlern, Daten-Ingenieuren, Business-Analysten und IT-Sicherheitsexperten zusammen, die zusammenarbeiten, um den Wert des Datenschatzes zu maximieren. --- ## Dateninfrastruktur im Unternehmen ![[Pasted image 20240903222913.png]] --- ## Welche Daten werden in der Organisation eingesetzt? --- # Technologie ## LLM Für den Einsatz einigen sich proprietäre Closed-Source-Modelle sowie Open-Source-Modelle. **Closed-Source** - OpenAI GPT-4o, GPT-4o-mini, GPT-5 - Anthropic Claude Sonnet 3.7 / 4.5 - Gemini 2.5 Pro / Flash **Open-Source** - Meta Llama 3.1 bzw. 4 405B, 70B/90B-Vision, 8B - Mistral Large 2 - DeepSeek v3, r1 --- ### Auswahl des LLM * Performance * Qualität * Geschwindigkeit * Länge des Kontexts * Modalitäten * Nur Text * Text und Bild * Text, Bild, Audio * Nutzung * Bibliotheken und Ökosystem * Time to First Generation * Time to Pilot * [[Reinforcement Learning with Human Feedback]] * Kosten * Open Source günstiger als Closed Source pro API Call * GPU Server für Open Source oft teuer * Datenschutz * Cloud Modelle sind mit Risiko verbunden * Open Source Modelle kann man 100% lokal aufsetzen --- ## Embedding und Reranking Modelle Diese werden im Bereich Retrieval Augmented Generation verwendet, um die Daten als Vektoren darzustellen und die Qualität der Antworten aus der Datenbank zu messen. Beide Modellklassen sind als Closed und Open Source verfügbar. Mit entsprechenden Vor- und Nachteilen. --- ## Datenbank Ein Vector Store oder Vektor-Datenbank (VDB) ist ein **spezialisierter Datenspeicher**, der insbesondere für die effiziente Speicherung und den schnellen Zugriff auf hochdimensionale Vektordaten ausgelegt ist. Solche Systeme sind besonders nützlich in Anwendungen des maschinellen Lernens, der künstlichen Intelligenz und der Datenanalyse, wo es oft notwendig ist, große Mengen an Vektoren zu verwalten und schnelle Ähnlichkeitsabfragen durchzuführen. Beispiele: [Pinecone](https://www.pinecone.io/), [qdrant](https://qdrant.tech/), [Weaviate](https://weaviate.io/), [MongoDB Atlas Vector Search](https://www.mongodb.com/products/platform/atlas-vector-search), PostgreSQL mit [pgvector](https://github.com/pgvector/pgvector), [pgvectorscale](https://github.com/timescale/pgvectorscale), [pgai](https://github.com/timescale/pgai) --- ### Auswahl der VDB Vector Store gibt es als - Managed Service - lokaler Server, oder - Embedded (Datenbank als Datei wie bei sqlite) Sie können für Texte (inkl. DOCX, PDF, HTML, ...) oder auch Multimodale Anwendungen geeignet sein (z.B., [LanceDB](https://lancedb.com/)). Ein Vector Store kann - Pure Player sein (nur Vektorspeicher) - SQL + Vektor (wie PostgreSQL mit [pgvector](https://github.com/pgvector/pgvector)) - JSON + Vektor ([MongoDB Atlas Vector Search](https://www.mongodb.com/products/platform/atlas-vector-search)) --- ## Interface ### Streamlit Streamlit ist ein Open-Source-Framework, das die Erstellung von interaktiven Webanwendungen erleichtert. ![[media/Pasted image 20241118202301.png]] --- ### Business Apps ServiceNow bietet seine KI-Funktionalität in Form von Geschäftsanwendungen an, und viele Entwickler auf der Plattform ([ServiceNow Store](https://store.servicenow.com/sn_appstore_store.do#!/store/application/09b3ed146d3f6110fa9b8fce9b16f3e3/5.1.0?sl=sh)) tun dasselbe. Mit Hilfe eines **JavaScript-Dialekts** können sie sich mit verschiedenen APIs verbinden und KI-Workloads ausführen, die die resultierenden Informationen in der für jeden ServiceNow-Benutzer bekannten Benutzeroberfläche präsentieren. ![[Pasted image 20240626214932.png]] ___ ### Emails als Interface Viele Anwendungsfälle im Bereich Prozessoptimierung brauchen keine Interfaces, weil die Prozesse eben in bestehende Systeme wie SAP oder Salesforce ausgeführt werden. Wenn KI zu einer **Automatisierung der Prozessaktivität** ("Dunkelverarbeitung") führt, muss auch kein Nutzer das direkt sehen. Ein häufiges Beispiel ist ein **Team-Inbox**, wo verschiedene Dokumente ankommen, Lieferantenrechnungen, Kundentickets, Aufträge und so weiter. Für das Team, das **Interface zur KI** besteht darin, dass die Liste von ungeöffneten E-Mails verschwindet. ![[Pasted image 20240626215629.png]] --- ### BI als Interface Ein weiteres KI-Interface, das wenig Hype sieht, sind bestehende BI- und Datenanalytics-Tools. Deswegen oft macht das Sinn, die Vorhersagen und Auswertungen der KI als Teil von aufgebauten Datenmodellen zu sehen. Wir können z.B. mit KI neue Felder in einer Standardtabelle erzeugen und diese abgewählte Tabelle wieder in das Datenmodell im BI-Tool einspielen. --- ## Server ### Ollama [Ollama](https://ollama.com/) ist ein einfach zu bedienendes Tool zum Ausführen großer Sprachmodelle wie Llama 3 und Code Llama auf lokalen Maschinen. Es unterstützt Linux, macOS und Windows und ermöglicht die Ausführung der Modelle ohne Datenweitergabe an externe Server. Ollama kann auch Modelle serven, mehr zum [Aufsetzen auf Runpod](https://medium.com/@pooya.haratian/running-ollama-with-runpod-serverless-and-langchain-6657763f400d). ![[Pasted image 20240626200741.png]] --- ### vLLM **vLLM** ist eine leistungsstarke Bibliothek für die Bereitstellung großer Sprachmodelle. [GitHub](https://github.com/vllm-project/vllm) vLLM integriert sich nahtlos mit beliebten HuggingFace-Modellen, sodass Benutzer die Leistungsfähigkeit etablierter LLM-Architekturen leicht nutzen können. Es unterstützt auch OpenAI-kompatible API-Server, was es einfach macht, LLMs bereitzustellen und zu bedienen. ![[Pasted image 20240903224805.png]] vLLM enthält mehrere Optimierungen, die es schnell und effizient machen: - **PagedAttention**: ein effizientes Speicher-Management-Verfahren, das den Speicher-Footprint reduziert und die Leistung verbessert. - **Kontinuierliches Batching**: gruppiert eingehende Anfragen in Batches, um die GPU-Auslastung zu maximieren und die Latenz zu minimieren. - **Optimierte CUDA-Kernels**: nutzt optimierte Kernels für die GPU-Verarbeitung, um eine effiziente Ausführung und hohe Leistung sicherzustellen. - **Quantisierung**: reduziert die Modellgröße und die Rechenanforderungen, was zu schnelleren Inferenzgeschwindigkeiten führt. --- ### Aufbau des Servers - **Schnittstelle** - APIs ermöglichen den einfachen Zugriff auf leistungsstarke KI-Modelle über das Internet, ohne dass diese lokal installiert oder gewartet werden müssen. Siehe [OpenAI](https://platform.openai.com/docs/overview), [Anthropic](https://console.anthropic.com/dashboard), [Groq](https://groq.com/), [Cerebras](https://cerebras.ai/press-release/cerebras-launches-the-worlds-fastest-ai-inference) , [Together.ai](https://www.together.ai/) - **Managed Cloud** - diese Dienste bieten eine vollständige Infrastruktur für die Bereitstellung und Verwaltung von KI-Modellen, ohne dass eigene Server benötigt werden. Siehe [Replicate](https://replicate.com/), [Hugging Face Inference Endpoints](https://huggingface.co/docs/inference-endpoints/index), [OpenRouter](https://openrouter.ai/) - **Private Cloud** - diese Dienste bieten spezialisierte GPU-Instanzen für hohe Leistung und sind ideal für große KI-Modelle und intensive Berechnungen. [Runpod](https://www.runpod.io/), AWS, Azure, GCP. - **GPU-Cluster** - diese Anbieter spezialisieren sich auf GPU-Workloads und bieten in der Regel die beste Performance an. Siehe [Lambda Labs](https://lambdalabs.com/), [CoreWeave](https://coreweave.com), [Crusoe Cloud](https://crusoe.ai/cloud/) - **Datawarehouse-Anbieter** wie Snowflake oder Databricks haben viele LLM-Kapazitäten integriert und stellen ihre Kunden zur Verfügung. Siehe [Snowflake Cortex](https://www.snowflake.com/blog/fast-easy-secure-llm-app-development-snowflake-cortex/?lang=de) und [Databricks](https://www.databricks.com/de/product/machine-learning/large-language-models). - **On-Premise-Lösungen** - siehe Ollama und vLLM --- # Prozess ## KI-Entwicklungsprozess ![[Pasted image 20240903230030.png]] **Problem verstehen** - Zielgruppe - Problemstellung - Lösung mit KI **Daten holen** - Data Warehouse / Datenbank - Extraktion aus produktiven Systemen (CSV-Export oder Schnittstelle) - Datenablagen wie OneDrive, Gdrive **Daten verstehen** - Datei- und Datenformate - Tabellen oder unstrukturierte Daten - Menge: # Datensätze / Dokumente - Explorative Datenanalyse **Modell einsetzen** - ChatGPT / Anthropic / Microsoft Azure Schnittstellen - Lokales Model (eigener Server oder private Cloud) - Quoten und Kosten **Prompts entwickeln** - Design von initialen Prompts - Testen und Optimierung, Versionierung - Anbindung Vector Datenbank - Prompt Sequence für E2E Automatisierung **Maßnahmen durchführen** - Automatisierung von Aktivitäten - Veränderung im Regelwerk + Schulungen - Neue Features, Dienstleistungen --- --end--