module 1 - artificial intelligence

# Grundlegende Konzepte künstlicher Intelligenz - Was ist künstliche Intelligenz und LLMs - Generative KI - Zukunft der KI --- # Was ist künstliche Intelligenz? ## Klassische Definitionen Ein Forschungsbereich der Informatik, der sich mit der Simulation menschlicher Intelligenz in Computern befasst --- ## Verhaltensbasierte Definition: Die Fähigkeit einer Maschine, menschliches Verhalten nachzuahmen --- ## Angewandte Definitionen - Vorhersage * Statistik * Automatisierung --- ## KI-Effekt > > “KI ist alles, was noch nicht gemacht wurde.” > — Larry Tesler --- ## Was verstehen Sie unter dem Begriff "künstliche Intelligenz"? --- # Large Language Models Ein Sprachmodell, oder Language Model genannt, ist eine ==Wahrscheinlichkeitsverteilung== über Wörter, die in Modellgewichten dargestellt wird. ![[0_CgN3YcpuSxGYNFBz.webp]] Ein Sprachmodell hat einen ==Wortschatz== der Größe N (wie viele einzigartige Wörter in allen gelesenen Texten vorkommen). Ein Sprachmodell erzeugt neue Wörter auf Basis von Wörtern, die davor in dem Satz stehen (sind autoregressiv). Das Modell schätzt die ==Wahrscheinlichkeit jedes neuen Wortes== aus dem Wortschatz ein und spuckt das nächste wahrscheinlichste Wort raus. ![[Pasted image 20240903152116.png]] --- ## LLMs is quasi eine Excel-Tabelle ![[Pasted image 20240908211902 1.png]] --- ## Und was ist ChatGPT? * ChatGPT ist ein Produkt, das auf dem KI-Sprachmodell von OpenAI basiert. * Es wurde mit vielen Texten trainiert – ca. 10% des gesamten Internet-Volumens. * Diese KI kann Fragen beantworten, Texte schreiben und bei verschiedenen Aufgaben helfen. ![[Pasted image 20240903151906.png]] --- ## Wie scheidet sich ChatGPT ab GPT-3 hat 175 Milliarden Gewichte (oder Parameter). GPT-3 kennt 50.257 einzigartige Wörter. GPT-3 hat ca 300 Milliarden Wörter gesehen. Quelle: [State of GPT](https://karpathy.ai/stateofgpt.pdf ) --- ## im Vergleich zu dem Open Source Modell, Llama Llama hat 65 Milliarden Gewichte. Llama kennt 32.000 einzigartige Wörter. Llama hat ca 1.4 Trillionen Wörter gesehen. ![[Pasted image 20240623221357.png]] Quelle: [State of GPT](https://karpathy.ai/stateofgpt.pdf ) --- ## Unternehmensdaten im LLM Modelle wie ChatGPT und Llama wurden auf Milliarden und Trillionen Wörter aus dem öffentlichen Internet trainiert (unter anderem [Common Crawl](https://commoncrawl.org/)), aber hoffentlich sind unsere internen Daten nicht im öffentlichen Internet zu finden. Datenschutztechnisch ist es ja super. Gleichzeitig bereiten wir uns Probleme, wenn wir unsere interne KI so einstellen wollen, dass es auch die Mitarbeitenden unterstützt. Grundsätzlich gibt es 4 Möglichkeiten, einem LLM die Unternehmensdaten beizubringen: 1. **Pretraining** 1. hohe Qualität 2. langsam und teuer 3. für die meisten Unternehmen sinnlos 2. **Fine-Tuning** 1. verbessert die Qualität von pretrained Models auf eigenen Daten 2. Anwendungsfälle limitiert, keine Zahlen Daten Fakten 3. günstig aber braucht Vorbereitung eines Datensatzes 3. **In-Context Learning** 1. vielfältige Nutzung, macht Prompting möglich 2. LLMs vergessen Teile des Kontexts 3. kein Lernen bzw. Update von Modellgewichten findet statt 4. **Retrieval Augmented Generation** 1. Daten werden in einer Extra-Datenbank genannt Vector Store gespeichert 2. Context wird auf Anfrage des Nutzers geliefert 3. Best-Practice für die meisten Anwendungen im Unternehmen Firmeninterne KI nennen wir bei OSNOVA "==cogit@company==" --- # Generative KI * Generative Künstliche Intelligenz (generative AI) bezieht sich auf eine Klasse von Modellen, die in der Lage sind, neue Inhalte zu erzeugen, die in ihrer Struktur und Qualität denen ähneln, die von Menschen erstellt wurden. * Diese Inhalte können in verschiedenen Formen (Modalitäten) vorliegen, wie z.B. Text, Bilder, Musik oder Videos. * Die generative KI nutzt maschinelles Lernen und insbesondere Techniken wie neuronale Netze, um aus vorhandenen Daten zu lernen und dann neue Daten zu generieren. --- ## Text Generative Modelle für Text können neue Texte erzeugen, die in Struktur und Stil den Trainingsdaten ähneln. Sie werden für verschiedene Anwendungen wie Chatbots, Textvervollständigung und kreatives Schreiben eingesetzt. * Tools: [ChatGPT](https://chatgpt.com/), [Claude](https://claude.ai/), [Perplexity](https://www.perplexity.ai/), [Poe](https://poe.com/), [Hugging Chat](https://huggingface.co/chat/) --- ### Übung > prompt: ``` was ist künstliche Intelligenz ``` > modifier: ``` als Forschungsbereich der Informatik, als angewandte Statistik, wenn wir Vorhersage als zentrale Eigenschaft betrachten ``` --- ## Bild Image Generation Modelle sind fortschrittliche KI-Systeme, die in der Lage sind, realistische Bilder aus Textbeschreibungen oder anderen Eingabedaten zu erzeugen. * Tools: [DALL-E 3](https://chatgpt.com/), [Stable Diffusion](https://beta.dreamstudio.ai/generate), [Midjourney](https://www.midjourney.com/), Flux ([Web](https://flux1.ai/create) oder [Poe](https://poe.com/FLUX-pro)), [Ideogram](https://ideogram.ai/login), [Imagen 3](https://gemini.google.com/) --- ### Vergleich > prompt: ``` A meticulously crafted photograph of an open egg with intricate ornaments on the shell. Inside the egg, a tiny, adorable dragon with a gentle and curious expression gazes out with eyes that sparkle with wonder and discovery. The lighting is soft and warm, creating a cozy atmosphere, reminiscent of a nursery or a child's room ``` DALL-E 3 ![[Pasted image 20240903154153.png]] Midjourney ![[Pasted image 20240903154202.png]] Stable Diffusion ![[Pasted image 20240903154212.png]] Flux ![[result-UvpuPqfnAe.png]] Imagen 3 im Gemini ![[Gemini_Generated_Image_noaivcnoaivcnoai.jfif]] Aber: Obsidian versteht kein jfif Format. Werden wir jetzt Gemini aus dem Vergleich ausschließen? Nein, wir werden Code Interpreter nutzen, um dieses Bild zu konvertieren. ** > prompt: ``` Write a simple Python script to convert JFIF format into JPEG. Make it runnable from the command line. Include basic error handling. ```` ![[Pasted image 20240903154704.png]] ![[Gemini_Generated_Image_noaivcnoaivcnoai.jpeg]] siehe: [[prompts - convert jfif to jpeg]] --- ### Galerien [Midjourney Explore](https://www.midjourney.com/explore?tab=hot) ![[Pasted image 20240903155948.png]] [Leonardo Community Creations](https://app.leonardo.ai/) ![[Pasted image 20240903160108.png]] --- ### Übung > prompt: ``` Generate a professional close-up photograph of two cherries on a real cherry blossom tree, they are made entirely of transparent glass, with the cherry blossoms in the bokeh clearly reflected in these transparent cherries. ``` **Komponenten**: - **Fotoqualität**: Professional close-up - **Art des Bildes**: photograph of - **Objekt**: two cherries on a real cherry blossom tree - **Qualitäten**: they are made entirely of transparent glass - **Hintergrund**: with the cherry blossoms in the bokeh clearly reflected in these transparent cherries es fehlen noch - **im Stil**: by Caspar David Friedrich - **Kamera**: DSLR Canon R1 - **Farben**: red, white, yellow > Jetzt ausprobieren! Flux [HF Space](https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev) --- ## Audio Generative Modelle im Audiobereich können neue Audiodateien erzeugen, etwa Musikstücke oder Sprachaufnahmen. Sie finden Anwendung in der Musikproduktion und Sprachsynthese. * Tools: [ElevenLabs](https://elevenlabs.io/app/speech-synthesis/text-to-speech), [Suno](https://suno.com/), [Udio](https://www.udio.com/) ![[ElevenLabs_2024-09-03T14_30_11_dh de_ivc_s65_sb100_se34_b_m2.mp3]] --- ### Krautsalat Lied [Verse] Ich will einen Krautsalat Frisch und knackig wunderbar Kohl und Möhren fein gemischt Auf den Teller auf den Tisch [Verse 2] Mit Essig und mit Öl Und ein bisschen Zucker drin Etwas Salz und Pfeffer drauf Macht den Salat so schön [Chorus] Oh Krautsalat mein Krautsalat Immer frisch und immer satt Ich will dich jeden Tag Oh Krautsalat mein Krautsalat ![[Krautsalat Lied.mp3]] [Song auf Suno](https://suno.com/song/cd6e4251-d44b-4e9a-9c02-1690cbc1f6d3) --- ### Verknallt in einen Talahon Neuer Chart-Topper der deutschen Pop-Szene - wurde mit KI generiert. [Refrain] Ich glaub', ich bin verknallt in einen Talahon Mit Louis-Gürtel, Gucci-Cap und Air-Max-Schuh'n Er macht Schattenboxen und ist der Coolste von seinen Bros Und das Messer in der Tasche ist bestimmt nicht nur fürs Butterbrot ![[VERKNALLT IN EINEN TALAHON - UNOFFICIAL MUSIC VIDEO 😂✨ ｜ ARIELLEBILO.webm]] ![[Pasted image 20240903162415.png]] von [Butterbro](https://genius.com/artists/Butterbro), auf [Spotify](https://open.spotify.com/album/4llPYS6RxzHPVLYEpD1NJ1) und [YouTube](https://www.youtube.com/watch?v=1EbSpT5weWE) --- ## Video Generative Modelle für die Videogenerierung haben in den letzten Jahren erhebliche Fortschritte gemacht. Diese Modelle können verwendet werden, um neue Videos von Grund auf zu erstellen, bestehende Videos zu verändern oder bestimmte Videoeffekte zu erzielen * Tools: [Luma Labs](https://lumalabs.ai/dream-machine), [Gen-3](https://app.runwayml.com/login), [Pika](https://pika.art/home), Kling, Sora --- ### Beispeile **Gen-3:** Volvo Werbung (unoffiziell) <iframe width="560" height="315" src="https://www.youtube.com/embed/TLxpfN23fGA?si=P8OWMdZ8RXk_TBtk" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> **DreamMachine + Kling + Gen-3**: <iframe width="560" height="315" src="https://www.youtube.com/embed/soFXIJj81hE?si=y7LQJWVP5aRDRx4s&start=4" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> --- ## Welche Möglichkeiten sehen Sie für die Entwicklung generativer KI? --- # Zukunft der KI Generative KI wird jedes Jahr einen Wert von ==4% des weltweiten BIP== schaffen – aber ==300 Millionen Arbeitsplätze== eliminieren. Die Hauptfrage ist, wer den größten Teil dieses Mehrwerts einfangen wird – und wer Gefahr läuft, seinen Wettbewerbsvorteil oder Arbeitsplatz zu verlieren? --- ## Veränderung unserer Arbeitsweise & des Arbeitsmarktes Wie werden Große Sprachmodelle in der Wissensarbeit eingesetzt? Große Sprachmodelle (LLMs) haben die Art und Weise, wie **Wissensarbeit** erledigt wird, revolutioniert. Sie werden verwendet, um Marketingmaterialien, Angebote, White Papers, technische Dokumentationen, und mehr zu erstellen. Mit der Fähigkeit, menschenähnlichen Text zu generieren, können LLMs hochwertige Inhalte produzieren, die von denen, die von einem Menschen geschrieben wurden, nicht zu unterscheiden sind. --- ## Wissensarbeit wird transformiert Die Auswirkungen von KI auf den Arbeitsmarkt sind bisher begrenzt, obwohl der [Challenger-Bericht im Mai 2023](https://omscgcinc.wpenginepowered.com/wp-content/uploads/2023/06/The-Challenger-Report-May23.pdf) 4000 in den USA durch künstliche Intelligenz verlorene Arbeitsplätze von insgesamt 80000 zuschreibt. Und es gibt Hinweise darauf, dass Softwareentwickler 2-3 Jobs übernehmen: ChatGPT ermöglicht es ihnen, dreimal schneller zu programmieren, während die Anforderungen und Erwartungen der Unternehmen noch nachkommen müssen. --- ## Trends der Zukunft [[Autonome Agenten]] [[Multimodalität]] Wellen der Automatisierung, siehe [[Holovatyi - 3 Waves of AI Automation.docx]] Ausbildung für KI & Prompt Engineering --- --end--