
KI-Newsletter Bytegeflüster KW 22
(26. Mai – 01. Juni 2025)
🔥 Diese Woche in der Welt der KI
Von neuen No-Code-Plattformen und Bildbearbeitungs-Modellen bis hin zu humanoiden Robotern und medizinischen Anwendungen: Besonders auffällig: Immer mehr KI-Tools kommen in reale Prozesse – sei es im Browser, auf der Straße oder in der Arztpraxis. Gleichzeitig rücken Open-Source-Initiativen wie DeepSeek immer näher an die „grossen“ Modelle heran.
Ob du wissen willst, was FLUX.1 wirklich kann, warum Perplexity jetzt Apps baut oder was Amazon im „Humanoid Park“ treibt – hier findest du die kompakte Zusammenfassung aller wichtigen News.
FLUX.1 Kontext: Bildbearbeitung per Texteingabe – einfach, präzise, vielseitig
Mit FLUX.1 Kontext stellt Black Forest Labs eine neue Modellreihe vor, die Text-zu-Bild-Generierung und kontextbasierte Bildbearbeitung in einem System kombiniert. Nutzer können damit bestehende Bilder durch einfache Spracheingaben verändern – z. B. Objekte austauschen, Farben anpassen oder Schriften ersetzen – ganz ohne komplexe Workflows oder Finetuning. Die Modellfamilie umfasst drei Varianten:
Kontext [pro] – für schnelle, konsistente Bearbeitungen mit stabiler Darstellung von Charakteren und Stilen
Kontext [max] – mit maximaler Leistung und besonders hoher Prompt-Adhärenz (d. h. das Modell folgt den Texteingaben besonders exakt, auch bei typografischen Elementen oder feinen Details)
Kontext [dev] – eine offene Forschungsvariante mit anpassbaren Gewichtungen, derzeit als Private Beta verfügbar.
Wer das Ganze ausprobieren möchte, kann den FLUX Playground nutzen – eine browserbasierte Testumgebung, in der sich FLUX.1 ohne Installation direkt verwenden lässt.

Perplexity Labs: Berichte, Code & Dashboards mit KI
Perplexity Labs ist ein neues KI-Tool von Perplexity AI, das darauf abzielt, komplexe Projekte effizient umzusetzen. Es ermöglicht Pro-Nutzern, durch natürliche Spracheingaben umfassende Berichte, Dashboards, Tabellenkalkulationen und einfache Webanwendungen zu erstellen. Dabei nutzt es fortschrittliche Funktionen wie tiefes Web-Browsing, Code-Ausführung sowie die Erstellung von Diagrammen und Bildern.
Im Gegensatz zum bisherigen „Deep Research“-Modus, der schnelle Analysen liefert, investiert Perplexity Labs mehr Zeit (etwa 10 Minuten oder länger) und bietet zusätzliche Tools für die Erstellung komplexerer Projekte. Alle generierten Dateien – von Code über Diagramme bis hin zu Bildern – werden im „Assets“-Tab organisiert, was eine einfache Verwaltung und den Export ermöglicht.
Perplexity Labs ist derzeit für Pro-Abonnenten auf der Webplattform sowie in den iOS- und Android-Apps verfügbar, mit geplanten Erweiterungen für Mac- und Windows-Anwendungen.
DeepSeek R1-0528: Open Source auf Augenhöhe mit den Tech-Giganten?
Das chinesische KI-Startup DeepSeek hat mit der neuen Version R1-0528 ein Open-Source-Sprachmodell vorgestellt, das sich direkt mit den Spitzenreitern Gemini 2.5 Pro von Google und GPT-4o von OpenAI messen will.
Besonders beeindruckend: Im anspruchsvollen AIME-Test für mathematisches Denken erreicht das Modell eine Genauigkeit von 87,5 % – ein Wert, den bislang nur proprietäre Modelle erzielen konnten.

Möglich wird das durch ein verbessertes „Reasoning“: DeepSeek analysiert Aufgaben mit deutlich mehr Kontext (23.000 statt 12.000 Tokens pro Eingabe) und kann dadurch präzisere Schlüsse ziehen.
Für Nutzer mit begrenzten Ressourcen wurde zusätzlich eine kleinere Variante veröffentlicht: DeepSeek-R1-0528-Qwen3-8B, basierend auf dem kompakten Modell Qwen3-8B.
Ein möglicher Schatten liegt auf der Trainingsbasis: Laut einem Bericht von TechCrunch könnten auch Ausgaben von Googles Gemini-Modellen mit ins Training eingeflossen sein – was ethische Fragen aufwirft.
Fazit: Mit R1-0528 liefert DeepSeek ein beeindruckendes Beispiel dafür, dass Open-Source-Modelle nicht nur mithalten, sondern sogar neue Maßstäbe setzen können – sofern die Transparenz beim Training gewährleistet bleibt.
OpenAI o3 Operator: Der neue smarte Tool-Agent
OpenAI o3 Operator ist ein neues Agentenmodell, das den bisherigen GPT-4o-Agenten ersetzt – insbesondere in der Werkzeugsteuerung (z. B. Browser, Code, Python). Ziel ist es, KI-Agenten präziser, modularer und robuster im Einsatz mit Tools zu machen.
Die Architektur basiert auf einer sogenannten „Constrained Utility Architecture“, bei der nicht mehr ein großes Modell alle Aufgaben übernimmt. Stattdessen sind spezialisierte Teilmodelle für Entscheidungen, Werkzeugwahl und Planung zuständig. So soll der neue Operator o3 weniger Fehler machen, zielgerichteter arbeiten und sich leichter an neue Anwendungen anpassen lassen.
Dies bedeutet: o3 ist nicht „intelligenter“ im klassischen Sinne, aber deutlich geschickter im Umgang mit Aufgaben, die externe Tools einbeziehen – etwa das Surfen im Web, das Erstellen von Code oder das Navigieren durch Dokumente.

KI erkennt Hautkrebs in 15 Minuten
Ein neues KI-gestütztes Hautkrebs-Screening-Gerät, entwickelt von Hautärztin Cecilia Dietrich und ihrem Team, wird derzeit in München eingesetzt. Das System nutzt Künstliche Intelligenz und Ferndiagnose, um trotz Fachärztemangel mehr Untersuchungen zu ermöglichen und Hautkrebs frühzeitig zu erkennen.
Die Untersuchung dauert etwa 15 Minuten und kostet für gesetzlich Versicherte 150 Euro, während private Krankenversicherungen die Kosten übernehmen. Das Gerät analysiert Hautveränderungen und ermöglicht eine schnelle Risikobewertung, was die Früherkennung von Hautkrebs verbessern kann.
Amazon testet humanoide Lieferroboter
Amazon erprobt in San Francisco humanoide Roboter, die Pakete bis zur Haustür bringen sollen. In einem Testgelände namens „Humanoid Park“ trainieren die Roboter realistische Szenarien wie Treppensteigen oder enge Eingänge.
Die Roboter fahren in Rivian-Lieferwagen mit und werden von Amazon selbst mit KI-Software gesteuert. Ziel: die Effizienz auf der „letzten Meile“ steigern. Noch gibt es technische Hürden – etwa Energieverbrauch, Wetterbedingungen und Sicherheit im Umgang mit Menschen.
Opera Neon: KI-Browser der nächsten Generation
Mit „Neon“ bringt Opera einen völlig neuen Browser auf den Markt, der Künstliche Intelligenz direkt integriert. Er soll nicht nur Webseiten anzeigen, sondern Nutzern aktiv helfen – etwa beim Ausfüllen von Formularen, Schreiben von Texten oder Erstellen einfacher Webseiten.
Drei zentrale Funktionen:
Chat: Ein KI-Assistent, der Fragen direkt zur aktuellen Webseite beantwortet.
Do: Ein Agent, der Aufgaben übernimmt (z. B. Reisen buchen).
Make: KI-generiert auf Wunsch Inhalte, Spiele oder Websites.
Der Browser befindet sich aktuell in einer Testphase und wird ein kostenpflichtiger Premium-Dienst. Datenschutz steht laut Opera im Fokus.
ElevenLabs 2.0: Gespräche wie mit Menschen
Mit „Conversational AI 2.0“ stellt ElevenLabs eine neue Generation von Sprachagenten vor, die menschliche Dialoge realistischer denn je simulieren können. Im Fokus steht das sogenannte Turn-Taking – also das Erkennen, wann man sprechen oder besser zuhören sollte. Die KI analysiert Pausen, Füllwörter wie „äh“ oder „hm“ und reagiert dynamisch darauf. So entstehen deutlich flüssigere, natürlicher wirkende Gespräche.
Ein weiteres Highlight ist die automatische Spracherkennung: Die KI erkennt eigenständig, in welcher Sprache gesprochen wird, und passt sich an – ganz ohne manuelle Einstellung. Für Unternehmen besonders relevant ist die neue Möglichkeit, externe Wissensquellen per Retrieval-Augmented Generation (RAG) in Echtzeit anzuzapfen. Dadurch werden z. B. Kundenanfragen oder medizinische Rückfragen sofort und faktenbasiert beantwortet – bei gleichzeitiger Wahrung hoher Datenschutzstandards.
Auch im Bereich Telefonie hat ElevenLabs nachgelegt: Mit Batch-Calling lassen sich automatisierte Sprachanrufe im großen Stil durchführen. Die Integration in bestehende Telefonsysteme via SIP-Trunking macht das Ganze auch technisch praktikabel. Multimodale Kommunikation (Text und Sprache) rundet die Lösung ab und erlaubt flexible, kanalübergreifende Nutzung.
Bing bekommt Video-Tool mit Sora
Microsoft hat in der Bing-App ein neues Feature eingeführt: den Bing Video Creator. Damit lassen sich kurze, 5-sekündige KI-Videos direkt aus Texteingaben generieren – dank OpenAIs Sora, dem leistungsstarken Text-zu-Video-Modell.
Die Videos erscheinen im Hochformat (ideal für Social Media) und können kostenlos oder im Schnellmodus über Microsoft Rewards erstellt werden. Eine Desktop-Version sowie Querformat-Videos sind in Planung.
Der Dienst ist aktuell weltweit verfügbar (außer in China und Russland) und richtet sich an Einsteiger – mit einfacher Bedienung, aber noch begrenzter Qualität im Vergleich zu etwa Google Veo 3.
📌 Das Wichtigste der Woche auf einen Blick
• FLUX.1 Kontext kombiniert Bildgenerierung & -bearbeitung in einem Tool
• Perplexity Labs erlaubt komplexe Projekte per Spracheingabe – inkl. Code & Visuals
• DeepSeek R1-0528 erreicht GPT-4o-Niveau – Open Source, aber mit Daten-Fragezeichen
• OpenAI o3 Operator bringt spezialisierte Toolsteuerung mit modularer Architektur
• Neue Hautkrebs-KI ermöglicht Ferndiagnose trotz Fachkräftemangel
• Amazon testet Lieferroboter, die selbstständig Treppen steigen und Pakete bringen
• Opera launcht KI-Browser Neon mit Chat-, Aufgaben- und Content-Funktionen
• ElevenLabs 2.0 verbessert Sprachfluss, Sprachwechsel und Business-Integration
• Bing-Video-Tool mit Sora erzeugt 5-Sekunden-KI-Videos für Social Media