Post Thumbnail

OpenAI Stellt KI-Agent Operator Vor

OpenAI stellte Operator vor – einen auf GPT-4 o basierenden Agenten, der Online-Aufgaben im Browser ausführen kann. Der Agent arbeitet über eine spezielle Schnittstelle, wo der Benutzer das Browserfenster sehen und die Aktionen des Assistenten kontrollieren kann.

Operator verwendet Computer-Using Agent, der die visuellen Fähigkeiten von GPT-4 o mit fortgeschrittenem Denken durch verstärkendes Lernen kombiniert. Computer-Using Agent erreichte 38,1% Erfolg beim OSWorld-Test und 87% bei WebVoyager und übertraf damit frühere Modelle.

Der Agent arbeitet über eine verschlüsselte Verbindung auf einem Remote-Server. Benutzer können die Kontrolle für CAPTCHA-Eingabe oder Zahlungsdaten übernehmen. Operator verfügt über Befehlssätze zur Speicherung von Benutzerpräferenzen. Sie können beliebige Anfragen, auch mit Fotos, eingeben, und der Assistent beginnt zu suchen – Sie können Essensbestellungen, Tischreservierungen, Ticketkäufe, Taxirufe und vieles mehr delegieren. Operator zeigt auch einen Mini-Bildschirm mit allem, was er in Echtzeit tut.

OpenAI legt großen Wert auf Systemsicherheit und Angriffresistenz. Der gesamte Prozess wird von einem separaten Modell überwacht, das die Ausführung stoppen kann, wenn etwas nicht stimmt. Zusätzlich werden verdächtige Situationen zur manuellen Überprüfung gesendet.

Der Service ist für Pro-Benutzer in den USA verfügbar, wird in einigen Wochen zum Plus-Abonnement hinzugefügt, und API für Entwickler. Obwohl Anthropic und Google ähnliche Demonstrationen früher zeigten, brachte OpenAI als erstes ein Verbraucherprodukt auf den Markt, trotz der Unrentabilität des Pro-Abonnements. Hoffen wir, dass Operator, wenn er lernt, selbstständig einzukaufen, nicht anfängt, sich selbst Geschenke zum Aktivierungstag zu bestellen.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Reddit erwischte Perplexity beim Inhaltsdiebstahl

Ich erzählte früher, dass Reddit Klage gegen die KI-Suchmaschine Perplexity eingereicht hat. Reddit beschuldigt Perplexity des "industriellen" Content-Sammelns. Aber jetzt gibt es Fakten und Reddit zeigte, wie sie den Beklagten in eine Falle lockten.

OpenAI entwickelt Werkzeug zur Musikgenerierung

OpenAI entwickelt ein Werkzeug zur Musikgenerierung basierend auf Text- und Audio-Prompts. Dies berichtet The Information unter Berufung auf Quellen. Ein solches Werkzeug könnte verwendet werden, um Musik zu bestehenden Videos hinzuzufügen oder um Gitarrenbegleitung zu einer Gesangsspur hinzuzufügen.

Amazon verwandelt Kuriere in Cyborgs mit KI-Smart-Brillen

Amazon beschloss, seine Kuriere in Cyborgs zu verwandeln. Nein, ernsthaft - das Unternehmen kündigte Smart-Brillen mit KI für Lieferanten an. Die Idee, laut E-Commerce-Giganten, ist es, den Fahrern die Hände freizugeben. Und sie davon zu befreien, ständig den Blick zwischen Telefon, Paket und Umgebung wechseln zu müssen.

OpenAI wird Charakter-Cameos zu Sora hinzufügen

OpenAI veröffentlichte die Entwicklungs-Roadmap für Sora, und wissen Sie was? Es scheint, das Unternehmen hat endlich erkannt, dass Videogenerierung nicht nur eine technologische Demonstration ist. Sondern ein Werkzeug, das Menschen wirklich nutzen müssen. Bill Peebles, Projektleiter, kündigte eine ganze Reihe von Updates an, und einige davon sind wirklich interessant.

Starcloud startet Satelliten mit KI im November für Rechenzentrum im Weltraum

Wissen Sie, wohin jetzt Rechenzentren für KI verlagert werden? In den Weltraum. Das Startup Starcloud, Teilnehmer am NVIDIA Inception-Programm, plant im November einen Satelliten mit KI in die Erdumlaufbahn zu starten. Und das ist nur der Anfang ihres ehrgeizigen Plans, Probleme mit Energieverbrauch und Kühlung von Rechenzentren auf der Erde zu lösen.