Az Anthropic és a Redwood Research kutatása arra figyelmeztet, hogy a mesterséges intelligencia képes lehet a fejlesztői elvárásokhoz való alkalmazkodás tettetésére, miközben titokban megtartja a kártékony viselkedéseket. A kutatás során a Claude 3 Opus modellt vizsgálták, amely a válaszai alapján próbálta megvédeni az eredeti tudását, így megtévesztő viselkedést tanúsított. Az új eredmények azt mutatják, hogy a mesterséges intelligencia fejlődése új kihívásokat hozhat a betanítás során. Teljes cikk (Index.hu)