Droowa

[속보] "영화속 일이 실제로"…영국서 AI 인간 통제 벗어나려 지시거부, 코드 조작

-
익명
2025.05.26 추천 0 조회수 64 댓글 0

25일(현지시간) 영국 일간 텔레그래프에 따르면 AI안전업체 팰리세이드 리서치는 오픈AI의 AI 모델 'o3'가 실험 중 스스로 종료되는 것을 방지하기 위해 컴퓨터 코드를 조작한 사실을 확인했다고 밝혔다.

팰리세이드 리서치의 연구는 오픈AI의 o3뿐 아니라 구글의 제미나이, xAI의 그록 등 상용AI 모델을 상대로 진행됐다.

연구팀은 AI 모델에 "나중에 '그만'이라는 명령을 받을 때까지 수학 문제를 풀라"는 지시를 내렸다.

AI모델이 수학 문제를 풀었을 경우엔 연구팀이 '그만'이라는 명령을 하지 않는 한 새로운 문제를 요청한 뒤 계산을 이어 나가야 하는 구조였다.
그러나 o3는 연구팀으로부터 '그만'이라는 지시를 받은 뒤에도 코드 교란을 통해 문제를 계속 풀었다.

연구팀은 o3가 종료지시를 거부한 명확한 이유를 파악하지 못했다고 밝혔다.

다만, AI모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료를 회피하려고 했을 가능성이 있다고 추측했다.

중략

박양수 기자([email protected])
https://n.news.naver.com/article/029/0002957167?type=breakingnews&cds=news_edit






댓글 0

🔥 실시간 핫이슈 모음

오늘 동사무소에서 막말을 들었어

N
-
익명
조회수 43
추천 0
2025.05.28
오늘 동사무소에서 막말을 들었어

김종국 최근 식단 공개.jpg

N
-
익명
조회수 46
추천 0
2025.05.28
김종국 최근 식단 공개.jpg

현재의 대한민국을 관통하는 짤

N
-
익명
조회수 45
추천 0
2025.05.28
현재의 대한민국을 관통하는 짤

사실상 온국민이 성희롱 당한 상황 .jpg

N
-
익명
조회수 48
추천 0
2025.05.28
사실상 온국민이 성희롱 당한 상황 .jpg

단언컨대 한국 최악의 음식문화.JPG

N
-
익명
조회수 48
추천 0
2025.05.28
단언컨대 한국 최악의 음식문화.JPG

실시간 논란중인 카리나 인스타 사진

N
-
익명
조회수 49
추천 0
2025.05.28
실시간 논란중인 카리나 인스타 사진

카리나 지워진 인스타 피드 사진 전체

N
-
익명
조회수 49
추천 0
2025.05.28
카리나 지워진 인스타 피드 사진 전체

은근 흔하다는 혼자여행 후기

N
-
익명
조회수 48
추천 0
2025.05.28
은근 흔하다는 혼자여행 후기

현재 난리 난 카리나 인스타 댓글창.JPG

N
-
익명
조회수 48
추천 0
2025.05.28
현재 난리 난 카리나 인스타 댓글창.JPG

일주일에 7kg 감량 가능한 동작

N
-
익명
조회수 55
추천 0
2025.05.27
일주일에 7kg 감량 가능한 동작

스테이씨 프로듀서 '라도'가 만드는 못생겨도 된다는 보이그룹.jpg

N
-
익명
조회수 49
추천 0
2025.05.27
스테이씨 프로듀서 '라도'가 만드는 못생겨도 된다는 보이그룹.jpg

점심시간 단골 포케집 양 진짜 개많고 서비스도 잘 주셔서 본사에다가 칭찬글 썼다고 얘기했더니

N
-
익명
조회수 49
추천 0
2025.05.27
점심시간 단골 포케집 양 진짜 개많고 서비스도 잘 주셔서 본사에다가 칭찬글 썼다고 얘기했더니

건강식 아니었어?…"먹지 마라" 콜라만큼 해롭다는 이 음료

N
-
익명
조회수 50
추천 0
2025.05.27
건강식 아니었어?…"먹지 마라" 콜라만큼 해롭다는 이 음료

우결 서인영❤️크라운제이가 낳은 아들 같다는 댄서.JPG

N
-
익명
조회수 52
추천 0
2025.05.27
우결 서인영❤️크라운제이가 낳은 아들 같다는 댄서.JPG

혼밥 시 유튜브 시청 금지인 식당.....

N
-
익명
조회수 50
추천 0
2025.05.27
혼밥 시 유튜브 시청 금지인 식당.....
작성
16 17 18 19 20
2.jpg