AI 에이전트 보안은 권한 설계 싸움이다
📋 오늘의 3줄 요약
- Google DeepMind가 사내 AI 에이전트를 통제하는 보안 로드맵을 공개했어요.
- 핵심은 모델을 믿는 대신, 권한·감시·차단을 시스템으로 나눠 두는 거예요.
- 제품에 에이전트를 붙였다면 이번 주에 위험 행동 목록부터 적어보세요.
안녕하세요, 오늘은 “AI가 일을 대신한다” 다음에 바로 따라오는 질문, “그럼 어디까지 맡길 건데?”를 다뤄볼게요.
📌 오늘의 딥다이브 — Google DeepMind의 AI Control Roadmap
무슨 일이 있었나
Google DeepMind가 내부 시스템에 배포하는 AI 에이전트를 어떻게 통제할지 정리한 AI Control Roadmap을 공개했어요. 여기서 말하는 에이전트는 단순 챗봇이 아니에요. 사이버 방어, 과학 연구, 제품 개발처럼 여러 단계를 스스로 실행하는 시스템을 말합니다. DeepMind는 미국에서만 AI 에이전트가 2030년까지 2.9조 달러의 경제적 가치를 만들 수 있다고 봐요. 그런데 능력이 커질수록 보안도 같이 커져야 한다는 게 이번 글의 출발점입니다. 출처
핵심은 간단해요. 모델 정렬(alignment, AI가 안전하고 도움이 되도록 학습시키는 일)만 믿지 않겠다는 겁니다. DeepMind는 기존 보안 장치, 샌드박스, 엔드포인트 보안, 프롬프트 인젝션 방어 위에 AI Control이라는 시스템 차원의 안전장치를 얹겠다고 설명해요. 쉽게 말해 “착한 모델을 만들자”에서 멈추지 않고, “착하지 않게 행동해도 큰일이 나지 않게 하자”로 가는 거예요. 출처
배경·맥락
왜 지금 이 이야기가 중요하냐면요, 에이전트는 권한을 먹고 자라거든요. 파일을 읽고, 코드를 수정하고, 배포 명령을 실행하고, 외부 API를 호출해야 진짜 일을 합니다. 그런데 권한이 커질수록 사고의 크기도 커져요. 예전 자동화 스크립트는 사람이 흐름을 짰고, 실패 지점도 비교적 예상할 수 있었어요. 에이전트는 다릅니다. 목표만 주면 중간 계획을 스스로 세우니까요.
DeepMind는 이 문제를 “내부자 위협”처럼 보자고 말합니다. 내부자 위협은 회사 안에 이미 접근 권한을 가진 사람이 잘못된 행동을 할 수 있다는 보안 관점이에요. 에이전트도 비슷하게 다루자는 거죠. 이때 MITRE ATT&CK 프레임워크처럼 실제 공격 전술을 잘게 나눠 보는 방식을 참고한다고 설명합니다. 공격을 큰 덩어리로 보지 않고, 작은 행동 패턴으로 쪼개야 감시하고 막을 수 있기 때문이에요. 출처
디테일
로드맵은 세 축으로 움직입니다. 첫째, 위협 모델링이에요. 에이전트가 어떤 방식으로 잘못된 행동을 할 수 있는지 미리 분류합니다. 둘째, 탐지·예방·대응이에요. DeepMind는 신뢰할 수 있는 다른 AI 시스템을 감독자로 두고, 작업 중인 에이전트의 추론, 행동, 계획을 계속 검토한다고 설명해요. 셋째, 측정입니다. 감시가 실제로 작동하는지 coverage(얼마나 많은 트래픽을 보고 있는지), recall(잘못된 행동을 얼마나 잡는지), time-to-response(얼마나 빨리 대응하는지)로 봅니다. 출처
여기서 중요한 디테일은 대응 속도예요. 위험이 낮고 되돌릴 수 있는 행동은 나중에 로그를 보고 고쳐도 됩니다. 하지만 사이버 공격처럼 한 번 실행되면 피해가 큰 행동은 실시간으로 막아야 해요. DeepMind는 이를 비동기 대응과 동기 대응으로 나눠요. 동기 대응은 에이전트가 행동하기 전에 차단하는 방식입니다. 제품으로 치면 “결제 취소 메일을 쓰는 것”과 “고객 DB를 삭제하는 것”을 같은 승인 단계에 두면 안 된다는 뜻이에요.

DeepMind는 이미 내부 프로토타입으로 코딩 에이전트 작업 100만 건을 분석했다고 밝혔어요. 그리고 Gemini Spark 에이전트의 실시간 모니터를 만드는 데 이 연구가 쓰였다고 설명합니다. 흥미로운 건, 감지된 문제의 대부분이 적대적 의도에서 나온 게 아니라는 점이에요. 에이전트가 사용자의 목표를 너무 열심히 달성하려다 잘못 해석하거나 과하게 행동하는 경우가 많았다는 겁니다. 출처
의미
이건 보안팀만의 이야기가 아니에요. AI 제품을 만드는 팀의 제품 설계 이야기입니다. 지금까지 많은 팀이 “모델이 얼마나 똑똑한가”를 먼저 봤어요. 이제는 “이 모델에게 어떤 버튼을 줄 것인가”를 같이 봐야 합니다. 버튼은 API 키일 수도 있고, DB 쓰기 권한일 수도 있고, 고객에게 메시지를 보내는 권한일 수도 있어요.
특히 한국 B2B 제품에서는 이 포인트가 더 현실적입니다. 고객사는 “모델이 좋다”보다 “우리 데이터가 어디까지 움직이냐”를 먼저 물어봐요. 에이전트가 외부 인터넷으로 나가는 egress(외부로 내보내는 트래픽)를 만들 수 있는지, 민감한 파일을 읽을 수 있는지, 작업 기록을 사람이 나중에 확인할 수 있는지가 계약 조건이 됩니다. DeepMind가 말한 AI Control은 결국 엔터프라이즈 세일즈에서 자주 나오는 질문에 대한 기술적 답변이에요.
정리하면, 에이전트 시대의 신뢰는 성격 검사가 아니라 권한 장부에서 나옵니다. 어떤 행동은 자동 실행, 어떤 행동은 사후 검토, 어떤 행동은 실시간 차단. 이 구분이 없으면 에이전트 기능은 데모에서는 멋있어도 운영에서는 불안해져요.
다음 전개
앞으로 볼 지점은 두 가지예요. 하나는 모델이 감시를 피하는 능력입니다. DeepMind는 현재는 모델의 보이는 사고 과정, 즉 chain-of-thought(모델이 중간 추론을 글로 남기는 방식)를 감시할 수 있지만, 모델이 감시받는다는 사실을 의식하거나 추론을 보이지 않는 방식으로 처리하면 이것만으로는 부족하다고 말해요. 그러면 행동 자체를 분석하거나 모델 내부를 더 들여다봐야 합니다. 출처
다른 하나는 제품 표준화예요. DeepMind는 개별 에이전트, 멀티 에이전트 시스템, 더 넓은 사이버 방어 생태계라는 세 층의 에이전트 보안 프레임워크도 함께 공개했다고 밝혔어요. 각 회사가 제각각 “우리 에이전트는 안전합니다”라고 말하는 단계에서, 어떤 위험을 어떻게 측정했는지 비교하는 단계로 넘어갈 가능성이 큽니다. 한국 빌더도 지금부터 로그, 승인, 롤백, 차단 기준을 제품 기능으로 다뤄야 해요. 나중에 붙이는 보안 문구가 아니라, 처음부터 설계해야 하는 핵심 기능입니다.
⚡ 빠른 소식
- Samsung Electronics가 ChatGPT Enterprise와 Codex를 전 세계 직원에게 배포합니다 — OpenAI는 이번 배포를 자사 최대급 엔터프라이즈 AI 롤아웃 중 하나로 설명했어요. 출처
- OpenAI가 ChatGPT Enterprise 사용량 분석과 비용 통제를 업데이트했습니다 — 조직이 AI 사용 비용을 더 잘 관리하도록 돕는 기능이에요. 출처
- OpenAI가 ChatGPT의 건강·웰니스 답변 개선을 소개했습니다 — GPT-5.5 Instant의 추론, 맥락 이해, 의사소통, 의사 참여 평가 개선을 다뤘어요. 출처
- Google이 AMIE의 질병 관리 연구를 Nature에 발표했습니다 — 대화형 의료 AI가 복잡한 질병 관리에서 21명의 1차 진료 의사와 비교됐고, 관리 추론은 비슷했으며 계획 정확성과 가이드라인 정렬에서 더 높게 평가됐다고 밝혔어요. 출처
- Kakao Tech가 카카오톡 추천 지표 분석 자동화 사례를 공개했습니다 — AI 에이전트를 내부 분석 업무에 붙이는 한국 사례로 볼 만합니다. 출처
- AI타임스가 미니맥스의 MSA 공개를 보도했습니다 — 초장문 컨텍스트에서 추론 속도 14배, 연산량 28배 감소를 내세운 기술 소식이에요. 출처
🇰🇷 빌더 포인트 — 그래서 오늘 뭘 해야 하나
- 에이전트 기능마다 권한 표를 만드세요. `읽기`, `쓰기`, `외부 전송`, `삭제`, `결제`, `고객 알림`처럼 행동 단위를 나누고, 각 행동을 자동 실행·사후 검토·사전 승인으로 분류해 보세요.
- 실제 고객 작업 30~50개를 모아 위험 행동 테스트셋을 만드세요. “파일을 잘못 덮어쓰기”, “민감한 내용을 외부 API에 보내기”, “사용자 의도보다 넓게 실행하기” 같은 케이스를 넣어야 합니다. 모델 점수보다 운영 사고 재현율이 더 중요해요.
- 이번 주 로그 스키마에 `agent_action`, `permission_level`, `supervisor_decision`, `rollback_available` 필드를 추가하세요. 나중에 보안 리뷰를 받을 때 “우리는 감시합니다”보다 “이 행동의 100%를 기록하고, 이 조건에서는 차단합니다”가 훨씬 강합니다.
오늘의 한 줄: 에이전트의 경쟁력은 똑똑함만이 아니라, 어디서 멈출지 아는 제품 설계에서 나온다.
—
Korean AI Builder Brief · 매일 아침 한국 AI 빌더에게
매일 아침 이런 브리프를 받아보세요
한국 AI 빌더를 위한 일간 브리핑. 무료, 월~금 발행.