모델을 잘 만드는 시대에서, 모델을 어떻게 다룰지 고민하는 시대로

생성형Ai강사 이신우 2026. 6. 13. 18:51

2026. 6. 13. 18:51

요즘 AI 뉴스를 보다 보면, 예전처럼 "어떤 모델이 더 똑똑하냐"보다 "그 모델을 누가, 어디까지, 어떻게 쓰게 둘 거냐"는 이야기가 부쩍 많아졌어요. 어제(6월 12일) 나온 소식들도 딱 그런 결이었거든요. 성능 자랑 대신 규제, 인프라, 조직 같은 단어가 앞에 서 있는 하루였습니다.

제일 충격이었던 건 'AI에 빗장을 걸었다'는 소식

개인적으로 가장 눈길이 갔던 건 Anthropic이 최상위 모델 접근을 끊었다는 보도였어요. 미국 정부가 국가안보를 이유로 외국인 접근을 막으라고 명령했고, 결국 Claude Fable 5와 Mythos 5를 전면 중단했다는 거죠. Anthropic 쪽은 "정부가 든 근거가 좀 빈약한데, 어쩔 수 없이 전체 고객을 다 막아야 했다"는 뉘앙스였다고 해요.

솔직히 이건 칩 수출 규제랑은 결이 다른 사건이에요. 이제는 칩이 아니라 '모델에 접속할 권리' 자체가 통제 대상이 된 거니까요. 글로벌하게 서비스 굴리는 입장에서는 등골이 서늘한 이야기입니다. 비슷한 맥락에서 G7 정상회의에 Altman, Hassabis, Amodei 같은 사람들이 줄줄이 참석한다는 소식도 같이 봐야 할 것 같아요. AI가 어느새 정상외교 테이블에 상시로 올라온 의제가 됐다는 거죠.

금융권은 '성능'이 아니라 '통제 가능하냐'를 묻기 시작

국내든 해외든 은행이 AI를 본격적으로 쓰기 시작하면 결국 나올 질문이 나왔어요. 미국 감독당국이 은행 검사에서 AI 사용처랑 데이터 접근, 벤더 리스크, 심지어 '킬스위치'까지 캐묻기 시작했다는 보도인데요. 대출이나 제재 심사 같은 고위험 업무에 AI가 들어가니, 이제는 "잘 맞히냐"가 아니라 "문제 생기면 사람이 끌 수 있냐, 감사 추적이 되냐"가 핵심이 된 거예요. 저는 이게 앞으로 모든 산업의 AI 도입에서 똑같이 반복될 관문이라고 봅니다.

에이전트가 본격화되니 '인프라 효율'이 먼저 발목을 잡네요

좀 더 기술적인 쪽으로는, NVIDIA가 새 에이전트 벤치마크 AgentPerf에서 Blackwell이 선두를 찍었다고 발표했어요. GB300이 이전 세대 대비 메가와트당 최대 20배 많은 에이전트를 돌렸다는데, 숫자보다 기준이 바뀐 게 흥미로워요. 이제는 단순 토큰 처리량이 아니라, 여러 번의 LLM 호출과 도구 호출이 줄줄이 이어지는 긴 작업을 '와트당 몇 개나 굴리냐'로 평가하는 거죠. 에이전트 상용화의 병목이 모델이 아니라 전기요금이 될 수도 있다는 말, 점점 현실감 있게 들립니다.

개발·업무 현장은 조용히 '자동화 도구'가 채워지는 중

덜 화려하지만 실무자 입장에선 더 반가운 소식도 있었어요. Hugging Face가 GitHub PR 흐름 안에서 도는 오픈소스 코드리뷰 도구 Serge를 공개했거든요. 저장소에 둔 정책 파일을 읽어서 리뷰를 달아주는데, 단순히 코멘트만 뱉는 게 아니라 권한이나 포크 PR, 프롬프트 인젝션, 사람 승인 흐름까지 신경 썼다는 점이 인상적이었어요. AI 리뷰를 진짜 협업 프로세스에 끼워 넣을 때 뭐가 문제인지 제대로 짚은 느낌이랄까요. 여기에 OpenAI가 업무용 Academy 과정을 새로 열고, Ai2가 모델 개발용 평가 워크벤치 olmo-eval을 내놓은 것까지 보면, 결국 'AI를 잘 다루는 법' 자체가 시장이 되어가고 있다는 게 보여요.

마지막으로 Zuckerberg가 Meta의 AI 조직 개편에서 "실수가 있었다"고 인정한 소식도 가볍게 짚고 넘어갈게요. 기술 경쟁만큼이나 사람과 조직을 어떻게 끌고 갈지가 어렵다는 걸 빅테크도 똑같이 겪고 있구나 싶더라고요.

정리하면, 어제 하루는 'AI를 더 똑똑하게'가 아니라 'AI를 어떻게 통제하고, 어디에 안전하게 끼워 넣을지'에 관한 이야기로 가득했어요. 저는 이 흐름이 당분간 더 진해질 거라고 봅니다. 모델 성능 그래프보다, 규제 문서랑 운영 매뉴얼을 더 자주 들여다보게 되는 한 해가 될 것 같네요.

미래이음연구소