텍스트를 한 글자씩 안 뽑는다고? 요즘 AI 판이 좀 이상하게 재밌어졌어요

생성형Ai강사 이신우 2026. 6. 13. 18:48

2026. 6. 13. 18:48

요즘 AI 뉴스를 보다 보면, 모델 성능 자랑보다 "그래서 그걸 어디서 어떻게 굴릴 건데?"라는 이야기가 부쩍 많아졌다는 느낌을 받거든요. 6월 10일 자 소식들도 딱 그랬어요. 똑똑한 모델 하나 나왔다는 단발성 뉴스가 아니라, 추론 방식 자체를 바꾸려는 시도랑 그걸 받쳐줄 인프라 돈싸움이 한 덩어리로 굴러가는 느낌이랄까요. 개인적으로 제일 흥미로웠던 세 가지만 풀어볼게요.

"한 글자씩 뽑는다"는 상식이 흔들리는 중

제일 눈길이 갔던 건 구글이 내놓은 DiffusionGemma 개발자 가이드예요. 우리가 아는 LLM은 토큰을 앞에서부터 하나씩 순서대로 뱉잖아요. 그런데 이건 256토큰짜리 캔버스를 통째로 깔아놓고 확산(diffusion) 방식으로 계속 다듬어가면서 병렬로 만든다는 거예요. 이미지 생성에서 쓰던 방식을 텍스트로 끌고 온 셈이죠. 자기가 쓴 걸 중간에 고칠 수도 있고요.

솔직히 데모만 보면 "오 신기하다" 정도일 수 있는데, 제가 주목한 건 속도 얘기예요. 전용 GPU에서 최대 4배 빠른 생성이 가능하다고 하더라고요. 여기에 NVIDIA가 바로 붙어서 RTX·DGX 환경에 최적화했다고 발표했어요. 모델 공개랑 하드웨어 최적화가 거의 동시에 나왔다는 게 핵심인데요. 결국 "내 PC에서 빠르게 돌리는 로컬 AI"를 진지하게 밀고 있다는 신호로 읽혔어요. 추론 비용이랑 지연시간이 실시간 에이전트 경험을 좌우하는 시대라, 이 흐름은 꽤 오래갈 것 같습니다.

이제 진짜 싸움은 '돈과 전기'에서 난다

두 번째 덩어리는 좀 건조하지만 그래서 더 중요한 이야기예요. OpenAI가 Oracle Cloud 크레딧으로 자사 모델이랑 Codex를 쓸 수 있게 길을 텄어요. 기업 입장에선 이미 승인받은 클라우드 예산 안에서 바로 AI를 도입할 수 있다는 거라, 이게 생각보다 큰 차이거든요. AI 도입의 병목이 "좋은 모델이 없어서"가 아니라 "결제·조달 절차가 막혀서"로 옮겨갔다는 걸 보여주는 장면이에요.

같은 날 Meta는 인도 Reliance와 손잡고 인도 첫 AI 데이터센터 계약을 맺었고요. 한편으로 Reuters는 Oracle이 AI 인프라에 예상보다 훨씬 많은 돈을 쏟으면서 부채 우려가 커진다고 짚었어요. 한쪽은 땅이랑 전력을 확보하려 뛰고, 한쪽은 그 청구서를 걱정하는 거죠. 모델 경쟁이 사실상 데이터센터·전력·자본 조달 경쟁으로 바뀌었다는 게 이제는 부정하기 어려운 현실 같아요.

물리 세계로 나온 AI, 그리고 따라붙는 안전 문제

마지막은 화면 밖으로 나온 AI 이야기예요. Decart라는 스타트업이 실시간 포토리얼 주행 환경을 만들어내는 월드모델 Oasis 3를 API로 공개했어요. 자율주행·로보틱스 개발자가 긴 주행 시나리오를 직접 생성하고 상호작용할 수 있다는 건데, 데이터 모으고 검증하는 비용을 크게 줄일 수 있다는 점에서 흥미로웠어요. 물론 한계도 있다고 하니 과한 기대는 금물이고요.

NVIDIA가 로보택시용 Halos OS로 "안전은 나중에 붙이는 게 아니라 처음부터 설계에 박아넣어야 한다"고 강조한 것도 같은 맥락이에요. 다만 그 반대편엔 그늘도 있더라고요. xAI에선 Grok 안전 우려를 제기한 엔지니어가 해고됐다며 소송이 걸렸고, Anthropic은 빠른 발전 속도에 맞춰 정책 자체를 다시 설계하자는 제안을 내놨어요. AI 안전이 더 이상 기술 문제만이 아니라 조직 문화랑 법적 책임의 영역으로 번지고 있다는 게 와닿았습니다.

정리하면, 이날 뉴스는 "더 똑똑한 AI"보다 "더 싸고 빠르게, 그리고 안전하게 굴리는 AI"로 무게추가 넘어간 하루였어요. 화려한 신모델 발표가 없어도 이런 날이 사실 판이 어디로 가는지 더 잘 보여주는 것 같습니다. 다음 주엔 또 어떤 청구서와 모델이 나올지, 저도 좀 두근거리네요. 🙂

미래이음연구소