AI&데이터사이언스

OpenAI DevDay 2024: 개발자를 위한 4가지 혁신 기능 총정리!

UcanCode 2024. 10. 20.
반응형
 

안녕하세요, 유캔코드입니다! 오늘은 OpenAI의 DevDay 2024에서 공개된 최신 소식을 쉽게 풀어볼게요. 작년처럼 엄청난 신제품은 나오지 않았지만, 이번에는 개발자들이 실생활에서 더 실용적으로 사용할 수 있는 기능들이 대거 발표되었습니다. 어떤 내용이 있는지 지금 바로 함께 보시죠!

OpenAI의 DevDay 2024 발표 주요 내용!

(1) 프롬프트 캐싱

첫 번째로 눈에 띄는 건 바로 프롬프트 캐싱이에요.

Caching(캐싱)이란 자주 사용되는 데이터나 결과를 임시 저장소(캐시)에 저장해 두고, 필요할 때 빠르게 가져다 쓰는 기술을 말합니다. 예를 들어, 웹사이트를 방문할 때 웹 브라우저는 이미지나 HTML 파일을 캐시에 저장해 두고, 다음에 방문하면 서버에서 다시 데이터를 가져오지 않고 캐시에서 불러와 로딩 속도가 빨라집니다. 데이터를 다시 다운로드할 필요가 없어 서버 부담이 줄고, 네트워크 사용량이 줄어드는 장점이 있습니다.

그래서 프롬프트 캐싱을 하면 뭐가 좋냐면, 과거에 적었던 프롬프트와 동일한 프롬프트를 입력하면 답변을 만들 때 필요한 비용이 최대 50% 비용이 절감되게 됩니다.

즉, 예전에 물어봤던 거면 50% 할인해주는 거죠!

OpenAI의 제품 책임자인 Olivier Godement(올리비에 고드망)도 "2년 만에 GPT-3 사용 비용을 1000배 줄였다"고 할 정도로 대단한 성과라고 합니다. 이 정도면 인공지능 활용에 대한 진입 장벽이 확 낮아질 것 같네요.

흥미로운 점은 OpenAI의 경쟁사인 Anthropic이 이미 지난 8월에 이 기능을 먼저 도입했으며, 비용을 최대 90%까지 절감할 수 있다고 발표한 바 있습니다.

(2) 비전 파인 튜닝

파인튜닝이란 이미 학습된 머신러닝 모델을 특정 작업이나 도메인에 맞게 추가로 훈련시키는 과정입니다.

영어를 유창하게 배운 사람을 기본 모델이라고 하면, 비지니스 영어를 배우는 작업(파인 튜닝)을 통해 할 수 있습니다.

기존에는 대부분 텍스트에 한해 fine-tuning(미세 조정)이 가능했지만, 이제는 이미지에도 이를 적용할 수 있게 된 것인데요. 사용자가 직접 학습할 이미지를 선택해 모델의 성능을 미세 조정 할 수 있어, 보다 특화되고 개인화된 서비스를 개발할 수 있게 됐습니다.

이건 GPT-4o라는 모델이 이미지와 텍스트를 함께 학습할 수 있게 하는 기능인데요, 이를 통해 자율주행, 의료 영상 분석, 그리고 비주얼 검색 같은 분야에서 큰 발전이 기대됩니다.

OpenAI는 이 기술을 설명하며 '그랩(Grab)'의 사례를 예로 들었습니다.

 

예를 들어, 동남아시아의 대표적인 배달 회사인 Grab은 이 기술을 이용해 이미지 100개만을 사용하여 차선 인식 정확도를 20% 향상시켰고, 속도 제한 표지판 인식도 13% 개선했다고 해요.

OpenAI는 이 기능을 통해 시각 검색, 자율 주행차나 스마트 시티를 위한 객체 감지, 의료 이미지 분석과 같은 다양한 분야의 앱이 발전할 수 있을 것으로 기대하고 있습니다.

 

(3) 실시간 API

세 번째로 소개된 건 실시간 API입니다.

이 API는 음성 대화를 실시간(저지연)으로 주고받을 수 있다는 점이 특징인데요. 겉으로는 크게 특별해 보이지 않을 수 있지만, 자세히 들여다보면 그 의미는 상당히 큽니다.

우선 기존에는 음성 대화를 처리하기 위해 다음과 같은 3단계를 거쳐야 했습니다.

  1. 음성 인식(Speech-to-Text)
  2. 의도 파악 및 답변 생성(GPT 등 AI 모델)
  3. 음성 출력(Text-to-Speech)

이처럼 여러 단계를 거치다 보니 시간과 리소스 면에서 비효율적이었는데요. 게다가 각 단계가 독립된 모델로 이루어져 있어, 처음 입력된 정보(억양이나 높낮이 등)가 중간에 누락되거나 왜곡되는 경우가 많았습니다. 마치 가족오락관의 고요 속의 외침처럼 첫 사람이 전달한 의도가 마지막까지 정확히 전달되지 않아 오답을 말하는 것과 비슷합니다.

Realtime API는 3단계를 하나로 통합하여 기존의 문제점들을 해결했습니다. 하나의 과정으로 처리되기 때문에 시간과 리소스의 효율성이 크게 향상되었고, 입력된 정보도 누락되거나 왜곡되지 않은 상태로 답변을 생성할 수 있게 됐습니다. 특히 웹소켓 방식을 적용하여, 대화가 종료되기 전까지 지속적으로 양방향 통신이 가능해져 지연 시간이 크게 줄어들었습니다.

이 API가 특별한 이유는 그 활용 가능성이 무궁무진하기 때문입니다. 우선 AI 기반의 대화형 영어 학습 서비스의 발전을 기대할 수 있고, 손을 사용할 수 없는 자동차 안에서 음성만으로 다양한 서비스와 기능을 제어할 수 있게 될 것입니다. 또한 예약/AS/구매와 같은 전화 상담원의 역할을 상당 부분 대체할 수 있을 것으로 예상됩니다.

Function Calling 기능을 통해 외부 API와 쉽게 연동하여 금융 정보나 공공 데이터를 자동으로 불러와 제공할 수 있어, 개발자들은 Realtime API 하나만으로도 다양하고 혁신적인 아이디어를 직접 구현해 볼 수 있는 장이 마련됐습니다.

작년에는 Wanderlust라는 여행 앱에서 이 기술을 사용했는데, 이제는 사용자가 앱과 실시간 대화를 나누며 여행 계획을 세울 수 있다고 합니다. 심지어 중간에 말을 끊어도 자연스럽게 이어서 대화가 가능하대요. 이 API를 이용하면 고객 서비스, 교육, 그리고 접근성 도구 같은 곳에서 훨씬 자연스러운 음성 경험을 제공할 수 있을 것 같아요.

[참고]

https://www.wanderlustapp.io/

 

(4) 모델 디스틸레이션

마지막으로 모델 디스틸레이션이라는 기술입니다. 대규모 AI 모델의 성능을 유지하면서도 작은 모델로 효율성을 높이는 방법인데요. 마치 슈퍼카 대신 경차를 타고 가까운 거리를 다니는 것처럼, 상황에 맞게 더 가볍고 저렴한 모델을 사용할 수 있는 기능입니다. 중소형 기업들이 AI를 쉽게 활용할 수 있도록 돕는 매우 유용한 기술이죠.

 

마무리

오늘은 OpenAI의 DevDay 2024에서 발표된 4가지 주요 기능을 알아봤습니다. 올해는 화려한 신제품보다는 실용성에 중점을 둔 기능들이 많았는데요, 이는 개발자들에게 오히려 더 큰 기회를 열어줄 수 있을 것 같아요.

여러분은 어떤 기능이 가장 인상 깊었나요? OpenAI가 앞으로 어떤 방향으로 나아가길 원하시나요? 댓글로 여러분의 생각을 나눠주세요!

그럼 오늘 영상은 여기까지! 유캔코드였습니다. 감사합니다!

 

A Digital Nomad's Ultimate Travel Companion - Wanderlust App

Wanderlust App is your ultimate travel companion helping you find beautiful places to travel to, plan and organize every aspect of your trip.

www.wanderlustapp.io

 

 

 

A Digital Nomad's Ultimate Travel Companion - Wanderlust App

Wanderlust App is your ultimate travel companion helping you find beautiful places to travel to, plan and organize every aspect of your trip.

www.wanderlustapp.io

 

 

 

 

'AI&데이터사이언스' 카테고리의 다른 글

머신러닝 데이터셋 추천  (0) 2023.08.20

댓글

💲 추천 글