주요 기술 발전 동향
1. 음성 AI와 개인 비서의 진화
- Amazon의 Alexa+ 출시(현재 미국 일부 기기에서 동작, 점진 확대 예정)
- Nova와 Claude를 결합한 LLM으로 자연스러운 대화와 실제 예약/구매 기능 제공
- Prime 회원 무료(일반 $20/월), Amazon Fresh, OpenTable 등과 통합
Alexa+ 개발의 어려움에 대한 기사가 나온지 3달 정도 되었던거 같은데, 만족할만한 결과가 나오는 가 봅니다. 스피커에서 답변의 형식 및 길이가 기존 쳇 기반의 응답하고 다소 다를것 같은데, 어떤 형식으로 구성이 되고 서비스 될지 궁금하네요.
2. 소형 언어 모델의 발전
- Hugging Face의 SmolLM2가 엣지 디바이스용 경량 AI 모델 공개
- 135M, 360M, 1.7B 파라미터 버전으로 제공
- Cosmopedia v2, FineWeb-Edu 등 고품질 데이터셋 활용
바로 노트북에서 실행시켜 봤습니다.
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "HuggingFaceTB/SmolLM2-1.7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)
messages = [{"role": "user", "content": "오픈소스의 장점은 뭐지"}]
input_text = tokenizer.apply_chat_template(messages, tokenize=False)
device = "cpu"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=1024, temperature=0.2, top_p=0.9, do_sample=True)
print(tokenizer.decode(outputs[0]))
<|im_start|>system
You are a helpful AI assistant named SmolLM, trained by Hugging Face<|im_end|>
<|im_start|>user
오픈소스의 장점은 뭐지<|im_end|>
<|im_start|>assistant
오픈소스의 장점은 다음과 같습니다:
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.
튜닝을 하면 좋아질까요? ^^;
3. 비디오 생성 AI 경쟁
- 알리바바의 Wan2.1이 VBench 벤치마크에서 OpenAI Sora를 제치고 1위 달성
- 모션의 부드러움, 텍스트 렌더링, 물리 정확도에서 우수성 입증
- 코드와 모델 바이너리 공개
4. 음성-텍스트 변환 기술 혁신
- ElevenLabs가 Scribe 출시, 99개 언어 지원
- 95% 이상의 정확도로 업계 최고 수준 달성