2024년 2월 28일 AI 동향: Alexa+부터 SmolLM까지

주요 기술 발전 동향

1. 음성 AI와 개인 비서의 진화

Alexa+ 개발의 어려움에 대한 기사가 나온지 3달 정도 되었던거 같은데, 만족할만한 결과가 나오는 가 봅니다. 스피커에서 답변의 형식 및 길이가 기존 쳇 기반의 응답하고 다소 다를것 같은데, 어떤 형식으로 구성이 되고 서비스 될지 궁금하네요.

2. 소형 언어 모델의 발전

  • Hugging Face의 SmolLM2가 엣지 디바이스용 경량 AI 모델 공개
  • 135M, 360M, 1.7B 파라미터 버전으로 제공
  • Cosmopedia v2, FineWeb-Edu 등 고품질 데이터셋 활용

바로 노트북에서 실행시켜 봤습니다.

from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "HuggingFaceTB/SmolLM2-1.7B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint)

messages = [{"role": "user", "content": "오픈소스의 장점은 뭐지"}]
input_text = tokenizer.apply_chat_template(messages, tokenize=False)
device = "cpu"
inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=1024, temperature=0.2, top_p=0.9, do_sample=True)
print(tokenizer.decode(outputs[0]))

<|im_start|>system
You are a helpful AI assistant named SmolLM, trained by Hugging Face<|im_end|>
<|im_start|>user
오픈소스의 장점은 뭐지<|im_end|>
<|im_start|>assistant
오픈소스의 장점은 다음과 같습니다:

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

저장량: 오픈소스는 저장량이 매우 많은 이미지, 동영상, 음성 등을 저장할 수 있습니다.

튜닝을 하면 좋아질까요? ^^;

3. 비디오 생성 AI 경쟁

4. 음성-텍스트 변환 기술 혁신