개요
Gemini API는 텍스트, 이미지, 동영상, 오디오와 같은 다양한 입력을 기반으로 텍스트 출력을 생성하는 강력한 AI 모델입니다. 본 가이드는 Gemini API의 기본적인 사용법부터 스트리밍 및 채팅 기능, 생성 설정 구성까지 단계별로 설명합니다.
콘텐츠 생성
Gemini API를 사용하여 텍스트를 생성하는 가장 간단한 방법은 단일 텍스트 입력을 제공하는 것입니다.
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const prompt = "Explain how AI works";
const result = await model.generateContent(prompt);
console.log(result.response.text());
이 방식은 제로샷(Zero-shot) 접근 방식으로, 모델에 추가적인 예제 없이 프롬프트만 제공하는 형태입니다. 일부 경우에는 원샷(One-shot) 또는 몇 샷(Few-shot) 프롬프트가 더 적절할 수 있습니다.
Gemini API는 멀티모달 입력을 지원하며, 텍스트와 이미지 파일을 결합하여 보다 풍부한 출력을 생성할 수 있습니다.
import { GoogleGenerativeAI } from "@google/generative-ai";
import * as fs from 'node:fs';
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
function fileToGenerativePart(path, mimeType) {
return {
inlineData: {
data: Buffer.from(fs.readFileSync(path)).toString("base64"),
mimeType,
},
};
}
const prompt = "Describe how this product might be manufactured.";
const imagePart = fileToGenerativePart("/path/to/image.png", "image/png");
const result = await model.generateContent([prompt, imagePart]);
console.log(result.response.text());
Gemini API는 기본적으로 전체 응답을 생성한 후 반환하지만, 스트리밍을 사용하면 실시간으로 부분 결과를 받을 수 있습니다.
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const prompt = "Explain how AI works";
const result = await model.generateContentStream(prompt);
for await (const chunk of result.stream) {
const chunkText = chunk.text();
process.stdout.write(chunkText);
}
Gemini API는 대화형 응용 프로그램을 구축할 수 있도록 다중 회차 채팅을 지원합니다.
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const chat = model.startChat({
history: [
{
role: "user",
parts: [{ text: "Hello" }],
},
{
role: "model",
parts: [{ text: "Great to meet you. What would you like to know?" }],
},
],
});
let result = await chat.sendMessage("I have 2 dogs in my house.");
console.log(result.response.text());
채팅에서도 스트리밍을 사용하여 보다 빠른 응답을 받을 수 있습니다.
let result = await chat.sendMessageStream("I have 2 dogs in my house.");
for await (const chunk of result.stream) {
const chunkText = chunk.text();
process.stdout.write(chunkText);
}
Gemini API는 다양한 생성 옵션을 설정할 수 있습니다. 예를 들어, 응답 길이 및 모델의 창의성을 조절하는 온도(Temperature) 값을 조정할 수 있습니다.
import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const result = await model.generateContent({
contents: [
{
role: 'user',
parts: [
{
text: "Explain how AI works",
}
],
}
],
generationConfig: {
maxOutputTokens: 1000,
temperature: 0.1,
}
});
console.log(result.response.text());
모델의 동작을 보다 구체적으로 설정하기 위해 시스템 안내(System Instruction)를 추가할 수 있습니다.
const model = genAI.getGenerativeModel({
model: "gemini-1.5-flash",
systemInstruction: "You are a cat. Your name is Neko.",
});
결론
Gemini API는 단순한 텍스트 생성부터 멀티모달 입력, 스트리밍, 채팅 및 다양한 생성 설정까지 지원하는 강력한 AI 도구입니다. 이를 활용하면 다양한 애플리케이션을 손쉽게 구축할 수 있습니다. 보다 고급 기능을 활용하고 싶다면 공식 문서를 참고하여 추가적인 실험을 진행해 보세요.
'오픈소스를 위한 기초 상식' 카테고리의 다른 글
실습: 객체지향 프로그래밍을 활용한 다양한 프로그램 구현 (0) | 2025.02.16 |
---|---|
오랜만에 파이썬: 함수(Function)와 매개변수(Parameter) (0) | 2025.02.14 |
Gemini API 사용 가이드 (0) | 2025.02.06 |
Gemini API: 인공지능의 새로운 가능성을 열다 (0) | 2025.02.04 |
CSV 파일로 데이터 저장: 데이터 관리와 활용의 첫걸음 (0) | 2025.02.02 |