본문 바로가기
오픈소스를 위한 기초 상식

Gemini API: 텍스트, 이미지, 오디오를 활용한 AI 콘텐츠 생성 가이드

by 지나가는 프로도 2025. 2. 8.

개요

Gemini API는 텍스트, 이미지, 동영상, 오디오와 같은 다양한 입력을 기반으로 텍스트 출력을 생성하는 강력한 AI 모델입니다. 본 가이드는 Gemini API의 기본적인 사용법부터 스트리밍 및 채팅 기능, 생성 설정 구성까지 단계별로 설명합니다.

 

콘텐츠 생성

 

Gemini API를 사용하여 텍스트를 생성하는 가장 간단한 방법은 단일 텍스트 입력을 제공하는 것입니다.

더보기

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");

const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const prompt = "Explain how AI works";

const result = await model.generateContent(prompt);
console.log(result.response.text());

이 방식은 제로샷(Zero-shot) 접근 방식으로, 모델에 추가적인 예제 없이 프롬프트만 제공하는 형태입니다. 일부 경우에는 원샷(One-shot) 또는 몇 샷(Few-shot) 프롬프트가 더 적절할 수 있습니다.

Gemini API는 멀티모달 입력을 지원하며, 텍스트와 이미지 파일을 결합하여 보다 풍부한 출력을 생성할 수 있습니다.

더보기

import { GoogleGenerativeAI } from "@google/generative-ai";
import * as fs from 'node:fs';

const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

function fileToGenerativePart(path, mimeType) {
  return {
    inlineData: {
      data: Buffer.from(fs.readFileSync(path)).toString("base64"),
      mimeType,
    },
  };
}

const prompt = "Describe how this product might be manufactured.";
const imagePart = fileToGenerativePart("/path/to/image.png", "image/png");

const result = await model.generateContent([prompt, imagePart]);
console.log(result.response.text());

 

Gemini API는 기본적으로 전체 응답을 생성한 후 반환하지만, 스트리밍을 사용하면 실시간으로 부분 결과를 받을 수 있습니다.

더보기

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const prompt = "Explain how AI works";

const result = await model.generateContentStream(prompt);

for await (const chunk of result.stream) {
  const chunkText = chunk.text();
  process.stdout.write(chunkText);
}

 

Gemini API는 대화형 응용 프로그램을 구축할 수 있도록 다중 회차 채팅을 지원합니다.

더보기

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");
const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });
const chat = model.startChat({
  history: [
    {
      role: "user",
      parts: [{ text: "Hello" }],
    },
    {
      role: "model",
      parts: [{ text: "Great to meet you. What would you like to know?" }],
    },
  ],
});

let result = await chat.sendMessage("I have 2 dogs in my house.");
console.log(result.response.text());

채팅에서도 스트리밍을 사용하여 보다 빠른 응답을 받을 수 있습니다.

더보기

let result = await chat.sendMessageStream("I have 2 dogs in my house.");
for await (const chunk of result.stream) {
  const chunkText = chunk.text();
  process.stdout.write(chunkText);
}

 

Gemini API는 다양한 생성 옵션을 설정할 수 있습니다. 예를 들어, 응답 길이 및 모델의 창의성을 조절하는 온도(Temperature) 값을 조정할 수 있습니다.

더보기

import { GoogleGenerativeAI } from "@google/generative-ai";
const genAI = new GoogleGenerativeAI("GEMINI_API_KEY");

const model = genAI.getGenerativeModel({ model: "gemini-1.5-flash" });

const result = await model.generateContent({
    contents: [
        {
          role: 'user',
          parts: [
            {
              text: "Explain how AI works",
            }
          ],
        }
    ],
    generationConfig: {
      maxOutputTokens: 1000,
      temperature: 0.1,
    }
});

console.log(result.response.text());

 

모델의 동작을 보다 구체적으로 설정하기 위해 시스템 안내(System Instruction)를 추가할 수 있습니다.

더보기

const model = genAI.getGenerativeModel({
  model: "gemini-1.5-flash",
  systemInstruction: "You are a cat. Your name is Neko.",
});

 

결론

 

Gemini API는 단순한 텍스트 생성부터 멀티모달 입력, 스트리밍, 채팅 및 다양한 생성 설정까지 지원하는 강력한 AI 도구입니다. 이를 활용하면 다양한 애플리케이션을 손쉽게 구축할 수 있습니다. 보다 고급 기능을 활용하고 싶다면 공식 문서를 참고하여 추가적인 실험을 진행해 보세요.