voltar para tutoriais

Como treinar seu próprio ChatGPT com seus dados

Saiba como treinar seu próprio ChatGPT com seus dados personalizados usando os conjuntos de dados do ChatBotKit. Siga as instruções passo a passo para criar e configurar conjuntos de dados, adicionar arquivos e integrações e criar registros de conjuntos de dados. Comece a criar seu próprio bot de IA conversacional hoje mesmo!

ChatGPT, um termo cunhado pela OpenAI, é frequentemente usado como um termo abrangente para descrever qualquer modelo de linguagem grande (LLM). Trata-se de uma interface de chatbot que permite a comunicação com modelos de IA de forma conversacional. Hoje, discutiremos como você pode treinar seu próprio "ChatGPT" com dados personalizados usando os conjuntos de dados do ChatBotKit.

Before we proceed, let's understand what datasets are in the context of AI.

O que são conjuntos de dados?

A dataset is a structured collection of data that can be used to provide additional context and information to your AI bot. It could include information on a variety of topics, such as product information, customer service queries, or general knowledge. Bots access datasets as needed during a conversation to generate responses based on user input and the data.

Guia passo a passo para usar os conjuntos de dados do ChatBotKit

1. Criação de um conjunto de dados

Primeiro, você precisa criar um novo conjunto de dados seguindo estas etapas:

  1. Go to "Datasets" from the navigation bar.
  2. Clique no botão "Create Dataset" (Criar conjunto de dados).
  3. Dê um nome ao seu conjunto de dados e forneça uma descrição.
  4. Salve o conjunto de dados clicando no botão "Create" (Criar).

2. Configuração das opções avançadas

ChatBotKit provides several advanced options you can configure, including:

  • Máximo de tokens de registro: O número máximo de tokens a serem usados para novos registros.
  • Máximo de registros e tokens da pesquisa: O número máximo de registros e tokens a serem usados para cada pesquisa de conjunto de dados.
  • Instruções de correspondência e incompatibilidade: Instruções de bot opcionais a serem usadas quando uma correspondência de registro de conjunto de dados for encontrada ou não encontrada.
  • Visibilidade do conjunto de dados: Especifique se você deseja tornar seu conjunto de dados público ou mantê-lo privado.

3. Adição de arquivos a conjuntos de dados

Os conjuntos de dados podem ter arquivos anexados, que fornecem informações e contexto adicionais. Os tipos de arquivos compatíveis incluem .txt, .md, .csv, .json, .jsonl, .docx e .pdf. Esses arquivos são automaticamente divididos em registros, mantendo o conjunto de dados organizado e atualizado.

4. Adição de integrações

To automate the population of your datasets, you can take advantage of a variety of integrations. For instance, our Sitemap integration, also known as website importer, allows you to import data directly from your website into your dataset. Our Notion integration, known as Notion importer, enables you to seamlessly import data from your Notion documents. These integrations can significantly simplify the process of maintaining and updating your datasets, thus enhancing the performance and effectiveness of your bot.

5. Criação de um registro de conjunto de dados

Também é possível criar registros manualmente seguindo estas etapas:

  1. Com o conjunto de dados selecionado, clique no botão "Create Record" (Criar registro).
  2. Especifique o texto do registro, tendo em mente a contagem total de tokens.
  3. Salve o novo registro do conjunto de dados clicando no botão "Create" (Criar).

Lembre-se de que, se o registro do conjunto de dados tiver mais de um parágrafo, talvez seja necessário dividi-lo em vários registros.

Palavras finais

By following these steps, you can successfully create and train your own ChatGPT-like bot using your custom data with ChatBotKit Datasets. Remember to experiment, iterate, and improve your datasets and models over time to achieve the best results. Happy training!