Conjuntos de dados
Um conjunto de dados é uma coleção estruturada de dados que pode ser usada para fornecer contexto e informações adicionais ao seu bot de IA. É uma maneira de os bots acessarem dados relevantes e usá-los para gerar respostas com base na entrada do usuário. Um conjunto de dados pode incluir informações sobre uma variedade de tópicos, como informações sobre produtos, consultas de atendimento ao cliente ou conhecimento geral.
Bots access datasets as needed during a conversation. A bot can retrieve specific data points or use the data to generate responses based on user input and the data. For example, if a user asks about the price of a product, the bot can use data from a dataset to provide the correct price.
To access a dataset, you must specify the dataset id when starting a conversation with a bot. There is only one dataset allowed per conversation. The number of datasets you can have is determined by your monthly membership or subscription plan. If you need more datasets, you can upgrade your plan or contact customer service for more information.
Como criar um conjunto de dados
Siga estas instruções para criar um novo conjunto de dados.
- Got to "Datasets" from the navigation bar.
- Clique no botão "Create Dataset" (Criar conjunto de dados ).
- Dê um nome ao seu conjunto de dados e forneça uma descrição.
- Salve o conjunto de dados clicando no botão "Create" (Criar ).
Opções avançadas
Há várias opções avançadas que você pode configurar.
Opção | Descrição |
---|---|
Registro de tokens máximos | O número máximo de tokens a serem usados para novos registros. Esse valor só é levado em conta na importação de dados de arquivos e integrações. |
Pontuação mínima da pesquisa | A pontuação pela qual filtrar os resultados da pesquisa. Esse valor depende do tipo de armazenamento do conjunto de dados. |
Pesquisar registros de Max | O número máximo de registros a serem retornados para cada pesquisa de conjunto de dados. |
Pesquisar tokens máximos | O número máximo de tokens a ser usado para todos os registros do conjunto de dados encontrados. Recomenda-se que esse valor seja, no mínimo, Record Max Tokens tokens para caber em um único registro. |
Separadores | Uma lista de separadores a serem usados na tokenização do texto. O texto será dividido em partes, começando com o primeiro separador encontrado. As divisões subsequentes serão feitas usando o próximo separador encontrado, etc. Você pode usar sequências de escape como \n para a nova linha, \t para tabulação, etc. Você deve, no mínimo, incluir os seguintes separadores: "\n\n" e "\n". Se não for especificado, serão usados os separadores padrão. |
Instruções de partida | Instrução de bot opcional a ser usada quando for encontrada uma correspondência de registro de conjunto de dados adequada. |
Instrução de incompatibilidade | Instrução bot opcional a ser usada quando não forem encontrados registros de conjuntos de dados adequados. |
Visibilidade do conjunto de dados | Especifique se você deseja tornar seu conjunto de dados público ou mantê-lo privado. Os conjuntos de dados públicos podem ser encontrados e usados pela comunidade. |
Ícone | Esse ícone será usado na lista de conjuntos de dados ou ao exibir o hub de conjuntos de dados. |
Arquivos
Datasets can have attached files, which can provide additional information and context to the chatbot. These files are automatically split into records, ensuring that the dataset stays organized and up to date. Whenever the files change, the corresponding dataset records are kept in sync, ensuring that the chatbot's responses are always based on the most recent information.
Os seguintes tipos de arquivos são suportados.
Tipo de arquivo | Descrição |
---|---|
texto (.txt ) | Arquivo de texto simples |
markdown (.md ) | Arquivo formatado em Markdown |
csv (.csv ) | Arquivo de valores separados por vírgula |
JSON (.json ) | Arquivo de notação de objeto JavaScript |
JSONL (.jsonl ) | Arquivo de linhas JSON |
DOCX (.docx ) DOC (.doc ) | Arquivo de documento do Microsoft Word |
PPTX (.pptx ) PPT (.ppt ) | Arquivo de documento do Microsoft Powerpoint |
XLSX (.xlsx ) XLS (.xls ) | Arquivo de documento do Microsoft Excel |
PDF (.pdf ) | Arquivo em formato de documento portátil |
Como criar um registro de conjunto de dados
Agora você tem um conjunto de dados vazio, mas não tem nenhum registro. Criar registros também é muito fácil.
- Com o conjunto de dados selecionado, clique no botão "Create Record" (Criar registro ).
- Especifique o texto do registro, esteja ciente da contagem total de tokens.
- Salve o novo registro do conjunto de dados clicando no botão "Create" (Criar ).
Divisão de registros de conjuntos de dados
Se houver mais de um parágrafo no registro do conjunto de dados, talvez você queira dividi-lo em vários registros. Isso nem sempre é necessário, mas pode ajudar a tornar seu conjunto de dados mais organizado. Isso é feito automaticamente para você com base nos parâmetros do conjunto de dados.
Se você usar a importação de URL ou desejar inserir o registro manualmente, há algumas opções adicionais. Simplesmente insira/importe o registro. Em seguida, clique no botão "Create N Records" (Criar N Registros ). O registro será dividido em vários registros com base nas quebras de parágrafo existentes no registro original.
Preenchimento automático de registros de conjuntos de dados
We know that populating your Dataset can be hard especially when you do not have readily available data. This is why we have introduced the Record Autocomplete feature. As you type you can press CTRL+Enter or ⌘+Enter (if you are on Mac) to complete the text using the same generative AI models that are powering your chatbot.
Importação de registros de conjuntos de dados
É possível importar um registro de conjunto de dados de uma página da Web ou de um documento. Para fazer isso, basta pressionar o botão "Import" (Importar ). Digite o endereço da página da Web que deseja importar. Para importar um documento, basta selecioná-lo em seu sistema de arquivos. Em seguida, clique no botão "Importar".
Resumo
In summary, datasets are structured collections of data that can be used to provide additional context and information to a chatbot. Chatbots can use datasets to retrieve specific data points or generate responses based on user input and the data. You can create and customize your own datasets to suit the needs of your chatbot and your users, and you can access them when starting a conversation with a chatbot by specifying the dataset id. There is a limit to the number of datasets you can use, which is determined by your monthly membership or subscription plan.