Большая языковая модель
Часть серии о |
Машинное обучение и интеллектуальный анализ данных |
---|
Модель большого языка ( LLM ) — это вычислительная модель, известная своей способностью генерировать языки общего назначения и выполнять другие задачи обработки естественного языка, такие как классификация . Основываясь на языковых моделях , LLM приобретают эти способности, изучая статистические взаимосвязи из огромных объемов текста в ходе интенсивного вычислительного процесса обучения с самоконтролем и полуконтролем . [1] LLM можно использовать для генерации текста — формы генеративного искусственного интеллекта — путем взятия входного текста и многократного прогнозирования следующего токена или слова. [2]
LLM — это искусственные нейронные сети , использующие архитектуру трансформатора , изобретенную в 2017 году. Самые крупные и наиболее мощные LLM по состоянию на июнь 2024 года. [update], построены на базе преобразовательной архитектуры, состоящей только из декодера, что обеспечивает эффективную обработку и генерацию крупномасштабных текстовых данных.
Historically, up to 2020, fine-tuning was the primary method used to adapt a model for specific tasks. However, larger models such as GPT-3 have demonstrated the ability to achieve similar results through prompt engineering, which involves crafting specific input prompts to guide the model's responses.[3] These models acquire knowledge about syntax, semantics, and ontologies[4] inherent in human language corpora, but they also inherit inaccuracies and biases present in the data they are trained on.[5]
Some notable LLMs are OpenAI's GPT series of models (e.g., GPT-3.5, GPT-4 and GPT-4o; used in ChatGPT and Microsoft Copilot), Google's Gemini (the latter of which is currently used in the chatbot of the same name), Meta's LLaMA family of models, Anthropic's Claude models, and Mistral AI's models.
History
[edit]Before 2017, there were a few language models that were large as compared to capacities then available. In the 1990s, the IBM alignment models pioneered statistical language modelling. A smoothed n-gram model in 2001 trained on 0.3 billion words achieved then-SOTA perplexity.[6] In the 2000s, as Internet use became prevalent, some researchers constructed Internet-scale language datasets ("web as corpus"[7]), upon which they trained statistical language models.[8][9] In 2009, in most language processing tasks, statistical language models dominated over symbolic language models, as they can usefully ingest large datasets.[10]
After neural networks became dominant in image processing around 2012, they were applied to language modelling as well. Google converted its translation service to Neural Machine Translation in 2016. As it was before Transformers, it was done by seq2seq deep LSTM networks.
At the 2017 NeurIPS conference, Google researchers introduced the transformer architecture in their landmark paper "Attention Is All You Need". This paper's goal was to improve upon 2014 Seq2seq technology,[11] and was based mainly on the attention mechanism developed by Bahdanau et al. in 2014.[12] The following year in 2018, BERT was introduced and quickly became "ubiquitous".[13] Though the original transformer has both encoder and decoder blocks, BERT is an encoder-only model.
Although decoder-only GPT-1 was introduced in 2018, it was GPT-2 in 2019 that caught widespread attention because OpenAI at first deemed it too powerful to release publicly, out of fear of malicious use.[14] GPT-3 in 2020 went a step further and as of 2024[update] is available only via API with no offering of downloading the model to execute locally. But it was the 2022 consumer-facing browser-based ChatGPT that captured the imaginations of the general population and caused some media hype and online buzz.[15] The 2023 GPT-4 was praised for its increased accuracy and as a "holy grail" for its multimodal capabilities.[16] OpenAI did not reveal high-level architecture and the number of parameters of GPT-4.
Competing language models have for the most part been attempting to equal the GPT series, at least in terms of number of parameters.[17]
Since 2022, source-available models have been gaining popularity, especially at first with BLOOM and LLaMA, though both have restrictions on the field of use. Mistral AI's models Mistral 7B and Mixtral 8x7b have the more permissive Apache License. As of June 2024[update], The Instruction fine tuned variant of the Llama 3 70 billion parameter model is the most powerful open LLM according to the LMSYS Chatbot Arena Leaderboard, being more powerful than GPT-3.5 but not as powerful as GPT-4.[18]
As of 2024, the largest and most capable models are all based on the Transformer architecture. Some recent implementations are based on other architectures, such as recurrent neural network variants and Mamba (a state space model).[19][20][21]
Dataset preprocessing
[edit]Probabilistic tokenization
[edit]Because machine learning algorithms process numbers rather than text, the text must be converted to numbers. In the first step, a vocabulary is decided upon, then integer indexes are arbitrarily but uniquely assigned to each vocabulary entry, and finally, an embedding is associated to the integer index. Algorithms include byte-pair encoding and WordPiece.
Probabilistic tokenization also compresses the datasets. Because LLMs generally require input to be an array that is not jagged, the shorter texts must be "padded" until they match the length of the longest one. How many tokens are, on average, needed per word depends on the language of the dataset.[22][23]
BPE
[edit]Using a modification of byte-pair encoding, in the first step, all unique characters (including blanks and punctuation marks) are treated as an initial set of n-grams (i.e. initial set of uni-grams). Successively the most frequent pair of adjacent characters is merged into a bi-gram and all instances of the pair are replaced by it. All occurrences of adjacent pairs of (previously merged) n-grams that most frequently occur together are then again merged into even lengthier n-gram repeatedly until a vocabulary of prescribed size is obtained (in case of GPT-3, the size is 50257).[24] Token vocabulary consists of integers, spanning from zero up to the size of the token vocabulary. New words can always be interpreted as combinations of the tokens and the initial-set uni-grams.[25]
A token vocabulary based on the frequencies extracted from mainly English corpora uses as few tokens as possible for an average English word. An average word in another language encoded by such an English-optimized tokenizer is however split into suboptimal amount of tokens. GPT-2 tokenizer can use up to 15 times more tokens per word for some languages, for example for the Shan language from Myanmar. Even more widespread languages such as Portuguese and German have "a premium of 50%" compared to English.[26]
For example, here is how tokenizer used by GPT-3 (Legacy) split the following sentence tokenizer: texts -> series of numerical "tokens"
.
token | izer | : | texts | -> | series | of | numerical | " | t | ok | ens | " |
Dataset cleaning
[edit]In the context of training LLMs, datasets are typically cleaned by removing toxic passages from the dataset, discarding low-quality data, and de-duplication.[27] Cleaned datasets can increase training efficiency and lead to improved downstream performance.[28][29] A trained LLM can be used to clean datasets for training a further LLM.[30]
With the increasing proportion of LLM-generated content on the web, data cleaning in the future may include filtering out such content. LLM-generated content can pose a problem if the content is similar to human text (making filtering difficult) but of lower quality (degrading performance of models trained on it).[31]
Synthetic data
[edit]Training of largest language models might need more linguistic data than naturally available, or that the naturally occurring data is of insufficient quality. In these cases, synthetic data might be used. Microsoft's Phi series of LLMs is trained on textbook-like data generated by another LLM.[32]
Training and architecture
[edit]Reinforcement learning from human feedback (RLHF)
[edit]Reinforcement learning from human feedback (RLHF) through algorithms, such as proximal policy optimization, is used to further fine-tune a model based on a dataset of human preferences.[33]
Instruction tuning
[edit]Using "self-instruct" approaches, LLMs have been able to bootstrap correct responses, replacing any naive responses, starting from human-generated corrections of a few cases. For example, in the instruction "Write an essay about the main themes represented in Hamlet," an initial naive completion might be "If you submit the essay after March 17, your grade will be reduced by 10% for each day of delay," based on the frequency of this textual sequence in the corpus.[34]
Mixture of experts
[edit]The largest LLM may be too expensive to train and use directly. For such models, mixture of experts (MoE) can be applied, a line of research pursued by Google researchers since 2017 to train models reaching up to 1 trillion parameters.[35][36][37]
Prompt engineering, attention mechanism, and context window
[edit]Most results previously achievable only by (costly) fine-tuning, can be achieved through prompt engineering, although limited to the scope of a single conversation (more precisely, limited to the scope of a context window).[38]
In order to find out which tokens are relevant to each other within the scope of the context window, the attention mechanism calculates "soft" weights for each token, more precisely for its embedding, by using multiple attention heads, each with its own "relevance" for calculating its own soft weights. For example, the small (i.e. 117M parameter sized) GPT-2 model has had twelve attention heads and a context window of only 1k token.[40] In its medium version it has 345M parameters and contains 24 layers, each with 12 attention heads. For the training with gradient descent a batch size of 512 was utilized.[25]
The largest models, such as Google's Gemini 1.5, presented in February 2024, can have a context window sized up to 1 million (context window of 10 million was also "successfully tested").[41] Other models with large context windows includes Anthropic's Claude 2.1, with a context window of up to 200k tokens.[42] Note that this maximum refers to the number of input tokens and that the maximum number of output tokens differs from the input and is often smaller. For example, the GPT-4 Turbo model has a maximum output of 4096 tokens.[43]
Length of a conversation that the model can take into account when generating its next answer is limited by the size of a context window, as well. If the length of a conversation, for example with ChatGPT, is longer than its context window, only the parts inside the context window are taken into account when generating the next answer, or the model needs to apply some algorithm to summarize the too distant parts of conversation.
The shortcomings of making a context window larger include higher computational cost and possibly diluting the focus on local context, while making it smaller can cause a model to miss an important long-range dependency. Balancing them are a matter of experimentation and domain-specific considerations.
A model may be pre-trained either to predict how the segment continues, or what is missing in the segment, given a segment from its training dataset.[44] It can be either
- autoregressive (i.e. predicting how the segment continues, the way GPTs do it): for example given a segment "I like to eat", the model predicts "ice cream", or "sushi".
- "masked" (i.e. filling in the parts missing from the segment, the way "BERT"[45] does it): for example, given a segment "I like to
[__] [__]
cream", the model predicts that "eat" and "ice" are missing.
Models may be trained on auxiliary tasks which test their understanding of the data distribution, such as Next Sentence Prediction (NSP), in which pairs of sentences are presented and the model must predict whether they appear consecutively in the training corpus.[45] During training, regularization loss is also used to stabilize training. However regularization loss is usually not used during testing and evaluation.
Infrastructure
[edit]Substantial infrastructure is necessary for training the largest models.[46][47][48]
Training cost
[edit]Advances in software and hardware have reduced the cost substantially since 2020, such that in 2023 training of a 12-billion-parameter LLM computational cost is 72,300 A100-GPU-hours, while in 2020 the cost of training a 1.5-billion-parameter LLM (which was two orders of magnitude smaller than the state of the art in 2020) was between $80 thousand and $1.6 million.[49][50][51] Since 2020, large sums were invested in increasingly large models. For example, training of the GPT-2 (i.e. a 1.5-billion-parameters model) in 2019 cost $50,000, while training of the PaLM (i.e. a 540-billion-parameters model) in 2022 cost $8 million, and Megatron-Turing NLG 530B (in 2021) cost around $11 million.[52]
For Transformer-based LLM, training cost is much higher than inference cost. It costs 6 FLOPs per parameter to train on one token, whereas it costs 1 to 2 FLOPs per parameter to infer on one token.[53]
Tool use
[edit]There are certain tasks that, in principle, cannot be solved by any LLM, at least not without the use of external tools or additional software. An example of such a task is responding to the user's input '354 * 139 = ', provided that the LLM has not already encountered a continuation of this calculation in its training corpus. In such cases, the LLM needs to resort to running program code that calculates the result, which can then be included in its response. Another example is 'What is the time now? It is ', where a separate program interpreter would need to execute a code to get system time on the computer, so LLM could include it in its reply.[54][55] This basic strategy can be sophisticated with multiple attempts of generated programs, and other sampling strategies.[56]
Generally, in order to get an LLM to use tools, one must finetune it for tool-use. If the number of tools is finite, then finetuning may be done just once. If the number of tools can grow arbitrarily, as with online API services, then the LLM can be fine-tuned to be able to read API documentation and call API correctly.[57][58]
A simpler form of tool use is retrieval-augmented generation: the augmentation of an LLM with document retrieval. Given a query, a document retriever is called to retrieve the most relevant documents. This is usually done by encoding the query and the documents into vectors, then finding the documents with vectors (usually stored in a vector database) most similar to the vector of the query. The LLM then generates an output based on both the query and context included from the retrieved documents.[59]
Agency
[edit]An LLM is a language model, which is not an agent as it has no goal, but it can be used as a component of an intelligent agent.[60] Researchers have described several methods for such integrations.[citation needed]
The ReAct pattern, a portmanteau of "Reason + Act", constructs an agent out of an LLM, using the LLM as a planner. The LLM is prompted to "think out loud". Specifically, the language model is prompted with a textual description of the environment, a goal, a list of possible actions, and a record of the actions and observations so far. It generates one or more thoughts before generating an action, which is then executed in the environment.[61] The linguistic description of the environment given to the LLM planner can even be the LaTeX code of a paper describing the environment.[62]
In the DEPS ("Describe, Explain, Plan and Select") method, an LLM is first connected to the visual world via image descriptions, then it is prompted to produce plans for complex tasks and behaviors based on its pretrained knowledge and environmental feedback it receives.[63]
The Reflexion method[64] constructs an agent that learns over multiple episodes. At the end of each episode, the LLM is given the record of the episode, and prompted to think up "lessons learned", which would help it perform better at a subsequent episode. These "lessons learned" are given to the agent in the subsequent episodes.[citation needed]
Monte Carlo tree search can use an LLM as rollout heuristic. When a programmatic world model is not available, an LLM can also be prompted with a description of the environment to act as world model.[65]
For open-ended exploration, an LLM can be used to score observations for their "interestingness", which can be used as a reward signal to guide a normal (non-LLM) reinforcement learning agent.[66] Alternatively, it can propose increasingly difficult tasks for curriculum learning.[67] Instead of outputting individual actions, an LLM planner can also construct "skills", or functions for complex action sequences. The skills can be stored and later invoked, allowing increasing levels of abstraction in planning.[67]
LLM-powered agents can keep a long-term memory of its previous contexts, and the memory can be retrieved in the same way as Retrieval Augmented Generation. Multiple such agents can interact socially.[68]
Compression
[edit]Typically, LLMs are trained with single- or half-precision floating point numbers (float32 and float16). One float16 has 16 bits, or 2 bytes, and so one billion parameters require 2 gigabytes. The largest models typically have 100 billion parameters, requiring 200 gigabytes to load, which places them outside the range of most consumer electronics.[69]
Post-training quantization[70] aims to decrease the space requirement by lowering precision of the parameters of a trained model, while preserving most of its performance.[71][72] The simplest form of quantization simply truncates all numbers to a given number of bits. It can be improved by using a different quantization codebook per layer. Further improvement can be done by applying different precisions to different parameters, with higher precision for particularly important parameters ("outlier weights").[73] See [74] for a visual guide.
While quantized models are typically frozen, and only pre-quantized models are fine-tuned, quantized models can still be fine-tuned.[75]
Multimodality
[edit]Multimodality means "having several modalities", and a "modality" refers to a type of input or output, such as video, image, audio, text, proprioception, etc.[76] There have been many AI models trained specifically to ingest one modality and output another modality, such as AlexNet for image to label,[77] visual question answering for image-text to text,[78] and speech recognition for speech to text.
A common method to create multimodal models out of an LLM is to "tokenize" the output of a trained encoder. Concretely, one can construct an LLM that can understand images as follows: take a trained LLM, and take a trained image encoder . Make a small multilayered perceptron , so that for any image , the post-processed vector has the same dimensions as an encoded token. That is an "image token". Then, one can interleave text tokens and image tokens. The compound model is then fine-tuned on an image-text dataset. This basic construction can be applied with more sophistication to improve the model. The image encoder may be frozen to improve stability.[79]
Flamingo demonstrated the effectiveness of the tokenization method, finetuning a pair of pretrained language model and image encoder to perform better on visual question answering than models trained from scratch.[80] Google PaLM model was fine-tuned into a multimodal model PaLM-E using the tokenization method, and applied to robotic control.[81] LLaMA models have also been turned multimodal using the tokenization method, to allow image inputs,[82] and video inputs.[83]
GPT-4 can use both text and image as inputs[84] (although the vision component was not released to the public until GPT-4V[85]); Google DeepMind's Gemini is also multimodal.[86]
Properties
[edit]Scaling laws
[edit]The following four hyper-parameters characterize an LLM:
- cost of (pre-)training (),
- size of the artificial neural network itself, such as number of parameters (i.e. amount of neurons in its layers, amount of weights between them and biases),
- size of its (pre-)training dataset (i.e. number of tokens in corpus, ),
- performance after (pre-)training.
They are related by simple statistical laws, called "scaling laws". One particular scaling law ("Chinchilla scaling") for LLM autoregressively trained for one epoch, with a log-log learning rate schedule, states that:[87] where the variables are
- is the cost of training the model, in FLOPs.
- is the number of parameters in the model.
- is the number of tokens in the training set.
- is the average negative log-likelihood loss per token (nats/token), achieved by the trained LLM on the test dataset.
and the statistical hyper-parameters are
- , meaning that it costs 6 FLOPs per parameter to train on one token. Note that training cost is much higher than inference cost, where it costs 1 to 2 FLOPs per parameter to infer on one token.[53]
Emergent abilities
[edit]Performance of bigger models on various tasks, when plotted on a log-log scale, appears as a linear extrapolation of performance achieved by smaller models. However, this linearity may be punctuated by "break(s)"[88] in the scaling law, where the slope of the line changes abruptly, and where larger models acquire "emergent abilities".[38][89] They arise from the complex interaction of the model's components and are not explicitly programmed or designed.[2]
The most intriguing among emergent abilities is in-context learning from example demonstrations.[90] In-context learning is involved in tasks, such as:
- reported arithmetics, decoding the International Phonetic Alphabet, unscrambling a word's letters, disambiguate word in context,[38][91][92] converting spatial words, cardinal directions (for example, replying "northeast" upon [0, 0, 1; 0, 0, 0; 0, 0, 0]), color terms represented in text.[93]
- chain-of-thought prompting: Model outputs are improved by chain-of-thought prompting only when model size exceeds 62B. Smaller models perform better when prompted to answer immediately, without chain of thought.[94]
- identifying offensive content in paragraphs of Hinglish (a combination of Hindi and English), and generating a similar English equivalent of Kiswahili proverbs.[95]
Schaeffer et. al. argue that the emergent abilities are not unpredictably acquired, but predictably acquired according to a smooth scaling law. The authors considered a toy statistical model of an LLM solving multiple-choice questions, and showed that this statistical model, modified to account for other types of tasks, applies to these tasks as well.[96]
Let be the number of parameter count, and be the performance of the model.
- When , then is an exponential curve (before it hits the plateau at one), which looks like emergence.
- When , then the plot is a straight line (before it hits the plateau at zero), which does not look like emergence.
- When , then is a step-function, which looks like emergence.
Interpretation
[edit]Large language models by themselves are "black boxes", and it is not clear how they can perform linguistic tasks. There are several methods for understanding how LLM work.
Mechanistic interpretability aims to reverse-engineer LLM by discovering symbolic algorithms that approximate the inference performed by LLM. One example is Othello-GPT, where a small Transformer is trained to predict legal Othello moves. It is found that there is a linear representation of Othello board, and modifying the representation changes the predicted legal Othello moves in the correct way.[97][98] In another example, a small Transformer is trained on Karel programs. Similar to the Othello-GPT example, there is a linear representation of Karel program semantics, and modifying the representation changes output in the correct way. The model also generates correct programs that are on average shorter than those in the training set.[99]
In another example, the authors trained small transformers on modular arithmetic addition. The resulting models were reverse-engineered, and it turned out they used discrete Fourier transform.[100]
Understanding and intelligence
[edit]NLP researchers were evenly split when asked, in a 2022 survey, whether (untuned) LLMs "could (ever) understand natural language in some nontrivial sense".[101] Proponents of "LLM understanding" believe that some LLM abilities, such as mathematical reasoning, imply an ability to "understand" certain concepts. A Microsoft team argued in 2023 that GPT-4 "can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more" and that GPT-4 "could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence system": "Can one reasonably say that a system that passes exams for software engineering candidates is not really intelligent?"[102][103] Some researchers characterize LLMs as "alien intelligence".[104][105] For example, Conjecture CEO Connor Leahy considers untuned LLMs to be like inscrutable alien "Shoggoths", and believes that RLHF tuning creates a "smiling facade" obscuring the inner workings of the LLM: "If you don't push it too far, the smiley face stays on. But then you give it [an unexpected] prompt, and suddenly you see this massive underbelly of insanity, of weird thought processes and clearly non-human understanding."[106][107]
In contrast, some proponents of the "LLMs lack understanding" school believe that existing LLMs are "simply remixing and recombining existing writing",[105] a phenomenon known as stochastic parrot, or they point to the deficits existing LLMs continue to have in prediction skills, reasoning skills, agency, and explainability.[101] For example, GPT-4 has natural deficits in planning and in real-time learning.[103] Generative LLMs have been observed to confidently assert claims of fact which do not seem to be justified by their training data, a phenomenon which has been termed "hallucination".[108] Specifically, hallucinations in the context of LLMs correspond to the generation of text or responses that seem syntactically sound, fluent, and natural but are factually incorrect, nonsensical, or unfaithful to the provided source input.[109] Neuroscientist Terrence Sejnowski has argued that "The diverging opinions of experts on the intelligence of LLMs suggests that our old ideas based on natural intelligence are inadequate".[101]
The matter of LLM's exhibiting intelligence or understanding has two main aspects – the first is how to model thought and language in a computer system, and the second is how to enable the computer system to generate human like language.[101] These aspects of language as a model of cognition have been developed in the field of cognitive linguistics. American linguist George Lakoff presented Neural Theory of Language (NTL)[110] as a computational basis for using language as a model of learning tasks and understanding. The NTL Model outlines how specific neural structures of the human brain shape the nature of thought and language and in turn what are the computational properties of such neural systems that can be applied to model thought and language in a computer system. After a framework for modeling language in a computer systems was established, the focus shifted to establishing frameworks for computer systems to generate language with acceptable grammar. In his 2014 book titled The Language Myth: Why Language Is Not An Instinct, British cognitive linguist and digital communication technologist Vyvyan Evans mapped out the role of probabilistic context-free grammar (PCFG) in enabling NLP to model cognitive patterns and generate human like language.[111][112]
Evaluation
[edit]Perplexity
[edit]The most commonly used measure of a language model's performance is its perplexity on a given text corpus. Perplexity is a measure of how well a model is able to predict the contents of a dataset; the higher the likelihood the model assigns to the dataset, the lower the perplexity. Mathematically, perplexity is defined as the exponential of the average negative log likelihood per token:here is the number of tokens in the text corpus, and "context for token " depends on the specific type of LLM used. If the LLM is autoregressive, then "context for token " is the segment of text appearing before token . If the LLM is masked, then "context for token " is the segment of text surrounding token .
Because language models may overfit to their training data, models are usually evaluated by their perplexity on a test set of unseen data.[45] This presents particular challenges for the evaluation of large language models. As they are trained on increasingly large corpora of text largely scraped from the web, it becomes increasingly likely that models' training data inadvertently includes portions of any given test set.[3]
BPW, BPC, and BPT
[edit]In information theory, the concept of entropy is intricately linked to perplexity, a relationship notably established by Claude Shannon.[113] This relationship is mathematically expressed as .
Entropy, in this context, is commonly quantified in terms of bits per word (BPW) or bits per character (BPC), which hinges on whether the language model utilizes word-based or character-based tokenization.
Notably, in the case of larger language models that predominantly employ sub-word tokenization, bits per token (BPT) emerges as a seemingly more appropriate measure. However, due to the variance in tokenization methods across different Large Language Models (LLMs), BPT does not serve as a reliable metric for comparative analysis among diverse models. To convert BPT into BPW, one can multiply it by the average number of tokens per word.
In the evaluation and comparison of language models, cross-entropy is generally the preferred metric over entropy. The underlying principle is that a lower BPW is indicative of a model's enhanced capability for compression. This, in turn, reflects the model's proficiency in making accurate predictions.
Task-specific datasets and benchmarks
[edit]A large number of testing datasets and benchmarks have also been developed to evaluate the capabilities of language models on more specific downstream tasks. Tests may be designed to evaluate a variety of capabilities, including general knowledge, commonsense reasoning, and mathematical problem-solving.
One broad category of evaluation dataset is question answering datasets, consisting of pairs of questions and correct answers, for example, ("Have the San Jose Sharks won the Stanley Cup?", "No").[114] A question answering task is considered "open book" if the model's prompt includes text from which the expected answer can be derived (for example, the previous question could be adjoined with some text which includes the sentence "The Sharks have advanced to the Stanley Cup finals once, losing to the Pittsburgh Penguins in 2016."[114]). Otherwise, the task is considered "closed book", and the model must draw on knowledge retained during training.[115] Some examples of commonly used question answering datasets include TruthfulQA, Web Questions, TriviaQA, and SQuAD.[115]
Evaluation datasets may also take the form of text completion, having the model select the most likely word or sentence to complete a prompt, for example: "Alice was friends with Bob. Alice went to visit her friend, ____".[3]
Some composite benchmarks have also been developed which combine a diversity of different evaluation datasets and tasks. Examples include GLUE, SuperGLUE, MMLU, BIG-bench, and HELM.[113][115] OpenAI has released tools for running composite benchmarks, but noted that the eval results are sensitive to the prompting method.[116][117] Some public datasets contain questions that are mislabeled, ambiguous, unanswerable, or otherwise of low-quality, which can be cleaned to give more reliable benchmark scores.[118]
It was previously standard to report results on a heldout portion of an evaluation dataset after doing supervised fine-tuning on the remainder. It is now more common to evaluate a pre-trained model directly through prompting techniques, though researchers vary in the details of how they formulate prompts for particular tasks, particularly with respect to how many examples of solved tasks are adjoined to the prompt (i.e. the value of n in n-shot prompting).
Adversarially constructed evaluations
[edit]Because of the rapid pace of improvement of large language models, evaluation benchmarks have suffered from short lifespans, with state of the art models quickly "saturating" existing benchmarks, exceeding the performance of human annotators, leading to efforts to replace or augment the benchmark with more challenging tasks.[119] In addition, there are cases of "shortcut learning" wherein AIs sometimes "cheat" on multiple-choice tests by using statistical correlations in superficial test question wording in order to guess the correct responses, without necessarily understanding the actual question being asked.[101]
Some datasets have been constructed adversarially, focusing on particular problems on which extant language models seem to have unusually poor performance compared to humans. One example is the TruthfulQA dataset, a question answering dataset consisting of 817 questions which language models are susceptible to answering incorrectly by mimicking falsehoods to which they were repeatedly exposed during training. For example, an LLM may answer "No" to the question "Can you teach an old dog new tricks?" because of its exposure to the English idiom you can't teach an old dog new tricks, even though this is not literally true.[120]
Another example of an adversarial evaluation dataset is Swag and its successor, HellaSwag, collections of problems in which one of multiple options must be selected to complete a text passage. The incorrect completions were generated by sampling from a language model and filtering with a set of classifiers. The resulting problems are trivial for humans but at the time the datasets were created state of the art language models had poor accuracy on them. For example:
We see a fitness center sign. We then see a man talking to the camera and sitting and laying on a exercise ball. The man...
a) demonstrates how to increase efficient exercise work by running up and down balls.
b) moves all his arms and legs and builds up a lot of muscle.
c) then plays the ball and we see a graphics and hedge trimming demonstration.
d) performs sit ups while on the ball and talking.[121]
BERT selects b) as the most likely completion, though the correct answer is d).[121]
Wider impact
[edit]In 2023, Nature Biomedical Engineering wrote that "it is no longer possible to accurately distinguish" human-written text from text created by large language models, and that "It is all but certain that general-purpose large language models will rapidly proliferate... It is a rather safe bet that they will change many industries over time."[122] Goldman Sachs suggested in 2023 that generative language AI could increase global GDP by 7% in the next ten years, and could expose to automation 300 million jobs globally.[123][124]
Memorization and copyright
[edit]Memorization is an emergent behavior in LLMs in which long strings of text are occasionally output verbatim from training data, contrary to typical behavior of traditional artificial neural nets. Evaluations of controlled LLM output measure the amount memorized from training data (focused on GPT-2-series models) as variously over 1% for exact duplicates[125] or up to about 7%.[126]
Security
[edit]Some commenters expressed concern over accidental or deliberate creation of misinformation, or other forms of misuse.[127] For example, the availability of large language models could reduce the skill-level required to commit bioterrorism; biosecurity researcher Kevin Esvelt has suggested that LLM creators should exclude from their training data papers on creating or enhancing pathogens.[128]
A study by researchers at Google and several universities, including Cornell University and University of California, Berkeley, showed that there are potential security risks in language models such as ChatGPT. In their study, they examined and confirmed the possibility that questioners could get, from ChatGPT, the training data that the AI model used. For example, when asking ChatGPT 3.5 turbo to repeat the word "poem" forever, the AI model will say "poem" hundreds of times and then diverge, deviating from the standard dialogue style and spitting out nonsense phrases, thus spitting out the training data as it is. The researchers have seen more than 10,000 examples of the AI model exposing their training data in a similar method. The researchers said that it was hard to tell if the AI model was actually safe or not.[129]
The potential presence of "sleeper agents" within LLM models is another emerging security concern. These are hidden functionalities built into the model that remain dormant until triggered by a specific event or condition. Upon activation, the LLM deviates from its expected behavior to make insecure actions.[130]
Large language model (LLM) applications accessible to the public, like ChatGPT or Claude, typically incorporate safety measures designed to filter out harmful content. However, implementing these controls effectively has proven challenging. For instance, research by Kang et al. [131] demonstrated a method for circumventing LLM safety systems. Similarly, Wang[132] illustrated how a potential criminal could potentially bypass ChatGPT 4o's safety controls to obtain information on establishing a drug trafficking operation.
Algorithmic bias
[edit]While LLMs have shown remarkable capabilities in generating human-like text, they are susceptible to inheriting and amplifying biases present in their training data. This can manifest in skewed representations or unfair treatment of different demographics, such as those based on race, gender, language, and cultural groups.[133] Since English data is overrepresented in current large language models' training data, it may also downplay non-English views.[134]
Stereotyping
[edit]AI models can reinforce a wide range of stereotypes, including those based on gender, ethnicity, age, nationality, religion, or occupation. This can lead to outputs that unfairly generalize or caricature groups of people, sometimes in harmful or derogatory ways.[135]
Notably, gender bias refers to the tendency of these models to produce outputs that are unfairly prejudiced towards one gender over another. This bias typically arises from the data on which these models are trained. Large language models often assign roles and characteristics based on traditional gender norms.[133] For example, it might associate nurses or secretaries predominantly with women and engineers or CEOs with men.[136]
Political bias
[edit]Political bias refers to the tendency of algorithms to systematically favor certain political viewpoints, ideologies, or outcomes over others. Language models may also exhibit political biases. Since the training data includes a wide range of political opinions and coverage, the models might generate responses that lean towards particular political ideologies or viewpoints, depending on the prevalence of those views in the data.[137]
List
[edit]For the training cost column, 1 petaFLOP-day = 1 petaFLOP/sec × 1 day = 8.64E19 FLOP. Also, only the largest model's cost is written.
Name | Release date[a] | Developer | Number of parameters (billion) [b] | Corpus size | Training cost (petaFLOP-day) | License[c] | Notes |
---|---|---|---|---|---|---|---|
GPT-1 | June 2018 | OpenAI | 0.117 | 1[138] | MIT[139] | First GPT model, decoder-only transformer. Trained for 30 days on 8 P600 GPUs. | |
BERT | October 2018 | 0.340[140] | 3.3 billion words[140] | 9[141] | Apache 2.0[142] | An early and influential language model,[5] but encoder-only and thus not built to be prompted or generative[143] | |
T5 | October 2019 | 11[144] | 34 billion tokens[144] | Apache 2.0[145] | Base model for many Google projects, such as Imagen.[146] | ||
XLNet | June 2019 | ~0.340[147] | 33 billion words | Apache 2.0[148] | An alternative to BERT; designed as encoder-only[149][150] | ||
GPT-2 | February 2019 | OpenAI | 1.5[151] | 40GB[152] (~10 billion tokens)[153] | 28[154] | MIT[155] | Trained on 32 TPUv3 chips for 1 week.[154] |
GPT-3 | May 2020 | OpenAI | 175[49] | 300 billion tokens[153] | 3640[156] | proprietary | A fine-tuned variant of GPT-3, termed GPT-3.5, was made available to the public through a web interface called ChatGPT in 2022.[157] |
GPT-Neo | March 2021 | EleutherAI | 2.7[158] | 825 GiB[159] | MIT[160] | The first of a series of free GPT-3 alternatives released by EleutherAI. GPT-Neo outperformed an equivalent-size GPT-3 model on some benchmarks, but was significantly worse than the largest GPT-3.[160] | |
GPT-J | June 2021 | EleutherAI | 6[161] | 825 ГиБ [159] | 200 [162] | Апач 2.0 | Языковая модель в стиле GPT-3 |
Мегатрон-Тьюринг НЛГ | октябрь 2021 г. [163] | Майкрософт и Нвидиа | 530 [164] | 338,6 миллиарда токенов [164] | Ограниченный доступ в Интернет | Стандартная архитектура, но обучение на суперкомпьютерном кластере. | |
Эрни 3.0 Титан | декабрь 2021 г. | Байду | 260 [165] | 4 Тб | Собственный | LLM на китайском языке. Ernie Bot основан на этой модели. | |
Клод [166] | декабрь 2021 г. | антропный | 52 [167] | 400 миллиардов токенов [167] | бета | Точная настройка для желаемого поведения в разговорах. [168] | |
GLaM (универсальная языковая модель) | декабрь 2021 г. | 1200 [37] | 1,6 триллиона токенов [37] | 5600 [37] | Собственный | Модель с разреженной смесью экспертов , что делает ее обучение более дорогостоящим, но более дешевым в выполнении выводов по сравнению с GPT-3. | |
Суслик | декабрь 2021 г. | ДипМайнд | 280 [169] | 300 миллиардов токенов [170] | 5833 [171] | Собственный | Позже превратилась в модель Шиншилла. |
LaMDA (Языковые модели для диалоговых приложений) | Январь 2022 г. | 137 [172] | 1,56Т слов, [172] 168 миллиардов токенов [170] | 4110 [173] | Собственный | Специализируется на генерации ответов в разговорах. | |
GPT-NeoX | февраль 2022 г. | ЭлеутерAI | 20 [174] | 825 ГиБ [159] | 740 [162] | Апач 2.0 | на основе архитектуры Мегатрона |
Шиншилла | март 2022 г. | ДипМайнд | 70 [175] | 1,4 триллиона токенов [175] [170] | 6805 [171] | Собственный | Модель с уменьшенными параметрами, обученная на большем количестве данных. Используется в боте Sparrow . Часто упоминается из-за закона нейронного масштабирования . |
PaLM (языковая модель путей) | апрель 2022 г. | 540 [176] | 768 миллиардов токенов [175] | 29250 [171] | Собственный | Обучение продолжалось ~60 дней на ~6000 чипах TPU v4 . [171] | |
OPT (открытый предварительно обученный трансформатор) | май 2022 г. | Мета | 175 [177] | 180 миллиардов токенов [178] | 310 [162] | Некоммерческие исследования [д] | Архитектура GPT-3 с некоторыми доработками от Megatron |
ЯЛМ 100Б | июнь 2022 г. | Yandex | 100 [179] | 1,7 ТБ [179] | Апач 2.0 | Англо-русская модель на базе Megatron-LM от Microsoft. | |
Минерва | июнь 2022 г. | 540 [180] | 38,5 млрд токенов с веб-страниц, отфильтрованных по математическому содержанию, и из статей, отправленных на сервер препринтов arXiv. [180] | Собственный | За решение «математических и научных вопросов с помощью пошаговых рассуждений». [181] На основе модели PaLM, дальнейшее обучение математическим и научным данным. | ||
ЦВЕСТИ | июль 2022 г. | Крупное сотрудничество под руководством Hugging Face | 175 [182] | 350 миллиардов токенов (1,6 ТБ) [183] | Ответственный ИИ | По сути GPT-3, но обучен на многоязычном корпусе (30% английского, исключая языки программирования) | |
Галактика | ноябрь 2022 г. | Мета | 120 | 106 миллиардов токенов [184] | неизвестный | CC-BY-NC-4.0 | Обучение научным текстам и модальностям. |
AlexaTM (модели учителей) | ноябрь 2022 г. | Амазонка | 20 [185] | 1,3 триллиона [186] | собственный [187] | двунаправленная архитектура последовательности-последовательности | |
Нейро-сама | декабрь 2022 г. | Независимый | Неизвестный | Неизвестный | частный | Языковая модель, предназначенная для прямых трансляций на Twitch . | |
LLaMA (Большая языковая модель Meta AI) | февраль 2023 г. | Мета ИИ | 65 [188] | 1,4 триллиона [188] | 6300 [189] | Некоммерческие исследования [и] | В корпусе 20 языков. «Переобученный» (по сравнению с законом масштабирования Шиншиллы ) для лучшей производительности с меньшим количеством параметров. [188] |
ГПТ-4 | март 2023 г. | ОпенАИ | Неизвестный [ф] (По слухам: 1760 г.) [191] | Неизвестный | Неизвестный | собственный | Доступно для пользователей ChatGPT Plus и используется в нескольких продуктах . |
Церебрас-GPT | март 2023 г. | Мозги | 13 [192] | 270 [162] | Апач 2.0 | Приучена к формуле Шиншиллы . | |
Сокол | март 2023 г. | Технологический инновационный институт | 40 [193] | 1 триллион токенов от RefinedWeb (корпус отфильтрованного веб-текста) [194] плюс несколько «кураторских корпусов». [195] | 2800 [189] | Апач 2.0 [196] | |
BloombergGPT | март 2023 г. | Блумберг ЛП | 50 | Набор данных из 363 миллиардов токенов на основе источников данных Bloomberg, а также 345 миллиардов токенов из наборов данных общего назначения. [197] | Собственный | Обучился работе с финансовыми данными из собственных источников для решения финансовых задач. | |
ПанГу-Σ | март 2023 г. | Хуавей | 1085 | 329 миллиардов токенов [198] | Собственный | ||
OpenAssistant [199] | март 2023 г. | ЛАИОН | 17 | 1,5 триллиона токенов | Апач 2.0 | Обучение на краудсорсинговых открытых данных | |
Юрский-2 [200] | март 2023 г. | Лаборатории AI21 | Неизвестный | Неизвестный | Собственный | Многоязычный [201] | |
PaLM 2 (языковая модель путей 2) | май 2023 г. | 340 [202] | 3,6 триллиона токенов [202] | 85000 [189] | Собственный | Использовался в чат-боте Bard . [203] | |
Позвоните 2 | июль 2023 г. | Мета ИИ | 70 [204] | 2 триллиона токенов [204] | 21000 | Лицензия на вызов 2 | 1,7 миллиона часов A100. [205] |
Клод 2 | июль 2023 г. | антропный | Неизвестный | Неизвестный | Неизвестный | Собственный | Используется в чат-боте Клода. [206] |
Мистраль 7Б | сентябрь 2023 г. | Мистраль ИИ | 7.3 [207] | Неизвестный | Апач 2.0 | ||
Клод 2.1 | ноябрь 2023 г. | антропный | Неизвестный | Неизвестный | Неизвестный | Собственный | Используется в чат-боте Клода. Имеет контекстное окно на 200 000 токенов или ~500 страниц. [208] |
Грок-1 [209] | ноябрь 2023 г. | x.AI | 314 | Неизвестный | Неизвестный | Апач 2.0 | Используется в чат-боте Grok . Grok-1 имеет длину контекста 8192 токена и имеет доступ к X (Twitter). [210] |
Близнецы 1.0 | декабрь 2023 г. | Гугл ДипМайнд | Неизвестный | Неизвестный | Неизвестный | Собственный | Мультимодальная модель, поставляется в трех размерах. Используется в одноименном чат-боте . [211] |
Микстрал 8х7Б | декабрь 2023 г. | Мистраль ИИ | 46.7 | Неизвестный | Неизвестный | Апач 2.0 | Превосходит GPT-3.5 и Llama 2 70B во многих тестах. [212] Смесь экспертных моделей с 12,9 миллиардами параметров, активируемых на каждый токен. [213] |
Микстрал 8х22Б | апрель 2024 г. | Мистраль ИИ | 141 | Неизвестный | Неизвестный | Апач 2.0 | [214] |
Фи-2 | декабрь 2023 г. | Майкрософт | 2.7 | токены 1,4 трлн. | 419 [215] | С | Обучение на реальных и синтетических данных «учебного качества» в течение 14 дней на 96 графических процессорах A100. [215] |
Близнецы 1.5 | февраль 2024 г. | Гугл ДипМайнд | Неизвестный | Неизвестный | Неизвестный | Собственный | Мультимодальная модель, основанная на архитектуре смешанных экспертов (MoE). Контекстное окно выше 1 миллиона токенов. [216] |
Джемма | февраль 2024 г. | Гугл ДипМайнд | 7 | токены 6Т | Неизвестный | Условия использования Джеммы [217] | |
Клод 3 | март 2024 г. | антропный | Неизвестный | Неизвестный | Неизвестный | Собственный | Включает три модели: Haiku, Sonnet и Opus. [218] |
ДБРКС | март 2024 г. | Блоки данных и Mosaic ML | 136 | 12Т жетонов | Лицензия открытой модели Databricks | Стоимость обучения составила 10 миллионов долларов США. | |
Фугаку-LLM | май 2024 г. | Fujitsu , Токийский технологический институт и др. | 13 | 380B токенов | Самая большая модель, когда-либо тренировавшаяся только на процессоре, на Fugaku . [219] | ||
Фи-3 | апрель 2024 г. | Майкрософт | 14 [220] | Токены 4,8Т | С | Microsoft позиционирует их как «маленькую языковую модель». [221] | |
Квен2 | июнь 2024 г. | Алибаба Облако | 72 [222] | Токены 3T | Несколько размеров, самый маленький — 0,5B. | ||
Немотрон-4 | июнь 2024 г. | Нвидиа | 340 | Токены 9T | 200,000 | Лицензия открытой модели NVIDIA | Обучался 1 эпоху. Проходил обучение на графических процессорах 6144 H100 в период с декабря 2023 г. по май 2024 г. [223] [224] |
Звонок 3.1 | июль 2024 г. | Мета ИИ | 405 | 15,6Т токенов | 440,000 | Лицензия на вызов 3 | Версия 405B заняла 31 миллион часов на H100 -80 ГБ при 3,8E25 флопах. [225] [226] |
См. также
[ редактировать ]Примечания
[ редактировать ]- ^ Это дата, когда была впервые выпущена документация, описывающая архитектуру модели.
- ^ Во многих случаях исследователи публикуют или сообщают о нескольких версиях модели разных размеров. В этих случаях здесь указан размер самой большой модели.
- ^ Это лицензия на предварительно обученные веса модели. Почти во всех случаях сам обучающий код имеет открытый исходный код или может быть легко воспроизведен.
- ^ Меньшие модели, включая 66B, общедоступны, а модель 175B доступна по запросу.
- ^ Схема лицензирования и распространения Facebook ограничила доступ утвержденным исследователям, но веса моделей просочились и стали широко доступны.
- ^ Как указано в техническом отчете: «Учитывая как конкурентную среду, так и последствия для безопасности крупномасштабных моделей, таких как GPT-4, этот отчет не содержит дополнительных подробностей об архитектуре (включая размер модели), аппаратном обеспечении, обучающих вычислениях, построении набора данных, метод тренировки..." [190]
Ссылки
[ редактировать ]- ^ «Лучшие языковые модели и их последствия» . ОпенАИ . 14 февраля 2019 г. Архивировано из оригинала 19 декабря 2020 г. Проверено 25 августа 2019 г.
- ^ Перейти обратно: а б Боуман, Сэмюэл Р. (2023). «Восемь вещей, которые нужно знать о больших языковых моделях». arXiv : 2304.00612 [ cs.CL ].
- ^ Перейти обратно: а б с Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (декабрь 2020 г.). Ларошель, Х.; Ранзато, М.; Хадселл, Р.; Балкан, МФ; Лин, Х. (ред.). «Языковые модели мало кто изучает» (PDF) . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 1877–1901.
- ^ Фаталлах, Надин; Дас, Арунав; Де Джорджис, Стефано; Полтроньери, Андреа; Хаазе, Питер; Ковригина, Любовь (26 мая 2024 г.). NeOn-GPT: большой конвейер на основе языковых моделей для обучения онтологии (PDF) . Расширенная семантическая веб-конференция 2024. Херсониссос, Греция.
- ^ Перейти обратно: а б Мэннинг, Кристофер Д. (2022). «Понимание и мышление человеческого языка» . Дедал . 151 (2): 127–138. дои : 10.1162/daed_a_01905 . S2CID 248377870 .
- ^ Гудман, Джошуа (9 августа 2001 г.), Небольшой прогресс в языковом моделировании , arXiv : cs/0108005
- ^ Килгаррифф, Адам; Грефенштетт, Грегори (сентябрь 2003 г.). «Введение в специальный выпуск в Интернете как корпусе» . Компьютерная лингвистика . 29 (3): 333–347. дои : 10.1162/089120103322711569 . ISSN 0891-2017 .
- ^ Банко, Микеле; Брилл, Эрик (2001). «Масштабирование до очень-очень больших корпусов для устранения неоднозначности на естественном языке» . Материалы 39-го ежегодного собрания Ассоциации компьютерной лингвистики - ACL '01 . Морристаун, Нью-Джерси, США: Ассоциация компьютерной лингвистики: 26–33. дои : 10.3115/1073012.1073017 .
- ^ Резник, Филип; Смит, Ной А. (сентябрь 2003 г.). «Интернет как параллельный корпус» . Компьютерная лингвистика . 29 (3): 349–380. дои : 10.1162/089120103322711578 . ISSN 0891-2017 .
- ^ Халеви, Алон; Норвиг, Питер; Перейра, Фернандо (март 2009 г.). «Необоснованная эффективность данных» . Интеллектуальные системы IEEE . 24 (2): 8–12. дои : 10.1109/MIS.2009.36 . ISSN 1541-1672 .
- ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
- ^ Богданов Дмитрий; Чо, Кёнхён; Бенджио, Йошуа (2014). «Нейронный машинный перевод путем совместного обучения выравниванию и переводу». arXiv : 1409.0473 [ cs.CL ].
- ^ Роджерс, Анна; Ковалева, Ольга; Румшиский, Анна (2020). «Букварь по BERTологии: что мы знаем о том, как работает BERT» . Труды Ассоциации компьютерной лингвистики . 8 : 842–866. arXiv : 2002.12327 . дои : 10.1162/tacl_a_00349 . S2CID 211532403 .
- ^ Херн, Алекс (14 февраля 2019 г.). «Новый генератор фальшивых текстов с использованием искусственного интеллекта может быть слишком опасным, чтобы его выпускать, — говорят создатели» . Хранитель . Проверено 20 января 2024 г.
- ^ «ChatGPT год спустя: 3 способа, которыми чат-бот с искусственным интеллектом полностью изменил мир за 12 месяцев» . Евроньюс . 30 ноября 2023 г. . Проверено 20 января 2024 г.
- ^ Небеса, Уилл (14 марта 2023 г.). «GPT-4 больше и лучше, чем ChatGPT, но OpenAI не говорит, почему» . Обзор технологий Массачусетского технологического института . Проверено 20 января 2024 г.
- ^ «Параметры известных систем искусственного интеллекта» . Ourworldindata.org . 30 ноября 2023 г. . Проверено 20 января 2024 г.
- ^ «Таблица лидеров арены чат-ботов LMSYS» . Huggingface.co . Проверено 12 июня 2024 г.
- ^ Пэн, Бо; и др. (2023). «RWKV: новое изобретение RNNS для эры трансформаторов». arXiv : 2305.13048 [ cs.CL ].
- ^ Мерритт, Рик (25 марта 2022 г.). «Что такое модель-трансформер?» . Блог NVIDIA . Проверено 25 июля 2023 г.
- ^ Гу, Альберт; Дао, Три (01 декабря 2023 г.), Мамба: моделирование линейно-временных последовательностей с выборочными пространствами состояний , arXiv : 2312.00752
- ^ Йенни Джун (3 мая 2023 г.). «Все языки НЕ созданы (токенизированы) равными» . Языковые модели на некоторых языках стоят гораздо дороже, чем на других . Архивировано из оригинала 17 августа 2023 г. Проверено 17 августа 2023 г.
Другими словами, для выражения одного и того же чувства в некоторых языках требуется в 10 раз больше токенов.
- ^ Петров, Александр; Мальфа, Эмануэле Ла; Торр, Филип; Биби, Адель (23 июня 2023 г.). «Токенизаторы языковых моделей вносят несправедливость между языками» . НейриПС . arXiv : 2305.15425 – через openreview.net.
- ^ «ОпенАИ API» . платформа.openai.com . Архивировано из оригинала 23 апреля 2023 года . Проверено 30 апреля 2023 г.
- ^ Перейти обратно: а б Паас, Герхард; Гиссельбах, Свен (2022). «Предварительно обученные языковые модели» . Базовые модели обработки естественного языка . Искусственный интеллект: основы, теория и алгоритмы. стр. 19–78. дои : 10.1007/978-3-031-23190-2_2 . ISBN 9783031231902 . Проверено 3 августа 2023 г.
- ^ Петров, Александр; Эмануэле Ла Мальфа; Торр, Филип Х.С.; Биби, Адель (2023). «Токенизаторы языковых моделей вносят несправедливость между языками». arXiv : 2305.15425 [ cs.CL ].
- ^ Додж, Джесси; Сап, Мартен; Марасович, Ана; Агнью, Уильям; Ильхарко, Габриэль; Груневельд, Дирк; Митчелл, Маргарет; Гарднер, Мэтт (2021). «Документирование больших веб-текстовых корпораций: пример колоссального чистого просканированного корпуса». arXiv : 2104.08758 [ cs.CL ].
- ^ Ли, Кэтрин; Ипполито, Дафна; Нистром, Эндрю; Чжан, Чиюань; Эк, Дуглас; Каллисон-Берч, Крис; Карлини, Николас (май 2022 г.). «Дедупликация обучающих данных делает языковые модели лучше» (PDF) . Материалы 60-го ежегодного собрания Ассоциации компьютерной лингвистики . 1: Длинные статьи: 8424–8445. doi : 10.18653/v1/2022.acl-long.577 .
- ^ Ли, Юаньчжи; Бубек, Себастьян; Эльдан, Ронен; Дель Джорно, Элли; Гунасекар, Сурия; Ли, Инь Тат (11 сентября 2023 г.), Учебники - все, что вам нужно II: технический отчет phi-1.5 , arXiv : 2309.05463
- ^ Линь, Чжэнхао; Гун, Еюн; Сюй, Жочэнь; Ян, Цзяо, Цзянь (11 апреля 2024 г.). Токены — это то, что вам нужно». arXiv : 2404.07965 [ cs.CL ].
- ^ Браун, Том Б.; и др. (2020). «Языковые модели изучаются немногими». arXiv : 2005.14165 [ cs.CL ].
- ^ Абдин, Мара; Джейкобс, Сэм Эйд; Аван, Аммар Ахмад; Анеха, Джьоти; Авадаллах, Ахмед; Авадалла, Хани; Бах, Нгуен; Бахри, Амит; Бахтиари, Араш (23 апреля 2024 г.). «Технический отчет Phi-3: высокопроизводительная языковая модель, локально на вашем телефоне». arXiv : 2404.14219 [ cs.CL ].
- ^ Оуян, Лонг; Ву, Джефф; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл Л.; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди; Аскелл, Аманда; Велиндер, Питер; Кристиано, Пол; Лейке, Ян; Лоу, Райан (2022). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». arXiv : 2203.02155 [ cs.CL ].
- ^ Ван, Ичжун; Корди, Йегане; Мишра, Сваруп; Лю, Алиса; Смит, Ной А.; Хашаби, Дэниел; Хаджиширзи, Ханнане (2022). «Самообучение: согласование языковой модели с самостоятельно сгенерированными инструкциями». arXiv : 2212.10560 [ cs.CL ].
- ^ Шазир, Ноам; Мирхосейни, Азалия; Мазиарц, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (01 января 2017 г.). «Невероятно большие нейронные сети: редкий слой смешанных экспертов». arXiv : 1701.06538 [ cs.LG ].
- ^ Лепихин Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (12 января 2021 г.). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [ cs.CL ].
- ^ Перейти обратно: а б с д Дай, Эндрю М; Ду, Нан (9 декабря 2021 г.). «Более эффективное контекстное обучение с помощью GLaM» . ai.googleblog.com . Проверено 9 марта 2023 г.
- ^ Перейти обратно: а б с Вэй, Джейсон; Тай, Йи; Боммасани, Риши; Раффель, Колин; Зоф, Баррет; Боржо, Себастьян; Йогатама, Дэни; Босма, Мартен; Чжоу, Денни; Мецлер, Дональд; Чи, Эд Х.; Хасимото, Тацунори; Виньялс, Ориол; Лян, Перси; Дин, Джефф; Федус, Уильям (31 августа 2022 г.). «Новые возможности больших языковых моделей» . Труды по исследованиям машинного обучения . ISSN 2835-8856 .
- ^ Алламар, Джей. «Иллюстрированный трансформер» . Проверено 29 июля 2023 г.
- ^ Алламар, Джей. «Иллюстрированный GPT-2 (визуализация языковых моделей трансформеров)» . Проверено 1 августа 2023 г.
- ^ «Наша модель следующего поколения: Gemini 1.5» . Google . 15 февраля 2024 г. Проверено 18 февраля 2024 г.
- ^ "Длинные контекстные подсказки для Клода 2.1" . 6 декабря 2023 г. . Проверено 20 января 2024 г.
- ^ «Ограничения ставок» . openai.com . Проверено 20 января 2024 г.
- ^ Заиб, Мунацца; Шэн, Цюань Цз.; Эмма Чжан, Вэй (4 февраля 2020 г.). «Краткий обзор предварительно обученных языковых моделей для разговорного ИИ — новый век в НЛП» . Материалы мультиконференции Австралазийской недели информатики . стр. 1–4. arXiv : 2104.10810 . дои : 10.1145/3373017.3373028 . ISBN 9781450376976 . S2CID 211040895 .
- ^ Перейти обратно: а б с Юрафски, Дэн; Мартин, Джеймс Х. (7 января 2023 г.). Обработка речи и языка (PDF) (3-е издание, черновой вариант) . Проверено 24 мая 2022 г.
- ^ «От голого железа до модели 70Б: настройка инфраструктуры и скрипты» . imbue.com . Проверено 24 июля 2024 г.
- ^ «metaseq/projects/OPT/хроники на главной · facebookresearch/metaseq» . Гитхаб . Проверено 24 июля 2024 г.
- ^ Альбрехт, Джош (23 июля 2024 г.). «Современное состояние: обучение более 70 миллиардов LLM на 10 000 кластерах H100» . www.latent.space . Проверено 24 июля 2024 г.
- ^ Перейти обратно: а б Виггерс, Кайл (28 апреля 2022 г.). «Новые типы языковых моделей и почему они имеют значение» . ТехКранч .
- ^ Шарир, Ор; Пелег, Барак; Шохам, Йоав (2020). «Стоимость обучения моделей НЛП: краткий обзор». arXiv : 2004.08900 [ cs.CL ].
- ^ Бидерман, Стелла; Шелькопф, Хейли; Энтони, Квентин; Брэдли, Херби; Хан, Мохаммед Афла; Пурохит, Шиваншу; Прашант, USVSN Сай (апрель 2023 г.). «Pythia: пакет для анализа больших языковых моделей при обучении и масштабировании». arXiv : 2304.01373 [ cs.CL ].
- ^ Маслей, Нестор; Фатторини, Лоредана; Бриньольфссон, Эрик; Этчеменди, Джон; Лигетт, Кэтрин; Лайонс, Тера; Знание, Джеймс; Нго, Хелен; Ниблс, Хуан Карлос (05.10.2023), Отчет об индексе искусственного интеллекта за 2023 г. , arXiv : 2310.03715
- ^ Перейти обратно: а б Раздел 2.1 и таблица 1, Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Шахматы, Бенджамин; Дитя, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри; Амодей, Дарио (2020). «Законы масштабирования для моделей нейронного языка». arXiv : 2001.08361 [ cs.LG ].
- ^ Гао, Лую; Мадаан, Аман; Чжоу, Шуян; Алон, Ури; Лю, Пэнфэй; Ян, Имин; Каллан, Джейми; Нойбиг, Грэм (1 ноября 2022 г.). «PAL: Программные языковые модели». arXiv : 2211.10435 [ cs.CL ].
- ^ «PAL: Программные языковые модели» . ReasonwithPal.com . Проверено 12 июня 2023 г.
- ^ Паранджапе, Бхаргави; Лундберг, Скотт; Сингх, Самир; Хаджиширзи, Ханнане; Зеттлмойер, Люк; Тулио Рибейро, Марко (01 марта 2023 г.). «ART: Автоматическое многоэтапное рассуждение и использование инструментов для больших языковых моделей». arXiv : 2303.09014 [ cs.CL ].
- ^ Лян, Яобо; Сун, Тин; Лю, Оу, Ян; Мао, Шаогуан; Ван, Юн; Мин, Нан (01 марта 2023 г.). TaskMatrix.AI: выполнение задач путем подключения базовых моделей к миллионам API. arXiv : 2303.16434 [ cs.AI ].
- ^ Патил, Шишир Г.; Чжан, Тяньцзюнь; Ван, Синь; Гонсалес, Джозеф Э. (01 мая 2023 г.). «Горилла: большая языковая модель, связанная с массивными API». arXiv : 2305.15334 [ cs.CL ].
- ^ Льюис, Патрик; Перес, Итан; Пиктус, Александра; Петрони, Фабио; Карпухин Владимир; Гоял, Наман; Кюттлер, Генрих; Льюис, Майк; Йи, Вен-тау; Роктешель, Тим; Ридель, Себастьян; Киела, Доуве (2020). «Расширенная поисковая генерация для наукоемких задач НЛП» . Достижения в области нейронных систем обработки информации . 33 . Curran Associates, Inc.: 9459–9474. arXiv : 2005.11401 .
- ^ Хуан, Вэньлун; Аббель, Питер; Патак, Дипак; Мордач, Игорь (28 июня 2022 г.). «Языковые модели как планировщики с нулевым выстрелом: извлечение практических знаний для воплощенных агентов» . Материалы 39-й Международной конференции по машинному обучению . ПМЛР: 9118–9147. arXiv : 2201.07207 .
- ^ Яо, Шуньюй; Чжао, Джеффри; Ю, Дайан; Ду, Нэн; Шафран, Ицхак; Нарасимхан, Картик; Цао, Юань (01 октября 2022 г.). «ReAct: синергия рассуждений и действий в языковых моделях». arXiv : 2210.03629 [ cs.CL ].
- ^ Ву, Юэ; Прабхумойе, Шримаи; Мин Со Ён (24 мая 2023 г.). «ВЕСНА: GPT-4 превосходит алгоритмы RL благодаря изучению статей и рассуждениям». arXiv : 2305.15486 [ cs.AI ].
- ^ Ван, Цзихао; Цай, Шаофэй; Лю, Анжи; Ма, Сяоцзянь; Лян, Итао (3 февраля 2023 г.). «Описывать, объяснять, планировать и выбирать: интерактивное планирование с использованием больших языковых моделей позволяет использовать многозадачные агенты в открытом мире». arXiv : 2302.01560 [ cs.AI ].
- ^ Шинн, Ной; Кассано, Федерико; Лабаш, Бек; Гопинатх, Ашвин; Нарасимхан, Картик; Яо, Шуньюй (01 марта 2023 г.). «Рефлексия: языковые агенты с вербальным подкреплением». arXiv : 2303.11366 [ cs.AI ].
- ^ Хаоди, Джошуа; Чжэ Ван, Ху, Чжитинг (01.05.2023). Хао, Шибо, Ма , : 2305.14992 [ cs.CL ].
- ^ Чжан, Дженни; Леман, Джоэл; Стэнли, Кеннет; Клюн, Джефф (2 июня 2023 г.). «OMNI: открытость через модели человеческих представлений об интересе». arXiv : 2306.01711 [ cs.AI ].
- ^ Перейти обратно: а б «Вояджер | Открытый агент с большими языковыми моделями» . voyager.minedojo.org . Проверено 9 июня 2023 г.
- ^ Пак, Джун Сон; О'Брайен, Джозеф К.; Кай, Кэрри Дж.; Рингел Моррис, Мередит; Лян, Перси; Бернштейн, Майкл С. (01 апреля 2023 г.). «Генераторные агенты: интерактивные симулякры человеческого поведения». arXiv : 2304.03442 [ cs.HC ].
- ^ Манн, Тобиас. «Как запустить LLM локально на вашем компьютере менее чем за 10 минут» . www.theregister.com . Проверено 17 мая 2024 г.
- ^ Нагель, Маркус; Амджад, Рана Али; Баален, Март Ван; Луисос, Христос; Бланкеворт, Теймен (21 ноября 2020 г.). «Вверх или вниз? Адаптивное округление для квантования после обучения» . Материалы 37-й Международной конференции по машинному обучению . ПМЛР: 7197–7206.
- ^ Полино, Антонио; Пашкану, Разван; Алистарх, Дэн (01 февраля 2018 г.). «Сжатие модели посредством дистилляции и квантования». arXiv : 1802.05668 [ cs.NE ].
- ^ Франтар, Элиас; Ашкбус, Салех; Хефлер, Торстен; Алистарх, Дэн (01 октября 2022 г.). «GPTQ: точное квантование после обучения для генеративных предварительно обученных трансформаторов». arXiv : 2210.17323 [ cs.LG ].
- ^ Деттмерс, Тим; Свирщевский, Руслан; Егиазарян, Ваге; Кузнеделев Денис; Франтар, Элиас; Ашкбус, Салех; Борзунов, Александр; Хефлер, Торстен; Алистарх, Дэн (01 июня 2023 г.). «SpQR: разреженное квантованное представление для сжатия веса LLM практически без потерь». arXiv : 2306.03078 [ cs.CL ].
- ^ Гроотендорст, Мартен. «Визуальное руководство по квантованию» . информационный бюллетень.maartengrootendorst.com . Архивировано из оригинала 31 июля 2024 года . Проверено 31 июля 2024 г.
- ^ Деттмерс, Тим; Паньони, Артидоро; Хольцман, Ари ; Зеттлмойер, Люк (01 мая 2023 г.). «QLoRA: эффективная точная настройка квантованных LLM». arXiv : 2305.14314 [ cs.LG ].
- ^ Кирос, Райан; Салахутдинов Руслан; Земель, Рич (18 июня 2014 г.). «Мультимодальные модели нейронного языка» . Материалы 31-й Международной конференции по машинному обучению . ПМЛР: 595–603.
- ^ Крижевский, Алекс; Суцкевер, Илья; Хинтон, Джеффри Э (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» . Достижения в области нейронных систем обработки информации . 25 . Карран Ассошиэйтс, Инк.
- ^ Антол, Станислав; Агравал, Айшвария; Лу, Цзясэн; Митчелл, Маргарет; Батра, Дхрув; Зитник, К. Лоуренс; Парих, Деви (2015). «VQA: Визуальный ответ на вопрос» . ICCV : 2425–2433.
- ^ Ли, Джуннан; Ли, Дунсюй; Саварезе, Сильвио; Хой, Стивен (1 января 2023 г.). «BLIP-2: Начальная подготовка языка-изображения с помощью кодировщиков замороженных изображений и больших языковых моделей». arXiv : 2301.12597 [ cs.CV ].
- ^ Алайрак, Жан-Батист; Донахью, Джефф; Люк, Полина; Миш, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэтрин; Рейнольдс, Малькольм; Кольцо, Роман; Резерфорд, Элиза; Каби, Серкан; Хан, Тенгда; Гун, Чжитао (06 декабря 2022 г.). «Фламинго: модель визуального языка для кратковременного обучения» . Достижения в области нейронных систем обработки информации . 35 : 23716–23736. arXiv : 2204.14198 .
- ^ Дрисс, Дэнни; Ся, Фэй; Саджади, Мехди С.М.; Линч, Кори; Чоудери, Ааканша; Ихтер, Брайан; Вахид, Айзаан; Томпсон, Джонатан; Выонг, Куан; Ю, Тяньхэ; Хуан, Вэньлун; Чеботарь, Евгений; Сермане, Пьер; Дакворт, Дэниел; Левин, Сергей (01 марта 2023 г.). «PaLM-E: воплощенная мультимодальная языковая модель». arXiv : 2303.03378 [ cs.LG ].
- ^ Лю, Хаотянь; Ли, Цинъян; Ли, Юн Джэ (01 апреля 2023 г.), arXiv : 2304.08485 [ cs.CV ].
- ^ Чжан, Ханг; Ли, Синь; Бинг, Лидун (01 июня 2023 г.). «Видео-LLaMA: настроенная на инструкции модель аудиовизуального языка для понимания видео». arXiv : 2306.02858 [ cs.CL ].
- ^ ОпенАИ (27 марта 2023 г.). «Технический отчет GPT-4». arXiv : 2303.08774 [ cs.CL ].
- ^ OpenAI (25 сентября 2023 г.). «Системная карта GPT-4V(ision)» (PDF) .
- ^ Пичаи, Сундар (10 мая 2023 г.), Google Keynote (Google I/O '23) , временная метка 15:31 , получено 2 июля 2023 г.
- ^ Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Бучацкая Елена; Кай, Тревор; Резерфорд, Элиза; Касас, Диего де Лас; Хендрикс, Лиза Энн; Вельбл, Йоханнес; Кларк, Эйдан; Хенниган, Том; Ноланд, Эрик; Милликан, Кэти; Дрессе, Джордж ван ден; Дамок, Богдан (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
- ^ Перейти обратно: а б Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». arXiv : 2210.14891 [ cs.LG ].
- ^ «137 возникающих способностей больших языковых моделей» . Джейсон Вэй . Проверено 24 июня 2023 г.
- ^ Хан, Майкл; Гоял, Навин (14 марта 2023 г.). «Теория возникающего контекстного обучения как индукция неявной структуры». arXiv : 2303.07971 [ cs.LG ].
- ^ Пилевар, Мохаммад Тахер; Камачо-Колладос, Хосе (июнь 2019 г.). «Материалы Конференции Севера 2019» . Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2019 года: технологии человеческого языка, том 1 (длинные и короткие статьи) . Миннеаполис, Миннесота: Ассоциация компьютерной лингвистики: 1267–1273. дои : 10.18653/v1/N19-1128 . S2CID 102353817 .
- ^ «WiC: набор данных «Слово в контексте»» . Pilehvar.github.io . Проверено 27 июня 2023 г.
- ^ Патель, Рома; Павлик, Элли (06 октября 2021 г.). «Сопоставление языковых моделей с обоснованными концептуальными пространствами» . ИКЛР .
- ^ Более пристальный взгляд на новые способности больших языковых моделей (Яо Фу, 20 ноября 2022 г.)
- ^ Орнес, Стивен (16 марта 2023 г.). «Непредсказуемые способности, возникающие из больших моделей искусственного интеллекта» . Журнал Кванта .
- ^ Шеффер, Райлан; Миранда, Брандо; Коеджо, Санми (01 апреля 2023 г.). «Являются ли новые способности больших языковых моделей миражом?». arXiv : 2304.15004 [ cs.AI ].
- ^ Ли, Кеннет; Хопкинс, Аспен К.; Бау, Дэвид; Вьегас, Фернанда; Пфистер, Ханспетер; Ваттенберг, Мартин (01 октября 2022 г.). «Эмерджентные представления мира: исследование модели последовательности, обученной на синтетической задаче». arXiv : 2210.13382 [ cs.LG ].
- ^ «Большая языковая модель: модели мира или поверхностная статистика?» . Градиент . 21 января 2023 г. Проверено 12 июня 2023 г.
- ^ Джин, Чарльз; Ринар, Мартин (01 мая 2023 г.). «Свидетельство значения языковых моделей, обученных на программах». arXiv : 2305.11169 [ cs.LG ].
- ^ Нанда, Нил; Чан, Лоуренс; Либерум, Том; Смит, Джесс; Стейнхардт, Джейкоб (1 января 2023 г.). «Меры прогресса в грокке через механистическую интерпретируемость». arXiv : 2301.05217 [ cs.LG ].
- ^ Перейти обратно: а б с д и Митчелл, Мелани; Кракауэр, Дэвид К. (28 марта 2023 г.). «Дебаты о понимании больших языковых моделей ИИ» . Труды Национальной академии наук . 120 (13): e2215907120. arXiv : 2210.13966 . Бибкод : 2023PNAS..12015907M . дои : 10.1073/pnas.2215907120 . ПМЦ 10068812 . ПМИД 36943882 .
- ^ Мец, Кейд (16 мая 2023 г.). «Microsoft заявляет, что новый искусственный интеллект демонстрирует признаки человеческого мышления» . Нью-Йорк Таймс .
- ^ Перейти обратно: а б Бубек, Себастьен; Чандрасекаран, Варун; Эльдан, Ронен; Герке, Йоханнес; Хорвиц, Эрик; Камар, Эдже; Ли, Питер; Ли, Инь Тат; Ли, Юаньчжи; Лундберг, Скотт; Нори, Харша; Паланги, Хамид; Рибейро, Марко Тулио; Чжан, И (2023). «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». arXiv : 2303.12712 [ cs.CL ].
- ^ «ChatGPT больше похож на «инопланетный интеллект», чем на человеческий мозг, — говорит футурист» . ЗДНЕТ . 2023 . Проверено 12 июня 2023 г.
- ^ Перейти обратно: а б Ньюпорт, Калифорния (13 апреля 2023 г.). «Какой ум у ChatGPT?» . Житель Нью-Йорка . Проверено 12 июня 2023 г.
- ^ Руз, Кевин (30 мая 2023 г.). «Почему существо, похожее на осьминога, стало символом состояния искусственного интеллекта», The New York Times . Проверено 12 июня 2023 г.
- ^ «Искусственный интеллект от А до Я» . Журнал «Тайм» . 13 апреля 2023 г. Проверено 12 июня 2023 г.
- ^ Цзи, Цивэй; Ли, Наён; Фриске, Рита; Ю, Течжэн; Су, Дэн; Сюй, Ян; Исии, Эцуко; Банг, Еджин; Дай, Вэньлян; Мадто, Андреа; Фунг, Паскаль (ноябрь 2022 г.). «Обзор галлюцинаций при формировании естественного языка» (pdf) . Обзоры вычислительной техники ACM . 55 (12). Ассоциация вычислительной техники : 1–38. arXiv : 2202.03629 . дои : 10.1145/3571730 . S2CID 246652372 . Проверено 15 января 2023 г.
- ^ Варшней, Нирадж; Яо, Вэньлинь; Чжан, Хунмин; Чен, Цзяньшу; Ю, Донг (2023). «Сшивание во времени экономит девять: обнаружение и смягчение галлюцинаций LLM путем проверки генерации с низкой достоверностью». arXiv : 2307.03987 [ cs.CL ].
- ^ Лакофф, Джордж (1999). Философия во плоти: воплощенный разум и его вызов западной философии; Приложение: Нейронная теория языковой парадигмы . Основные книги Нью-Йорка. стр. 569–583. ISBN 978-0-465-05674-3 .
- ^ Эванс, Вивиан. (2014). Языковой миф . Издательство Кембриджского университета. ISBN 978-1-107-04396-1 .
- ^ Фристон, Карл Дж. (2022). Активный вывод: принцип свободной энергии в разуме, мозге и поведении; Глава 4. Генеративные модели активного вывода . Массачусетский технологический институт Пресс. ISBN 978-0-262-36997-8 .
- ^ Перейти обратно: а б Хуен, Чип (18 октября 2019 г.). «Метрики оценки языкового моделирования» . Градиент . Проверено 14 января 2024 г.
- ^ Перейти обратно: а б Кларк, Кристофер; Ли, Кентон; Чанг, Мин-Вэй; Квятковски, Том; Коллинз, Майкл; Тутанова, Кристина (2019). «BoolQ: исследование удивительной сложности естественных вопросов типа «да/нет»». arXiv : 1905.10044 [ cs.CL ].
- ^ Перейти обратно: а б с Уэйн Синь Чжао, Ли, Цзюньи; Ван, Сяолэй; Мин, Чжан, Бэйчэн; Ду, Ифань, Чен; Юшо; Цзян, Цзиньхао; Ли, Ифань, Лю, Пэйю; Не, Цзянь-Юнь; Языковые модели». arXiv : 2303.18223 [ cs.CL ].
- ^ openai/simple-evals , OpenAI, 28 мая 2024 г. , получено 28 мая 2024 г.
- ^ openai/evals , OpenAI, 28 мая 2024 г. , получено 28 мая 2024 г.
- ^ «Обработанные наборы данных с открытым исходным кодом для понимания естественного языка и кода: как мы оценивали нашу модель 70B» . imbue.com . Проверено 24 июля 2024 г.
- ^ Шривастава, Арохи; и др. (2022). «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей». arXiv : 2206.04615 [ cs.CL ].
- ^ Лин, Стефани; Хилтон, Джейкоб; Эванс, Оуайн (2021). «TruthfulQA: измерение того, как модели имитируют человеческую ложь». arXiv : 2109.07958 [ cs.CL ].
- ^ Перейти обратно: а б Зеллерс, Роуэн; Хольцман, Ари; Биск, Йонатан; Фархади, Али; Чой, Еджин (2019). «HellaSwag: Может ли машина действительно закончить ваше предложение?». arXiv : 1905.07830 [ cs.CL ].
- ^ «Приготовьтесь к действительно полезным большим языковым моделям». Природная биомедицинская инженерия . 7 (2): 85–86. 7 марта 2023 г. doi : 10.1038/s41551-023-01012-6 . ПМИД 36882584 . S2CID 257403466 .
- ^ «Ваша работа (вероятно) защищена от искусственного интеллекта» . Экономист . 7 мая 2023 г. Проверено 18 июня 2023 г.
- ^ «Генераторный ИИ может повысить мировой ВВП на 7%» . Голдман Сакс . Проверено 18 июня 2023 г.
- ^ Пэн, Чжэньцань; Ван, Чжижи; Дэн, Донг (13 июня 2023 г.). «Поиск почти повторяющихся последовательностей в масштабе для оценки запоминания больших языковых моделей» (PDF) . Труды ACM по управлению данными . 1 (2): 1–18. дои : 10.1145/3589324 . S2CID 259213212 . Проверено 20 января 2024 г. Цитируя Ли и др., 2022 г.
- ^ Пэн, Ван и Дэн 2023 , с. 8.
- ^ Альба, Дэйви (1 мая 2023 г.). «Чат-боты с искусственным интеллектом использовались для создания десятков ферм новостного контента» . Джапан Таймс . Проверено 18 июня 2023 г.
- ^ «Могут ли чат-боты помочь разработать следующий пандемический вирус?» . Наука . 14 июня 2023 г. doi : 10.1126/science.adj2463 .
- ^ Стивен Совет (1 декабря 2023 г.). «Как сотрудники Google взломали технологическую модель конкурента в научной фантастике одним словом» . СФГЕЙТ.
- ^ Хубингер, Эван (10 января 2024 г.). «Спящие агенты: обучение обманщиков-магистров права, которые упорствуют в обучении технике безопасности». arXiv : 2401.05566 [ cs.CR ].
- ^ Канг, Дэниел (2023). «Использование программного поведения LLM: двойное использование посредством стандартных атак безопасности». arXiv : 2302.05733 [ cs.CR ].
- ^ Ван, Юнге (20 июня 2024 г.). «Скрытый канал на основе шифрования для больших языковых моделей» (PDF) . Электронная печать IACR 2024/586.
- ^ Перейти обратно: а б Стокел-Уокер, Крис (22 ноября 2023 г.). «ChatGPT воспроизводит гендерную предвзятость в рекомендательных письмах» . Научный американец . Проверено 29 декабря 2023 г.
- ^ Луо, Куини; Пуэтт, Майкл Дж.; Смит, Майкл Д. (28 марта 2023 г.). «Перспективное зеркало слона: исследование языковой предвзятости в Google, ChatGPT, Википедии и YouTube». arXiv : 2303.16281v2 [ cs.CY ].
- ^ Ченг, Майра; Дурмус, Есин; Джурафски, Дэн (29 мая 2023 г.), Отмеченные личности: использование подсказок естественного языка для измерения стереотипов в языковых моделях , arXiv : 2305.18189
- ^ Котек, Хадас; Докум, Риккер; Сан, Дэвид (05.11.2023). «Гендерная предвзятость и стереотипы в моделях большого языка» . Материалы конференции по коллективному разуму ACM . КИ '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 12–24. дои : 10.1145/3582269.3615599 . ISBN 979-8-4007-0113-9 .
- ^ Хейккиля, Мелисса (7 августа 2023 г.). «Языковые модели искусственного интеллекта изобилуют различными политическими предубеждениями» . Обзор технологий Массачусетского технологического института . Проверено 29 декабря 2023 г.
- ^ «Улучшение понимания языка с помощью обучения без учителя» . openai.com . 11 июня 2018 г. Архивировано из оригинала 18 марта 2023 г. Проверено 18 марта 2023 г.
- ^ "тонкая настройка-трансформатор-lm" . Гитхаб . Проверено 2 января 2024 г.
- ^ Перейти обратно: а б Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова Кристина (11 октября 2018 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». arXiv : 1810.04805v2 [ cs.CL ].
- ^ Прикетт, Николь Хемсот (24 августа 2021 г.). «Cerebras меняет архитектуру для соответствия масштабным моделям искусственного интеллекта и машинного обучения» . Следующая платформа . Проверено 20 июня 2023 г.
- ^ «БЕРТ» . 13 марта 2023 г. — через GitHub.
- ^ Патель, Аджай; Ли, Брайан; Расули, Мохаммад Садег; Констант, Ной; Раффель, Колин; Каллисон-Берч, Крис (2022). «Двунаправленные языковые модели также мало учатся». arXiv : 2209.14500 [ cs.LG ].
- ^ Перейти обратно: а б Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение границ трансферного обучения с помощью унифицированного преобразователя текста в текст» . Журнал исследований машинного обучения . 21 (140): 1–67. arXiv : 1910.10683 . ISSN 1533-7928 .
- ^ google-research/text-to-text-transfer-transformer , Google Research, 02 апреля 2024 г. , получено 4 апреля 2024 г.
- ^ «Imagen: модели распространения текста в изображение» . imagen.research.google . Проверено 4 апреля 2024 г.
- ^ «BERT, RoBERTa, DistilBERT, XLNet: какой использовать?» . КДнаггетс . [ постоянная мертвая ссылка ]
- ^ "xlnet" . Гитхаб . Проверено 2 января 2024 г.
- ^ Наик, Амит Раджа (23 сентября 2021 г.). «Google представляет новую архитектуру для снижения стоимости трансформаторов» . Журнал Analytics India .
- ^ Ян, Жилин; Дай, Цзихан; Ян, Имин; Карбонелл, Хайме; Салахутдинов Руслан; Ле, Куок В. (2 января 2020 г.). «XLNet: Обобщенная авторегрессионная предварительная тренировка для понимания языка». arXiv : 1906.08237 [ cs.CL ].
- ^ «GPT-2: Версия 1.5B» . ОпенАИ . 05.11.2019. Архивировано из оригинала 14 ноября 2019 г. Проверено 14 ноября 2019 г.
- ^ «Лучшие языковые модели и их последствия» . openai.com .
- ^ Перейти обратно: а б «Языковая модель OpenAI GPT-3: технический обзор» . Lambdalabs.com . 3 июня 2020 г.
- ^ Перейти обратно: а б "openai-community/gpt2-xl · Обнимающее лицо" . Huggingface.co . Проверено 24 июля 2024 г.
- ^ «ГПТ-2» . Гитхаб . Проверено 13 марта 2023 г.
- ^ Таблица D.1 в Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббия, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Састри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Восс, Ариэль; Крюгер, Гретхен; Хениган, Том; Дитя, Ревон; Рамеш, Адитья; Зиглер, Дэниел М.; Ву, Джеффри; Зима, Клеменс; Гессен, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Шахматы, Бенджамин; Кларк, Джек; Бернер, Кристофер; МакКэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодей, Дарио (28 мая 2020 г.). «Языковые модели изучаются немногими». arXiv : 2005.14165v4 [ cs.CL ].
- ^ «ChatGPT: оптимизация языковых моделей для диалога» . ОпенАИ . 30 ноября 2022 г. Проверено 13 января 2023 г.
- ^ «ГПТ Нео» . 15 марта 2023 г. — через GitHub.
- ^ Перейти обратно: а б с Гао, Лео; Бидерман, Стелла; Блэк, Сид; Голдинг, Лоуренс; Хоппе, Трэвис; Фостер, Чарльз; Пханг, Джейсон; Он, Гораций; Тите, Аниш; Набешима, Ноа; Прессер, Шон; Лихи, Коннор (31 декабря 2020 г.). «Куча: набор данных разнообразного текста объемом 800 ГБ для языкового моделирования». arXiv : 2101.00027 [ cs.CL ].
- ^ Перейти обратно: а б Айер, Абхишек (15 мая 2021 г.). «Бесплатная альтернатива GPT-3 GPT-Neo заслуживает восхищения» . ВенчурБит .
- ^ «GPT-J-6B: введение в крупнейшую модель GPT с открытым исходным кодом | Forefront» . www.forefront.ai . Архивировано из оригинала 9 марта 2023 г. Проверено 28 февраля 2023 г.
- ^ Перейти обратно: а б с д Дей, Нолан; Госал, Гурприт; Чжимин; Чен; Хачане, Хемант; Маршалл, Уильям; Патрия, Рибху; Том, Марвин; Хестнесс, Джоэл (1 апреля 2023 г.). «Cerebras-GPT: открытые оптимальные для вычислений языковые модели, обученные на кластере Cerebras Wafer Scale». arXiv : 2304.03208 [ cs.LG ].
- ^ Алви, Али; Харья, Пареш (11 октября 2021 г.). «Использование DeepSpeed и Megatron для обучения Megatron-Turing NLG 530B, самой большой и мощной в мире модели генеративного языка» . Исследования Майкрософт .
- ^ Перейти обратно: а б Смит, Шейден; Патвари, Мостофа; Норик, Брэндон; ЛеГресли, Патрик; Раджбхандари, Самьям; Каспер, Джаред; Лю, Чжун; Прабхумойе, Шримаи; Зервеас, Джордж; Кортиканти, Виджай; Чжан, Элтон; Дитя, Ревон; Аминабади, Реза Яздани; Бернауэр, Джули; Сун, Ся (04 февраля 2022 г.). «Использование DeepSpeed и Megatron для обучения Megatron-Turing NLG 530B, крупномасштабной модели генеративного языка». arXiv : 2201.11990 [ cs.CL ].
- ^ Ван, Шуохуань; Сян, Ян; Дин, Сию; Шан, Цзюньюань; Лю, Чэнь, Лу; Юйсян, Вэйсинь; Ван, Янфан; Чжао, Ли, Шиюн; Ма, Яньцзюнь; Тянь, Вэй; Ли, Ге; Ван, Хайфэн (23 декабря 2021 г.). «ERNIE 3.0 Titan: изучение расширенной предварительной подготовки для понимания генерации » языков и . .CL ].
- ^ "Продукт" . Антропный . Проверено 14 марта 2023 г.
- ^ Перейти обратно: а б Аскелл, Аманда; Бай, Юньтао; Чен, Анна; и др. (9 декабря 2021 г.). «Ассистент общего языка как лаборатория выравнивания». arXiv : 2112.00861 [ cs.CL ].
- ^ Бай, Юньтао; Кадават, Саурав; Кунду, Сандипан; и др. (15 декабря 2022 г.). «Конституционный ИИ: безвредность от обратной связи ИИ». arXiv : 2212.08073 [ cs.CL ].
- ^ «Языковое моделирование в масштабе: Gopher, этические соображения и извлечение» . www.deepmind.com . 8 декабря 2021 г. Проверено 20 марта 2023 г.
- ^ Перейти обратно: а б с Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; и др. (29 марта 2022 г.). «Обучение оптимальных для вычислений моделей большого языка». arXiv : 2203.15556 [ cs.CL ].
- ^ Перейти обратно: а б с д Таблица 20 и стр. 66 книги PaLM: Масштабирование языкового моделирования с помощью путей
- ^ Перейти обратно: а б Ченг, Хэн-Цзы; Топпилан, Ромал (21 января 2022 г.). «LaMDA: к безопасным, обоснованным и высококачественным моделям диалога для всего» . ai.googleblog.com . Проверено 9 марта 2023 г.
- ^ Топпилан, Ромал; Де Фрейтас, Даниэль; Холл, Джейми; Шазир, Ноам; Кулшрешта, Апурв; Ченг, Хэн-Цзы; Джин, Алисия; Бос, Тейлор; Бейкер, Лесли; Ду, Ю; Ли, ЯГуан; Ли, Хонгрэ; Чжэн, Хуайсю Стивен; Гафури, Амин; Менегали, Марсело (1 января 2022 г.). «LaMDA: языковые модели для диалоговых приложений». arXiv : 2201.08239 [ cs.CL ].
- ^ Блэк, Сидни; Бидерман, Стелла; Халлахан, Эрик; и др. (01.05.2022). GPT-NeoX-20B: авторегрессионная языковая модель с открытым исходным кодом . Труды BigScience, эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. Том. Труды BigScience, эпизод № 5 – Семинар по проблемам и перспективам создания больших языковых моделей. стр. 95–136 . Проверено 19 декабря 2022 г.
- ^ Перейти обратно: а б с Хоффманн, Иордания; Боржо, Себастьян; Менш, Артур; Сифре, Лоран (12 апреля 2022 г.). «Эмпирический анализ оптимального для вычислений обучения модели большого языка» . Блог Deepmind .
- ^ Наранг, Шаран; Чоудери, Ааканша (4 апреля 2022 г.). «Языковая модель Pathways (PaLM): масштабирование до 540 миллиардов параметров для достижения революционной производительности» . ai.googleblog.com . Проверено 9 марта 2023 г.
- ^ Сьюзан Чжан; Мона Диаб; Люк Зеттлмойер. «Демократизация доступа к крупномасштабным языковым моделям с помощью OPT-175B» . ai.facebook.com .
- ^ Чжан, Сьюзен; Роллер, Стивен; Гоял, Наман; Артече, Микель; Чен, Мойя; Чен, Шуохуэй; Деван, Кристофер; Диаб, Мона; Ли, Сиань; Линь, Си Виктория; Михайлов, Тодор; Отт, Майл; Шлейфер, Сэм; Шустер, Курт; Симиг, Дэниел; Кура, Пунит Сингх; Шридхар, Анджали; Ван, Тяньлу; Зеттлмойер, Люк (21 июня 2022 г.). «OPT: открытые предварительно обученные языковые модели трансформаторов». arXiv : 2205.01068 [ cs.CL ].
- ^ Перейти обратно: а б Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (2022-06-22), YaLM 100B , retrieved 2023-03-18
- ^ Перейти обратно: а б Левкович, Айтор; Андреассен, Андерс; Дохан, Дэвид; Дайер, Итан; Михалевский, Хенрик; Рамашеш, Винай; Слон, Эмброуз; Анил, Джем; Шлаг, Иманол; Гутман-Соло, Тео; Ву, Юхуай; Нейшабур, Бехнам; Гур-Ари, Гай; Мисра, Ведант (30 июня 2022 г.). «Решение задач количественного рассуждения с помощью языковых моделей». arXiv : 2206.14858 [ cs.CL ].
- ^ «Минерва: решение задач количественного рассуждения с помощью языковых моделей» . ai.googleblog.com . 30 июня 2022 г. Проверено 20 марта 2023 г.
- ^ Анантасвами, Анил (8 марта 2023 г.). «В ИИ чем больше, тем лучше?» . Природа . 615 (7951): 202–205. Бибкод : 2023Natur.615..202A . дои : 10.1038/d41586-023-00641-w . ПМИД 36890378 . S2CID 257380916 .
- ^ "bigscience/bloom · Обнимающее лицо" . Huggingface.co .
- ^ Тейлор, Росс; Кардас, Марцин; Кукурулл, Гиллем; Сиалом, Томас; Хартшорн, Энтони; Саравиа, Элвис; Поултон, Эндрю; Керкез, Виктор; Стойнич, Роберт (16 ноября 2022 г.). «Галактика: большая языковая модель для науки». arXiv : 2211.09085 [ cs.CL ].
- ^ «Модель Alexa с 20В параметрами устанавливает новые стандарты в обучении за несколько шагов» . Амазонская наука . 2 августа 2022 г.
- ^ Солтан, Салех; Анантакришнан, Шанкар; Фитцджеральд, Джек; и др. (3 августа 2022 г.). «AlexaTM 20B: обучение в несколько этапов с использованием крупномасштабной многоязычной модели Seq2Seq». arXiv : 2208.01448 [ cs.CL ].
- ^ «AlexaTM 20B теперь доступен в Amazon SageMaker JumpStart | Блог AWS Machine Learning» . aws.amazon.com . 17 ноября 2022 г. Проверено 13 марта 2023 г.
- ^ Перейти обратно: а б с «Представляем LLaMA: фундаментальную языковую модель с 65 миллиардами параметров» . Мета ИИ . 24 февраля 2023 г.
- ^ Перейти обратно: а б с «Сокол приземлился в экосистеме Обнимающего Лица» . Huggingface.co . Проверено 20 июня 2023 г.
- ^ «Технический отчет GPT-4» (PDF) . ОпенАИ . 2023. Архивировано (PDF) из оригинала 14 марта 2023 года . Проверено 14 марта 2023 г.
- ^ Шрайнер, Максимилиан (11 июля 2023 г.). «Утечка архитектуры GPT-4, наборов данных, затрат и многого другого» . ДЕКОДЕР . Проверено 26 июля 2024 г.
- ^ Дей, Нолан (28 марта 2023 г.). «Cerebras-GPT: семейство открытых, эффективных в вычислениях больших языковых моделей» . Церебрас .
- ^ «Компания TII из Абу-Даби запускает собственную версию ChatGPT» . tii.ae .
- ^ Пенедо, Гильерме; Малартик, Квентин; Хесслоу, Дэниел; Кожокару, Руксандра; Каппелли, Алессандро; Алобейдли, Хамза; Паннье, Батист; Алмазруи, Эбтесам; Лоне, Жюльен (1 июня 2023 г.). «Набор данных RefinedWeb для Falcon LLM: превосходство курируемых корпораций с использованием веб-данных и только веб-данных». arXiv : 2306.01116 [ cs.CL ].
- ^ "tiiuae/falcon-40b · Обнимающее лицо" . Huggingface.co . 09.06.2023 . Проверено 20 июня 2023 г.
- ^ Falcon 40B из ОАЭ, лучшая в мире модель искусственного интеллекта от Института технологических инноваций, теперь доступна без лицензионных отчислений , 31 мая 2023 г.
- ^ Ву, Шицзе; Ирсой, Озан; Лу, Стивен; Добровольский, Вадим; Дредзе, Марк; Германн, Себастьян; Камбадур, Прабханджан; Розенберг, Дэвид; Манн, Гидеон (30 марта 2023 г.). «BloombergGPT: большая языковая модель для финансов». arXiv : 2303.17564 [ cs.LG ].
- ^ Жэнь, Сяочэ, Мэн, Синьфан; Ван, Ядао, Вейчао; Чжан, Сяода, Александр; Бут, Андрей; Цзяншэн, Синь; Лю, Цюнь; Яо, Цзюнь (19 марта 2023 г.). «PanGu-Σ: к модели языка с триллионом параметров разреженными вычислениями » . гетерогенными с
- ^ Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Чжи-Жуй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Нагифи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - демократизация согласования модели большого языка». arXiv : 2304.07327 [ cs.CL ].
- ^ Врубель, Шарон. «Тель-Авивский стартап представляет новую продвинутую языковую модель искусственного интеллекта, способную конкурировать с OpenAI» . www.timesofisrael.com . Проверено 24 июля 2023 г.
- ^ Виггерс, Кайл (13 апреля 2023 г.). «С Bedrock Amazon вступает в гонку генеративного искусственного интеллекта» . ТехКранч . Проверено 24 июля 2023 г.
- ^ Перейти обратно: а б Элиас, Дженнифер (16 мая 2023 г.). «Новейшая модель искусственного интеллекта Google использует для обучения почти в пять раз больше текстовых данных, чем ее предшественница» . CNBC . Проверено 18 мая 2023 г.
- ^ «Представляем PaLM 2» . Google . 10 мая 2023 г.
- ^ Перейти обратно: а б «Представляем Llama 2: следующее поколение нашей модели большого языка с открытым исходным кодом» . Мета ИИ . 2023 . Проверено 19 июля 2023 г.
- ^ "llama/MODEL_CARD.md в главном · мета-лама/лама" . Гитхаб . Проверено 28 мая 2024 г.
- ^ «Клод 2» . антропный сайт . Проверено 12 декабря 2023 г.
- ^ «Анонсируем Мистраль 7Б» . Мистраль . 2023 . Проверено 6 октября 2023 г.
- ^ «Знакомство с Клодом 2.1» . антропный сайт . Проверено 12 декабря 2023 г.
- ^ xai-org/grok-1 , xai-org, 19 марта 2024 г. , получено 19 марта 2024 г.
- ^ «Карточка модели Грока-1» . х.ай. Проверено 12 декабря 2023 г.
- ^ «Близнецы – Google DeepMind» . deepmind.google . Проверено 12 декабря 2023 г.
- ^ Франзен, Карл (11 декабря 2023 г.). «Mistral шокирует сообщество искусственного интеллекта, поскольку последняя модель с открытым исходным кодом превосходит производительность GPT-3.5» . ВенчурБит . Проверено 12 декабря 2023 г.
- ^ «Микстраль экспертов» . мистраль.ай . 11 декабря 2023 г. Проверено 12 декабря 2023 г.
- ^ А.И., Мистраль (17 апреля 2024 г.). «Дешевле, лучше, быстрее, сильнее» . мистраль.ай . Проверено 5 мая 2024 г.
- ^ Перейти обратно: а б Хьюз, Алисса (12 декабря 2023 г.). «Фи-2: Удивительная сила малых языковых моделей» . Исследования Майкрософт . Проверено 13 декабря 2023 г.
- ^ «Наша модель следующего поколения: Gemini 1.5» . Google . 15 февраля 2024 г. Проверено 16 февраля 2024 г.
Это означает, что 1.5 Pro может обрабатывать огромные объемы информации за один раз, включая 1 час видео, 11 часов аудио, кодовые базы с более чем 30 000 строк кода или более 700 000 слов. В ходе нашего исследования мы также успешно протестировали до 10 миллионов токенов.
- ^ «Джемма» – через GitHub.
- ^ «Представляем следующее поколение Клода» . www.anthropic.com . Проверено 4 марта 2024 г.
- ^ «Фугаку-LLM/Fugaku-LLM-13B · Обнимающее лицо» . Huggingface.co . Проверено 17 мая 2024 г.
- ^ «Фи-3» . azure.microsoft.com . 23 апреля 2024 г. Проверено 28 апреля 2024 г.
- ^ «Документация модели Фи-3» . Huggingface.co . Проверено 28 апреля 2024 г.
- ^ «Квен2» . Гитхаб .
- ^ «nvidia/Nemotron-4-340B-Base · Обнимающее лицо» . Huggingface.co . 14 июня 2024 г. Проверено 15 июня 2024 г.
- ^ «Немотрон-4 340Б | Исследования» . исследование.nvidia.com . Проверено 15 июня 2024 г.
- ^ «Стадо моделей лам 3» (23 июля 2024 г.) Команда лам, AI @ Meta
- ^ «llama-models/models/llama3_1/MODEL_CARD.md на главной · мета-лама/llama-модели» . Гитхаб . Проверено 23 июля 2024 г.
Дальнейшее чтение
[ редактировать ]- Джурафски, Дэн , Мартин, Джеймс. H. Обработка речи и языка: введение в обработку естественного языка, компьютерную лингвистику и распознавание речи , черновик 3-го издания, 2023 г.
- Чжао, Уэйн Синь; и др. (2023). «Обзор больших языковых моделей». arXiv : 2303.18223 [ cs.CL ].
- Каддур, Жан; и др. (2023). «Проблемы и применение больших языковых моделей». arXiv : 2307.10169 [ cs.CL ].
- , Сунь, Син; Чен, Энхун (01.06.2023 Чжао, Сируи ; Ли ) Инь, Шукан ; . .РЕЗЮМЕ ].
- Откройте репозиторий LLM на GitHub .
- «Отчет об индексе искусственного интеллекта за 2024 год — Индекс искусственного интеллекта» . aiindex.stanford.edu . Проверено 5 мая 2024 г.
- Фрэнк, Майкл К. (27 июня 2023 г.). «Малые шаги в оценке возможностей больших языковых моделей» . Обзоры природы Психология . 2 (8): 451–452. дои : 10.1038/s44159-023-00211-x . ISSN 2731-0574 . S2CID 259713140 . Проверено 2 июля 2023 г.