Jump to content

Нейронная сеть (машинное обучение)

Послушайте эту статью
(Перенаправлено из байесовской нейронной сети )

это взаимосвязанная группа узлов, созданная на основе упрощения нейронов мозга Искусственная нейронная сеть — . Здесь каждый круглый узел представляет собой искусственный нейрон , а стрелка представляет соединение выхода одного искусственного нейрона со входом другого.

В машинном обучении нейронная сеть (также искусственная нейронная сеть или нейронная сеть , сокращенно ANN или NN ) — это модель, вдохновленная структурой и функцией биологических нейронных сетей животных в мозге . [1] [2]

ИНС состоит из связанных единиц или узлов, называемых искусственными нейронами , которые в общих чертах моделируют нейроны мозга. Они соединены ребрами , которые моделируют синапсы в мозге. Каждый искусственный нейрон получает сигналы от связанных нейронов, затем обрабатывает их и отправляет сигнал другим подключенным нейронам. «Сигнал» — это действительное число , а выход каждого нейрона вычисляется некоторой нелинейной функцией суммы его входов, называемой функцией активации . Сила сигнала при каждом соединении определяется весом , который корректируется в процессе обучения.

Typically, neurons are aggregated into layers. Different layers may perform different transformations on their inputs. Signals travel from the first layer (the input layer) to the last layer (the output layer), possibly passing through multiple intermediate layers (hidden layers). A network is typically called a deep neural network if it has at least 2 hidden layers.[3]

Artificial neural networks are used for various tasks, including predictive modeling, adaptive control, and solving problems in artificial intelligence. They can learn from experience, and can derive conclusions from a complex and seemingly unrelated set of information.

Training

[edit]

Neural networks are typically trained through empirical risk minimization. This method is based on the idea of optimizing the network's parameters to minimize the difference, or empirical risk, between the predicted output and the actual target values in a given dataset.[4] Gradient based methods such as backpropagation are usually used to estimate the parameters of the network.[4] During the training phase, ANNs learn from labeled training data by iteratively updating their parameters to minimize a defined loss function.[5] This method allows the network to generalize to unseen data.

Simplified example of training a neural network in object detection: The network is trained by multiple images that are known to depict starfish and sea urchins, which are correlated with "nodes" that represent visual features. The starfish match with a ringed texture and a star outline, whereas most sea urchins match with a striped texture and oval shape. However, the instance of a ring textured sea urchin creates a weakly weighted association between them.
Subsequent run of the network on an input image (left):[6] The network correctly detects the starfish. However, the weakly weighted association between ringed texture and sea urchin also confers a weak signal to the latter from one of two intermediate nodes. In addition, a shell that was not included in the training gives a weak signal for the oval shape, also resulting in a weak signal for the sea urchin output. These weak signals may result in a false positive result for sea urchin.
In reality, textures and outlines would not be represented by single nodes, but rather by associated weight patterns of multiple nodes.

History

[edit]

Early work

[edit]

Historically, digital computers evolved from the von Neumann model, and operate via the execution of explicit instructions via access to memory by a number of processors. Neural networks, on the other hand, originated from efforts to model information processing in biological systems through the framework of connectionism. Unlike the von Neumann model, connectionist computing does not separate memory and processing.

Warren McCulloch and Walter Pitts[7] (1943) considered a non-learning computational model for neural networks.[8] This model paved the way for research to split into two approaches. One approach focused on biological processes while the other focused on the application of neural networks to artificial intelligence.

In the late 1940s, D. O. Hebb[9] proposed a learning hypothesis based on the mechanism of neural plasticity that became known as Hebbian learning. It was used in many early neural networks, such as Rosenblatt's perceptron and the Hopfield network.

In 1958, psychologist Frank Rosenblatt invented the perceptron, the first implemented artificial neural network,[10][11][12][13] funded by the United States Office of Naval Research.[14]

The invention of the perceptron raised public excitement for research in Artificial Neural Networks, causing the US government to drastically increase funding into deep learning research. This led to "the golden age of AI" fueled by the optimistic claims made by computer scientists regarding the ability of perceptrons to emulate human intelligence.[15]

Neural network winter

[edit]

Little research was conducted on ANNs in the 1970s and 1980s, a "neural network winter". A key event want the Minsky and Papert Perceptron (1969)[16]. This was followed by an general "AI winter",[17] with reduced research into AI in general. Remaining government funding was mostly placed on symbolic artificial intelligence in the United States and other Western countries.[18][19]

Group method of data handling, a method to train arbitrarily deep neural networks was published by Alexey Ivakhnenko and Lapa in 1967, which they regarded as a form of polynomial regression,[20] or a generalization of Rosenblatt's perceptron.[21] The first deep learning multilayer perceptron trained by stochastic gradient descent[22] was published in 1967 by Shun'ichi Amari.[23]

Self-organizing maps (SOMs) were described by Teuvo Kohonen in 1982.[24] SOMs are neurophysiologically inspired[25] neural networks that learn low-dimensional representations of high-dimensional data while preserving the topological structure of the data. They are trained using competitive learning.[26]

Convolutional neural networks

[edit]

The convolutional neural network (CNN) architecture with convolutional layers and downsampling layers was introduced by Kunihiko Fukushima in 1980.[27] He called it the neocognitron. In 1969, he also introduced the use of ReLU (rectified linear unit) as an activation function.[28][29] CNNs have become an essential tool for computer vision.

Backpropagation is an efficient application of the chain rule derived by Gottfried Wilhelm Leibniz in 1673[30] to networks of differentiable nodes. The terminology "back-propagating errors" was actually introduced in 1962 by Rosenblatt,[31] but he did not know how to implement this, although Henry J. Kelley had a continuous precursor of backpropagation in 1960 in the context of control theory.[32] The modern form of backpropagation was developed multiple times in early 1970s. The earliest published instance was Seppo Linnainmaa's master thesis (1970).[33][34] Paul Werbos developed it independently in 1971,[35] but had difficulty publishing it until 1982.[36] In 1986, David E. Rumelhart et al. popularized backpropagation.[37]

The time delay neural network (TDNN) of Alex Waibel (1987) combined convolutions and weight sharing and backpropagation.[38][39] Some early demonstrations of CNN included alphabet recognition,[40][41] and the LeNet (1989) that recognized handwritten ZIP codes on mail.[42] In 1992, max-pooling for CNNs was introduced by Juan Weng et al. to help with least-shift invariance and tolerance to deformation to aid 3D object recognition.[43][44][45]LeNet-5 (1998), a 7-level CNN by Yann LeCun et al.,[46] that classifies digits, was applied by several banks to recognize hand-written numbers on checks digitized in 32x32 pixel images.

From 1988 onward,[47][48] the use of neural networks transformed the field of protein structure prediction, in particular when the first cascading networks were trained on profiles (matrices) produced by multiple sequence alignments.[49]

Recurrent networks

[edit]

One origin of RNN was statistical mechanics. Shun'ichi Amari in 1972 proposed to modify the weights of an Ising model by Hebbian learning rule as a model of associative memory, adding in the component of learning.[50] This was popularized as the Hopfield network (1982).[51]Another origin of RNN was neuroscience. The word "recurrent" is used to describe loop-like structures in anatomy. In 1901, Cajal observed "recurrent semicircles" in the cerebellar cortex.[52] Hebb considered "reverberating circuit" as an explanation for short-term memory.[53] The McCulloch and Pitts paper (1943) considered neural networks that contains cycles, and noted that the current activity of such networks can be affected by activity indefinitely far in the past.[54]

Two early influential works were the Jordan network (1986) and the Elman network (1990), which applied RNN to study cognitive psychology. In 1993, a neural history compressor system solved a "Very Deep Learning" task that required more than 1000 subsequent layers in an RNN unfolded in time.[55]

In 1991, Sepp Hochreiter's diploma thesis [56] identified and analyzed the vanishing gradient problem[56][57] and proposed recurrent residual connections to solve it. He and Schmidhuber introduced long short-term memory (LSTM), which set accuracy records in multiple applications domains.[58][59] This was not yet the modern version of LSTM, which required the forget gate, which was introduced in 1999.[60] It became the default choice for RNN architecture.

During 1985–1995, inspired by statistical mechanics, several architectures and methods were developed by Terry Sejnowski, Peter Dayan, Geoffrey Hinton, etc., including the Boltzmann machine,[61] restricted Boltzmann machine,[62] Helmholtz machine,[63] and the wake-sleep algorithm.[64] These were designed for unsupervised learning of deep generative models.

Deep learning

[edit]

Between 2009 and 2012, ANNs began winning prizes in image recognition contests, approaching human level performance on various tasks, initially in pattern recognition and handwriting recognition.[65][66] In 2011, a CNN named DanNet[67][68] by Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella, and Jürgen Schmidhuber achieved for the first time superhuman performance in a visual pattern recognition contest, outperforming traditional methods by a factor of 3.[69] It then won more contests.[70][71] They also showed showed how max-pooling CNNs on GPU improved performance significantly.[72]

In October 2012, AlexNet by Alex Krizhevsky, Ilya Sutskever, and Geoffrey Hinton[73] won the large-scale ImageNet competition by a significant margin over shallow machine learning methods. Further incremental improvements included the VGG-16 network by Karen Simonyan and Andrew Zisserman[74] and Google's Inceptionv3.[75]

In 2012, Ng and Dean created a network that learned to recognize higher-level concepts, such as cats, only from watching unlabeled images.[76] Unsupervised pre-training and increased computing power from GPUs and distributed computing allowed the use of larger networks, particularly in image and visual recognition problems, which became known as "deep learning".[5]

Radial basis function and wavelet networks were introduced in 2013. These can be shown to offer best approximation properties and have been applied in nonlinear system identification and classification applications.[77]

Generative adversarial network (GAN) (Ian Goodfellow et al., 2014)[78] became state of the art in generative modeling during 2014-2018 period. Excellent image quality is achieved by Nvidia's StyleGAN (2018)[79] based on the Progressive GAN by Tero Karras et al.[80] Here the GAN generator is grown from small to large scale in a pyramidal fashion. Image generation by GAN reached popular success, and provoked discussions concerning deepfakes.[81] Diffusion models (2015)[82] eclipsed GANs in generative modeling since then, with systems such as DALL·E 2 (2022) and Stable Diffusion (2022).

In 2014, the state of the art was training “very deep neural network” with 20 to 30 layers.[83] Stacking too many layers led to a steep reduction in training accuracy,[84] known as the "degradation" problem.[85] In 2015, two techniques were developed concurrently to train very deep networks: highway network[86] and residual neural network (ResNet).[87] The ResNet research team attempted to train deeper ones by empirically testing various tricks for training deeper networks until they discovered the deep residual network architecture.[88]

In 2017, Ashish Vaswani et al. introduced the modern Transformer architecture in their paper "Attention Is All You Need."[89] It combines this with a softmax operator and a projection matrix.[29]Transformers have increasingly become the model of choice for natural language processing.[90] Many modern large language models such as ChatGPT, GPT-4, and BERT use this architecture.

Models

[edit]
Neuron and myelinated axon, with signal flow from inputs at dendrites to outputs at axon terminals

ANNs began as an attempt to exploit the architecture of the human brain to perform tasks that conventional algorithms had little success with. They soon reoriented towards improving empirical results, abandoning attempts to remain true to their biological precursors. ANNs have the ability to learn and model non-linearities and complex relationships. This is achieved by neurons being connected in various patterns, allowing the output of some neurons to become the input of others. The network forms a directed, weighted graph.[91]

An artificial neural network consists of simulated neurons. Each neuron is connected to other nodes via links like a biological axon-synapse-dendrite connection. All the nodes connected by links take in some data and use it to perform specific operations and tasks on the data. Each link has a weight, determining the strength of one node's influence on another,[92] allowing weights to choose the signal between neurons.

Artificial neurons

[edit]

ANNs are composed of artificial neurons which are conceptually derived from biological neurons. Each artificial neuron has inputs and produces a single output which can be sent to multiple other neurons.[93] The inputs can be the feature values of a sample of external data, such as images or documents, or they can be the outputs of other neurons. The outputs of the final output neurons of the neural net accomplish the task, such as recognizing an object in an image.

To find the output of the neuron we take the weighted sum of all the inputs, weighted by the weights of the connections from the inputs to the neuron. We add a bias term to this sum.[94] This weighted sum is sometimes called the activation. This weighted sum is then passed through a (usually nonlinear) activation function to produce the output. The initial inputs are external data, such as images and documents. The ultimate outputs accomplish the task, such as recognizing an object in an image.[95]

Organization

[edit]

The neurons are typically organized into multiple layers, especially in deep learning. Neurons of one layer connect only to neurons of the immediately preceding and immediately following layers. The layer that receives external data is the input layer. The layer that produces the ultimate result is the output layer. In between them are zero or more hidden layers. Single layer and unlayered networks are also used. Between two layers, multiple connection patterns are possible. They can be 'fully connected', with every neuron in one layer connecting to every neuron in the next layer. They can be pooling, where a group of neurons in one layer connects to a single neuron in the next layer, thereby reducing the number of neurons in that layer.[96] Neurons with only such connections form a directed acyclic graph and are known as feedforward networks.[97] Alternatively, networks that allow connections between neurons in the same or previous layers are known as recurrent networks.[98]

Hyperparameter

[edit]

A hyperparameter is a constant parameter whose value is set before the learning process begins. The values of parameters are derived via learning. Examples of hyperparameters include learning rate, the number of hidden layers and batch size.[citation needed] The values of some hyperparameters can be dependent on those of other hyperparameters. For example, the size of some layers can depend on the overall number of layers.

Learning

[edit]

Learning is the adaptation of the network to better handle a task by considering sample observations. Learning involves adjusting the weights (and optional thresholds) of the network to improve the accuracy of the result. This is done by minimizing the observed errors. Learning is complete when examining additional observations does not usefully reduce the error rate. Even after learning, the error rate typically does not reach 0. If after learning, the error rate is too high, the network typically must be redesigned. Practically this is done by defining a cost function that is evaluated periodically during learning. As long as its output continues to decline, learning continues. The cost is frequently defined as a statistic whose value can only be approximated. The outputs are actually numbers, so when the error is low, the difference between the output (almost certainly a cat) and the correct answer (cat) is small. Learning attempts to reduce the total of the differences across the observations. Most learning models can be viewed as a straightforward application of optimization theory and statistical estimation.[91][99]

Learning rate

[edit]

The learning rate defines the size of the corrective steps that the model takes to adjust for errors in each observation.[100] A high learning rate shortens the training time, but with lower ultimate accuracy, while a lower learning rate takes longer, but with the potential for greater accuracy. Optimizations such as Quickprop are primarily aimed at speeding up error minimization, while other improvements mainly try to increase reliability. In order to avoid oscillation inside the network such as alternating connection weights, and to improve the rate of convergence, refinements use an adaptive learning rate that increases or decreases as appropriate.[101] The concept of momentum allows the balance between the gradient and the previous change to be weighted such that the weight adjustment depends to some degree on the previous change. A momentum close to 0 emphasizes the gradient, while a value close to 1 emphasizes the last change.

Cost function

[edit]

While it is possible to define a cost function ad hoc, frequently the choice is determined by the function's desirable properties (such as convexity) or because it arises from the model (e.g. in a probabilistic model the model's posterior probability can be used as an inverse cost).

Backpropagation

[edit]

Backpropagation is a method used to adjust the connection weights to compensate for each error found during learning. The error amount is effectively divided among the connections. Technically, backprop calculates the gradient (the derivative) of the cost function associated with a given state with respect to the weights. The weight updates can be done via stochastic gradient descent or other methods, such as extreme learning machines,[102] "no-prop" networks,[103] training without backtracking,[104] "weightless" networks,[105][106] and non-connectionist neural networks.[citation needed]

Learning paradigms

[edit]

Machine learning is commonly separated into three main learning paradigms, supervised learning,[107] unsupervised learning[108] and reinforcement learning.[109] Each corresponds to a particular learning task.

Supervised learning

[edit]

Supervised learning uses a set of paired inputs and desired outputs. The learning task is to produce the desired output for each input. In this case, the cost function is related to eliminating incorrect deductions.[110] A commonly used cost is the mean-squared error, which tries to minimize the average squared error between the network's output and the desired output. Tasks suited for supervised learning are pattern recognition (also known as classification) and regression (also known as function approximation). Supervised learning is also applicable to sequential data (e.g., for handwriting, speech and gesture recognition). This can be thought of as learning with a "teacher", in the form of a function that provides continuous feedback on the quality of solutions obtained thus far.

Unsupervised learning

[edit]

In unsupervised learning, input data is given along with the cost function, some function of the data and the network's output. The cost function is dependent on the task (the model domain) and any a priori assumptions (the implicit properties of the model, its parameters and the observed variables). As a trivial example, consider the model where is a constant and the cost . Minimizing this cost produces a value of that is equal to the mean of the data. The cost function can be much more complicated. Its form depends on the application: for example, in compression it could be related to the mutual information between and , whereas in statistical modeling, it could be related to the posterior probability of the model given the data (note that in both of those examples, those quantities would be maximized rather than minimized). Tasks that fall within the paradigm of unsupervised learning are in general estimation problems; the applications include clustering, the estimation of statistical distributions, compression and filtering.

Reinforcement learning

[edit]

In applications such as playing video games, an actor takes a string of actions, receiving a generally unpredictable response from the environment after each one. The goal is to win the game, i.e., generate the most positive (lowest cost) responses. In reinforcement learning, the aim is to weight the network (devise a policy) to perform actions that minimize long-term (expected cumulative) cost. At each point in time the agent performs an action and the environment generates an observation and an instantaneous cost, according to some (usually unknown) rules. The rules and the long-term cost usually only can be estimated. At any juncture, the agent decides whether to explore new actions to uncover their costs or to exploit prior learning to proceed more quickly.

Formally the environment is modeled as a Markov decision process (MDP) with states and actions . Because the state transitions are not known, probability distributions are used instead: the instantaneous cost distribution , the observation distribution and the transition distribution , while a policy is defined as the conditional distribution over actions given the observations. Taken together, the two define a Markov chain (MC). The aim is to discover the lowest-cost MC.

ANNs serve as the learning component in such applications.[111][112] Dynamic programming coupled with ANNs (giving neurodynamic programming)[113] has been applied to problems such as those involved in vehicle routing,[114] video games, natural resource management[115][116] and medicine[117] because of ANNs ability to mitigate losses of accuracy even when reducing the discretization grid density for numerically approximating the solution of control problems. Tasks that fall within the paradigm of reinforcement learning are control problems, games and other sequential decision making tasks.

Self-learning

[edit]

Self-learning in neural networks was introduced in 1982 along with a neural network capable of self-learning named crossbar adaptive array (CAA).[118] It is a system with only one input, situation s, and only one output, action (or behavior) a. It has neither external advice input nor external reinforcement input from the environment. The CAA computes, in a crossbar fashion, both decisions about actions and emotions (feelings) about encountered situations. The system is driven by the interaction between cognition and emotion.[119] Given the memory matrix, W =||w(a,s)||, the crossbar self-learning algorithm in each iteration performs the following computation:

  In situation s perform action a;  Receive consequence situation s';  Compute emotion of being in consequence situation v(s');  Update crossbar memory w'(a,s) = w(a,s) + v(s').

The backpropagated value (secondary reinforcement) is the emotion toward the consequence situation. The CAA exists in two environments, one is behavioral environment where it behaves, and the other is genetic environment, where from it initially and only once receives initial emotions about to be encountered situations in the behavioral environment. Having received the genome vector (species vector) from the genetic environment, the CAA will learn a goal-seeking behavior, in the behavioral environment that contains both desirable and undesirable situations.[120]

Neuroevolution

[edit]

Neuroevolution can create neural network topologies and weights using evolutionary computation. It is competitive with sophisticated gradient descent approaches.[121][122] One advantage of neuroevolution is that it may be less prone to get caught in "dead ends".[123]

Stochastic neural network

[edit]

Stochastic neural networks originating from Sherrington–Kirkpatrick models are a type of artificial neural network built by introducing random variations into the network, either by giving the network's artificial neurons stochastic transfer functions, or by giving them stochastic weights. This makes them useful tools for optimization problems, since the random fluctuations help the network escape from local minima.[124] Stochastic neural networks trained using a Bayesian approach are known as Bayesian neural networks.[125]

Other

[edit]

In a Bayesian framework, a distribution over the set of allowed models is chosen to minimize the cost. Evolutionary methods,[126] gene expression programming,[127] simulated annealing,[128] expectation–maximization, non-parametric methods and particle swarm optimization[129] are other learning algorithms. Convergent recursion is a learning algorithm for cerebellar model articulation controller (CMAC) neural networks.[130][131]

Modes

[edit]

Two modes of learning are available: stochastic and batch. In stochastic learning, each input creates a weight adjustment. In batch learning weights are adjusted based on a batch of inputs, accumulating errors over the batch. Stochastic learning introduces "noise" into the process, using the local gradient calculated from one data point; this reduces the chance of the network getting stuck in local minima. However, batch learning typically yields a faster, more stable descent to a local minimum, since each update is performed in the direction of the batch's average error. A common compromise is to use "mini-batches", small batches with samples in each batch selected stochastically from the entire data set.

Types

[edit]

ANNs have evolved into a broad family of techniques that have advanced the state of the art across multiple domains. The simplest types have one or more static components, including number of units, number of layers, unit weights and topology. Dynamic types allow one or more of these to evolve via learning. The latter is much more complicated but can shorten learning periods and produce better results. Some types allow/require learning to be "supervised" by the operator, while others operate independently. Some types operate purely in hardware, while others are purely software and run on general purpose computers.

Some of the main breakthroughs include:

Network design

[edit]

Using artificial neural networks requires an understanding of their characteristics.

  • Choice of model: This depends on the data representation and the application. Model parameters include the number, type, and connectedness of network layers, as well as the size of each and the connection type (full, pooling, etc. ). Overly complex models learn slowly.
  • Learning algorithm: Numerous trade-offs exist between learning algorithms. Almost any algorithm will work well with the correct hyperparameters[143] for training on a particular data set. However, selecting and tuning an algorithm for training on unseen data requires significant experimentation.
  • Robustness: If the model, cost function and learning algorithm are selected appropriately, the resulting ANN can become robust.

Neural architecture search (NAS) uses machine learning to automate ANN design. Various approaches to NAS have designed networks that compare well with hand-designed systems. The basic search algorithm is to propose a candidate model, evaluate it against a dataset, and use the results as feedback to teach the NAS network.[144] Available systems include AutoML and AutoKeras.[145] scikit-learn library provides functions to help with building a deep network from scratch. We can then implement a deep network with TensorFlow or Keras.

Hyperparameters must also be defined as part of the design (they are not learned), governing matters such as how many neurons are in each layer, learning rate, step, stride, depth, receptive field and padding (for CNNs), etc.[146]

The Python code snippet provides an overview of the training function, which uses the training dataset, number of hidden layer units, learning rate, and number of iterations as parameters:
def train(X, y, n_hidden, learning_rate, n_iter):    m, n_input = X.shape    # 1. random initialize weights and biases    w1 = np.random.randn(n_input, n_hidden)    b1 = np.zeros((1, n_hidden))    w2 = np.random.randn(n_hidden, 1)    b2 = np.zeros((1, 1))    # 2. in each iteration, feed all layers with the latest weights and biases    for i in range(n_iter + 1):        z2 = np.dot(X, w1) + b1        a2 = sigmoid(z2)        z3 = np.dot(a2, w2) + b2        a3 = z3        dz3 = a3 - y        dw2 = np.dot(a2.T, dz3)        db2 = np.sum(dz3, axis=0, keepdims=True)        dz2 = np.dot(dz3, w2.T) * sigmoid_derivative(z2)        dw1 = np.dot(X.T, dz2)        db1 = np.sum(dz2, axis=0)        # 3. update weights and biases with gradients        w1 -= learning_rate * dw1 / m        w2 -= learning_rate * dw2 / m        b1 -= learning_rate * db1 / m        b2 -= learning_rate * db2 / m        if i % 1000 == 0:            print("Epoch", i, "loss: ", np.mean(np.square(dz3)))    model = {"w1": w1, "b1": b1, "w2": w2, "b2": b2}    return model

[citation needed]

Applications

[edit]

Because of their ability to reproduce and model nonlinear processes, artificial neural networks have found applications in many disciplines. These include:

ANNs have been used to diagnose several types of cancers[163][164] and to distinguish highly invasive cancer cell lines from less invasive lines using only cell shape information.[165][166]

ANNs have been used to accelerate reliability analysis of infrastructures subject to natural disasters[167][168] and to predict foundation settlements.[169] It can also be useful to mitigate flood by the use of ANNs for modelling rainfall-runoff.[170] ANNs have also been used for building black-box models in geoscience: hydrology,[171][172] ocean modelling and coastal engineering,[173][174] and geomorphology.[175] ANNs have been employed in cybersecurity, with the objective to discriminate between legitimate activities and malicious ones. For example, machine learning has been used for classifying Android malware,[176] for identifying domains belonging to threat actors and for detecting URLs posing a security risk.[177] Research is underway on ANN systems designed for penetration testing, for detecting botnets,[178] credit cards frauds[179] and network intrusions.

ANNs have been proposed as a tool to solve partial differential equations in physics[180][181][182] and simulate the properties of many-body open quantum systems.[183][184][185][186] In brain research ANNs have studied short-term behavior of individual neurons,[187] the dynamics of neural circuitry arise from interactions between individual neurons and how behavior can arise from abstract neural modules that represent complete subsystems. Studies considered long-and short-term plasticity of neural systems and their relation to learning and memory from the individual neuron to the system level.

It is possible to create a profile of a user's interests from pictures, using artificial neural networks trained for object recognition.[188]

Beyond their traditional applications, artificial neural networks are increasingly being utilized in interdisciplinary research, such as materials science. For instance, graph neural networks (GNNs) have demonstrated their capability in scaling deep learning for the discovery of new stable materials by efficiently predicting the total energy of crystals. This application underscores the adaptability and potential of ANNs in tackling complex problems beyond the realms of predictive modeling and artificial intelligence, opening new pathways for scientific discovery and innovation.[189]

Theoretical properties

[edit]

Computational power

[edit]

The multilayer perceptron is a universal function approximator, as proven by the universal approximation theorem. However, the proof is not constructive regarding the number of neurons required, the network topology, the weights and the learning parameters.

A specific recurrent architecture with rational-valued weights (as opposed to full precision real number-valued weights) has the power of a universal Turing machine,[190] using a finite number of neurons and standard linear connections. Further, the use of irrational values for weights results in a machine with super-Turing power.[191][192][failed verification]

Capacity

[edit]

A model's "capacity" property corresponds to its ability to model any given function. It is related to the amount of information that can be stored in the network and to the notion of complexity.Two notions of capacity are known by the community. The information capacity and the VC Dimension. The information capacity of a perceptron is intensively discussed in Sir David MacKay's book[193] which summarizes work by Thomas Cover.[194] The capacity of a network of standard neurons (not convolutional) can be derived by four rules[195] that derive from understanding a neuron as an electrical element. The information capacity captures the functions modelable by the network given any data as input. The second notion, is the VC dimension. VC Dimension uses the principles of measure theory and finds the maximum capacity under the best possible circumstances. This is, given input data in a specific form. As noted in,[193] the VC Dimension for arbitrary inputs is half the information capacity of a Perceptron. The VC Dimension for arbitrary points is sometimes referred to as Memory Capacity.[196]

Convergence

[edit]

Models may not consistently converge on a single solution, firstly because local minima may exist, depending on the cost function and the model. Secondly, the optimization method used might not guarantee to converge when it begins far from any local minimum. Thirdly, for sufficiently large data or parameters, some methods become impractical.

Another issue worthy to mention is that training may cross some Saddle point which may lead the convergence to the wrong direction.

The convergence behavior of certain types of ANN architectures are more understood than others. When the width of network approaches to infinity, the ANN is well described by its first order Taylor expansion throughout training, and so inherits the convergence behavior of affine models.[197][198] Another example is when parameters are small, it is observed that ANNs often fits target functions from low to high frequencies. This behavior is referred to as the spectral bias, or frequency principle, of neural networks.[199][200][201][202] This phenomenon is the opposite to the behavior of some well studied iterative numerical schemes such as Jacobi method. Deeper neural networks have been observed to be more biased towards low frequency functions.[203]

Generalization and statistics

[edit]

Applications whose goal is to create a system that generalizes well to unseen examples, face the possibility of over-training. This arises in convoluted or over-specified systems when the network capacity significantly exceeds the needed free parameters. Two approaches address over-training. The first is to use cross-validation and similar techniques to check for the presence of over-training and to select hyperparameters to minimize the generalization error.

The second is to use some form of regularization. This concept emerges in a probabilistic (Bayesian) framework, where regularization can be performed by selecting a larger prior probability over simpler models; but also in statistical learning theory, where the goal is to minimize over two quantities: the 'empirical risk' and the 'structural risk', which roughly corresponds to the error over the training set and the predicted error in unseen data due to overfitting.

Confidence analysis of a neural network

Supervised neural networks that use a mean squared error (MSE) cost function can use formal statistical methods to determine the confidence of the trained model. The MSE on a validation set can be used as an estimate for variance. This value can then be used to calculate the confidence interval of network output, assuming a normal distribution. A confidence analysis made this way is statistically valid as long as the output probability distribution stays the same and the network is not modified.

By assigning a softmax activation function, a generalization of the logistic function, on the output layer of the neural network (or a softmax component in a component-based network) for categorical target variables, the outputs can be interpreted as posterior probabilities. This is useful in classification as it gives a certainty measure on classifications.

The softmax activation function is:


Criticism

[edit]

Training

[edit]

A common criticism of neural networks, particularly in robotics, is that they require too many training samples for real-world operation.[204]Any learning machine needs sufficient representative examples in order to capture the underlying structure that allows it to generalize to new cases. Potential solutions include randomly shuffling training examples, by using a numerical optimization algorithm that does not take too large steps when changing the network connections following an example, grouping examples in so-called mini-batches and/or introducing a recursive least squares algorithm for CMAC.[130]Dean Pomerleau uses a neural network to train a robotic vehicle to drive on multiple types of roads (single lane, multi-lane, dirt, etc.), and a large amount of his research is devoted to extrapolating multiple training scenarios from a single training experience, and preserving past training diversity so that the system does not become overtrained (if, for example, it is presented with a series of right turns—it should not learn to always turn right).[205]

Theory

[edit]

A central claim[citation needed] of ANNs is that they embody new and powerful general principles for processing information. These principles are ill-defined. It is often claimed[by whom?] that they are emergent from the network itself. This allows simple statistical association (the basic function of artificial neural networks) to be described as learning or recognition. In 1997, Alexander Dewdney, a former Scientific American columnist, commented that as a result, artificial neural networks have a "something-for-nothing quality, one that imparts a peculiar aura of laziness and a distinct lack of curiosity about just how good these computing systems are. No human hand (or mind) intervenes; solutions are found as if by magic; and no one, it seems, has learned anything".[206] One response to Dewdney is that neural networks have been successfully used to handle many complex and diverse tasks, ranging from autonomously flying aircraft[207] to detecting credit card fraud to mastering the game of Go.

Technology writer Roger Bridgman commented:

Neural networks, for instance, are in the dock not only because they have been hyped to high heaven, (what hasn't?) but also because you could create a successful net without understanding how it worked: the bunch of numbers that captures its behaviour would in all probability be "an opaque, unreadable table...valueless as a scientific resource".

In spite of his emphatic declaration that science is not technology, Dewdney seems here to pillory neural nets as bad science when most of those devising them are just trying to be good engineers. An unreadable table that a useful machine could read would still be well worth having.[208]

Although it is true that analyzing what has been learned by an artificial neural network is difficult, it is much easier to do so than to analyze what has been learned by a biological neural network. Moreover, recent emphasis on the explainability of AI has contributed towards the development of methods, notably those based on attention mechanisms, for visualizing and explaining learned neural networks. Furthermore, researchers involved in exploring learning algorithms for neural networks are gradually uncovering generic principles that allow a learning machine to be successful. For example, Bengio and LeCun (2007) wrote an article regarding local vs non-local learning, as well as shallow vs deep architecture.[209]

Biological brains use both shallow and deep circuits as reported by brain anatomy,[210] displaying a wide variety of invariance. Weng[211] argued that the brain self-wires largely according to signal statistics and therefore, a serial cascade cannot catch all major statistical dependencies.

Hardware

[edit]

Large and effective neural networks require considerable computing resources.[212] While the brain has hardware tailored to the task of processing signals through a graph of neurons, simulating even a simplified neuron on von Neumann architecture may consume vast amounts of memory and storage. Furthermore, the designer often needs to transmit signals through many of these connections and their associated neurons – which require enormous CPU power and time.

Some argue that the resurgence of neural networks in the twenty-first century is largely attributable to advances in hardware: from 1991 to 2015, computing power, especially as delivered by GPGPUs (on GPUs), has increased around a million-fold, making the standard backpropagation algorithm feasible for training networks that are several layers deeper than before.[213] The use of accelerators such as FPGAs and GPUs can reduce training times from months to days.[212][214]

Neuromorphic engineering or a physical neural network addresses the hardware difficulty directly, by constructing non-von-Neumann chips to directly implement neural networks in circuitry. Another type of chip optimized for neural network processing is called a Tensor Processing Unit, or TPU.[215]

Practical counterexamples

[edit]

Analyzing what has been learned by an ANN is much easier than analyzing what has been learned by a biological neural network. Furthermore, researchers involved in exploring learning algorithms for neural networks are gradually uncovering general principles that allow a learning machine to be successful. For example, local vs. non-local learning and shallow vs. deep architecture.[216]

Hybrid approaches

[edit]

Advocates of hybrid models (combining neural networks and symbolic approaches) say that such a mixture can better capture the mechanisms of the human mind.[217][218]

Dataset bias

[edit]

Neural networks are dependent on the quality of the data they are trained on, thus low quality data with imbalanced representativeness can lead to the model learning and perpetuating societal biases.[219][220] These inherited biases become especially critical when the ANNs are integrated into real-world scenarios where the training data may be imbalanced due to the scarcity of data for a specific race, gender or other attribute.[219] This imbalance can result in the model having inadequate representation and understanding of underrepresented groups, leading to discriminatory outcomes that exasperate societal inequalities, especially in applications like facial recognition, hiring processes, and law enforcement.[220][221] For example, in 2018, Amazon had to scrap a recruiting tool because the model favored men over women for jobs in software engineering due to the higher number of male workers in the field.[221] The program would penalize any resume with the word "woman" or the name of any women's college. However, the use of synthetic data can help reduce dataset bias and increase representation in datasets.[222]

[edit]

Recent advancements and future directions

[edit]

Artificial neural networks (ANNs) have undergone significant advancements, particularly in their ability to model complex systems, handle large data sets, and adapt to various types of applications. Their evolution over the past few decades has been marked by a broad range of applications in fields such as image processing, speech recognition, natural language processing, finance, and medicine.

Image processing

[edit]

In the realm of image processing, ANNs are employed in tasks such as image classification, object recognition, and image segmentation. For instance, deep convolutional neural networks (CNNs) have been important in handwritten digit recognition, achieving state-of-the-art performance.[223] This demonstrates the ability of ANNs to effectively process and interpret complex visual information, leading to advancements in fields ranging from automated surveillance to medical imaging.[223]

Speech recognition

[edit]

By modeling speech signals, ANNs are used for tasks like speaker identification and speech-to-text conversion. Deep neural network architectures have introduced significant improvements in large vocabulary continuous speech recognition, outperforming traditional techniques.[223][224] These advancements have enabled the development of more accurate and efficient voice-activated systems, enhancing user interfaces in technology products.

Natural language processing

[edit]

In natural language processing, ANNs are used for tasks such as text classification, sentiment analysis, and machine translation. They have enabled the development of models that can accurately translate between languages, understand the context and sentiment in textual data, and categorize text based on content.[223][224] This has implications for automated customer service, content moderation, and language understanding technologies.

Control systems

[edit]

In the domain of control systems, ANNs are used to model dynamic systems for tasks such as system identification, control design, and optimization. For instance, deep feedforward neural networks are important in system identification and control applications.

Finance

[edit]

ANNs are used for stock market prediction and credit scoring:

  • In investing, ANNs can process vast amounts of financial data, recognize complex patterns, and forecast stock market trends, aiding investors and risk managers in making informed decisions.[223]
  • In credit scoring, ANNs offer data-driven, personalized assessments of creditworthiness, improving the accuracy of default predictions and automating the lending process.[224]

ANNs require high-quality data and careful tuning, and their "black-box" nature can pose challenges in interpretation. Nevertheless, ongoing advancements suggest that ANNs continue to play a role in finance, offering valuable insights and enhancing risk management strategies.

Medicine

[edit]

ИНС способны обрабатывать и анализировать огромные наборы медицинских данных. Они повышают точность диагностики, особенно за счет интерпретации сложных медицинских изображений для раннего выявления заболеваний и прогнозирования результатов лечения пациентов для индивидуального планирования лечения. [224] In drug discovery, ANNs speed up the identification of potential drug candidates and predict their efficacy and safety, significantly reducing development time and costs.[223] Additionally, their application in personalized medicine and healthcare data analysis allows tailored therapies and efficient patient care management.[224] Ongoing research is aimed at addressing remaining challenges such as data privacy and model interpretability, as well as expanding the scope of ANN applications in medicine.

Создание контента

[ редактировать ]

ИНС, такие как генеративно-состязательные сети ( GAN ) и преобразователи, используются для создания контента во многих отраслях. [225] Это связано с тем, что модели глубокого обучения способны изучать стиль художника или музыканта на основе огромных наборов данных и создавать совершенно новые произведения искусства и музыкальные композиции. Например, DALL-E — это глубокая нейронная сеть, обученная на 650 миллионах пар изображений и текстов в Интернете, которая может создавать произведения искусства на основе текста, введенного пользователем. [226] В области музыки трансформеры используются для создания оригинальной музыки для рекламных роликов и документальных фильмов такими компаниями, как AIVA и Jukedeck . [227] В маркетинговой индустрии генеративные модели используются для создания персонализированной рекламы для потребителей. [225] Кроме того, крупные кинокомпании сотрудничают с технологическими компаниями для анализа финансового успеха фильма, например, партнерство между Warner Bros и технологической компанией Cinelytic, основанное в 2020 году. [228] Кроме того, нейронные сети нашли применение при создании видеоигр, где неигровые персонажи (NPC) могут принимать решения на основе всех персонажей, находящихся в данный момент в игре. [229]

См. также

[ редактировать ]
[ редактировать ]
Послушайте эту статью ( 31 минута )
Продолжительность: 31 минута 23 секунды.
Разговорная иконка Википедии
Этот аудиофайл был создан на основе редакции этой статьи от 27 ноября 2011 г. ( 27 ноября 2011 г. ) и не отражает последующие изменения.

Примечания

[ редактировать ]
  1. ^ Хардести Л. (14 апреля 2017 г.). «Объяснение: нейронные сети» . Пресс-служба Массачусетского технологического института. Архивировано из оригинала 18 марта 2024 года . Проверено 2 июня 2022 г.
  2. ^ Ян З, Ян З (2014). Комплексная биомедицинская физика . Каролинский институт, Стокгольм, Швеция: Elsevier. п. 1. ISBN  978-0-444-53633-4 . Архивировано из оригинала 28 июля 2022 года . Проверено 28 июля 2022 г.
  3. ^ Епископ К.М. (17 августа 2006 г.). Распознавание образов и машинное обучение . Нью-Йорк: Спрингер. ISBN  978-0-387-31073-2 .
  4. ^ Перейти обратно: а б Вапник В.Н., Вапник В.Н. (1998). Природа статистической теории обучения (Исправленное 2-е издание). Нью-Йорк Берлин Гейдельберг: Springer. ISBN  978-0-387-94559-0 .
  5. ^ Перейти обратно: а б Ян Гудфеллоу, Йошуа Бенджио и Аарон Курвиль (2016). Глубокое обучение . МТИ Пресс. Архивировано из оригинала 16 апреля 2016 года . Проверено 1 июня 2016 г.
  6. ^ Ферри К., Кайзер С. (2019). Нейронные сети для детей . Справочники. ISBN  978-1-4926-7120-6 .
  7. ^ Маккалок В., Уолтер Питтс (1943). «Логическое исчисление идей, имманентных нервной деятельности». Вестник математической биофизики . 5 (4): 115–133. дои : 10.1007/BF02478259 .
  8. ^ Клини С. (1956). «Представление событий в нервных сетях и конечных автоматах» . Анналы математических исследований . № 34. Издательство Принстонского университета. стр. 3–41 . Проверено 17 июня 2017 г.
  9. ^ Хебб Д. (1949). Организация поведения . Нью-Йорк: Уайли. ISBN  978-1-135-63190-1 .
  10. ^ Хайкин (2008) Нейронные сети и обучающиеся машины, 3-е издание
  11. ^ Розенблатт Ф (1958). «Перцептрон: вероятностная модель хранения и организации информации в мозге». Психологический обзор . 65 (6): 386–408. CiteSeerX   10.1.1.588.3775 . дои : 10.1037/h0042519 . ПМИД   13602029 . S2CID   12781225 .
  12. ^ Вербос П (1975). За пределами регрессии: новые инструменты прогнозирования и анализа в поведенческих науках .
  13. ^ Розенблатт Ф (1957). «Персептрон — воспринимающий и распознающий автомат». Отчет 85-460-1 . Корнеллская авиационная лаборатория.
  14. ^ Олазаран М (1996). «Социологическое исследование официальной истории спора о перцептронах». Социальные исследования науки . 26 (3): 611–659. дои : 10.1177/030631296026003005 . JSTOR   285702 . S2CID   16786738 .
  15. ^ Рассел, Стюарт, Норвиг, Питер (2010). Искусственный интеллект: современный подход (PDF) (3-е изд.). Соединенные Штаты Америки: Pearson Education. стр. 16–28. ISBN  978-0-13-604259-4 .
  16. ^ Минский М, Паперт С (1969). Перцептроны: введение в вычислительную геометрию . МТИ Пресс. ISBN  978-0-262-63022-1 .
  17. ^ Кревье Д. (1993). ИИ: бурные поиски искусственного интеллекта . Нью-Йорк, штат Нью-Йорк: BasicBooks. ISBN  0-465-02997-3 .
  18. ^ Джакалья, врач общей практики (2 ноября 2022 г.). Заставить вещи думать . Холлоуэй. ISBN  978-1-952120-41-1 . Архивировано из оригинала 9 декабря 2023 года . Проверено 29 декабря 2023 г.
  19. ^ Рассел С.Дж., Норвиг П. (2021). Искусственный интеллект: современный подход . Серия Пирсона по искусственному интеллекту. Минг-Вэй Чанг, Джейкоб Девлин, Анка Драган, Дэвид Форсайт, Ян Гудфеллоу, Джитендра Малик, Викаш Мансингка, Джудея Перл, Майкл Дж. Вулдридж (4-е изд.). Хобокен, Нью-Джерси: Пирсон. ISBN  978-0-13-461099-3 .
  20. ^ Ивахненко А.Г., Лапа В.Г. (1967). Кибернетика и методы прогнозирования . американской издательской компании Elsevier ISBN  978-0-444-00020-0 .
  21. ^ Ивахненко А (март 1970 г.). «Эвристическая самоорганизация в задачах инженерной кибернетики» . Автоматика . 6 (2): 207–219. дои : 10.1016/0005-1098(70)90092-0 .
  22. ^ Роббинс Х. , Монро С. (1951). «Метод стохастической аппроксимации» . Анналы математической статистики . 22 (3): 400. дои : 10.1214/aoms/1177729586 .
  23. ^ Амари С (1967). «Теория адаптивного классификатора шаблонов». IEEE-транзакции . ЕС (16): 279–307.
  24. ^ Кохонен Т. (1982). «Самоорганизованное формирование топологически правильных карт признаков». Биологическая кибернетика . 43 (1): 59–69. дои : 10.1007/bf00337288 . S2CID   206775459 .
  25. ^ Фон дер Мальсбург С (1973). «Самоорганизация ориентационно-чувствительных клеток в полосатой коре». Кибернетик . 14 (2): 85–100. дои : 10.1007/bf00288907 . ПМИД   4786750 . S2CID   3351573 .
  26. ^ Кохонен Т., Хонкела Т. (2007). «Сеть Кохонена» . Схоларпедия . 2 (1): 1568. Бибкод : 2007SchpJ...2.1568K . doi : 10.4249/scholarpedia.1568 .
  27. ^ Фукусима К (1980). «Неокогнитрон: самоорганизующаяся модель нейронной сети для механизма распознавания образов, на который не влияет сдвиг положения» (PDF) . Биологическая кибернетика . 36 (4): 193–202. дои : 10.1007/BF00344251 . ПМИД   7370364 . S2CID   206775608 . Архивировано (PDF) из оригинала 3 июня 2014 года . Проверено 16 ноября 2013 г.
  28. ^ Фукусима К (1969 г.). «Визуальное извлечение признаков с помощью многослойной сети аналоговых пороговых элементов». Транзакции IEEE по системным наукам и кибернетике . 5 (4): 322–333. дои : 10.1109/TSSC.1969.300225 .
  29. ^ Перейти обратно: а б Шмидхубер Дж (2022). «Аннотированная история современного искусственного интеллекта и глубокого обучения». arXiv : 2212.11279 [ cs.NE ].
  30. ^ Лейбниц Г.В. (1920). Ранние математические рукописи Лейбница: перевод с латинских текстов, опубликованных Карлом Иммануэлем Герхардтом с критическими и историческими примечаниями (Лейбниц опубликовал цепное правило в мемуарах 1676 года) . Издательство «Открытый суд». ISBN  9780598818461 .
  31. ^ Розенблатт Ф (1962). Принципы нейродинамики . Спартан, Нью-Йорк.
  32. ^ Келли Х.Дж. (1960). «Градиентная теория оптимальных траекторий полета». Журнал АРС . 30 (10): 947–954. дои : 10.2514/8.5282 .
  33. ^ Линнаинмаа С (1970). Представление совокупной ошибки округления алгоритма в виде разложения Тейлора локальных ошибок округления (Мастерс) (на финском языке). Университет Хельсинки. п. 6–7.
  34. ^ Линнаинмаа С (1976). «Разложение Тейлора накопленной ошибки округления». БИТ Численная математика . 16 (2): 146–160. дои : 10.1007/bf01931367 . S2CID   122357351 .
  35. ^ Андерсон Дж.А., Розенфельд Э., ред. (2000). Говорящие сети: устная история нейронных сетей . Массачусетский технологический институт Пресс. дои : 10.7551/mitpress/6626.003.0016 . ISBN  978-0-262-26715-1 .
  36. ^ Вербос П (1982). «Применение достижений нелинейного анализа чувствительности» (PDF) . Системное моделирование и оптимизация . Спрингер. стр. 762–770. Архивировано (PDF) из оригинала 14 апреля 2016 г. Проверено 2 июля 2017 г.
  37. ^ Румельхарт Д.Э., Хинтон Дж.Е., Уильямс Р.Дж. (октябрь 1986 г.). «Изучение представлений путем обратного распространения ошибок» . Природа . 323 (6088): 533–536. Бибкод : 1986Natur.323..533R . дои : 10.1038/323533a0 . ISSN   1476-4687 .
  38. ^ Вайбель А. (декабрь 1987 г.). Распознавание фонем с использованием нейронных сетей с задержкой . Заседание Института инженеров по электротехнике, информатике и связи (IEICE). Токио, Япония.
  39. ^ Александр Вайбель и др., Распознавание фонем с использованием нейронных сетей с задержкой. Архивировано 25 февраля 2021 г. в Wayback Machine IEEE Transactions on Acoustics, Speech and Signal Processing, Том 37, № 3, стр. 328. – 339, март 1989 г.
  40. ^ Чжан В (1988). «Сдвиг-инвариантная нейронная сеть распознавания образов и ее оптическая архитектура» . Материалы ежегодной конференции Японского общества прикладной физики . Архивировано из оригинала 23 июня 2020 года . Проверено 12 апреля 2023 г.
  41. ^ Чжан В (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными соединениями и ее оптическая архитектура» . Прикладная оптика . 29 (32): 4790–7. Бибкод : 1990ApOpt..29.4790Z . дои : 10.1364/AO.29.004790 . ПМИД   20577468 . Архивировано из оригинала 6 февраля 2017 года . Проверено 12 апреля 2023 г.
  42. ^ ЛеКун и др. , «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса», Neural Computation , 1, стр. 541–551, 1989.
  43. ^ Дж. Венг, Н. Ахуджа и Т. С. Хуанг, « Кресцептрон: самоорганизующаяся нейронная сеть, которая растет адаптивно. Архивировано 21 сентября 2017 г. в Wayback Machine », Proc. Международная совместная конференция по нейронным сетям , Балтимор, Мэриленд, том I, стр. 576–581, июнь 1992 г.
  44. ^ Дж. Венг, Н. Ахуджа и Т. С. Хуанг, « Обучение распознаванию и сегментации трехмерных объектов из двумерных изображений. Архивировано 21 сентября 2017 г. в Wayback Machine », Proc. 4-я Международная конференция. Computer Vision , Берлин, Германия, стр. 121–128, май 1993 г.
  45. ^ Дж. Венг, Н. Ахуджа и Т. С. Хуанг, « Обучение распознаванию и сегментации с использованием кресцептрона. Архивировано 25 января 2021 года в Wayback Machine », International Journal of Computer Vision , vol. 25, нет. 2, стр. 105–139, ноябрь 1997 г.
  46. ^ ЛеКун И, Леон Ботту, Йошуа Бенджио, Патрик Хаффнер (1998). «Градиентное обучение, применяемое для распознавания документов» (PDF) . Труды IEEE . 86 (11): 2278–2324. CiteSeerX   10.1.1.32.9552 . дои : 10.1109/5.726791 . S2CID   14542261 . Архивировано (PDF) из оригинала 15 декабря 2017 года . Проверено 7 октября 2016 г.
  47. ^ Цянь, Нин и Терренс Дж. Сейновски. «Предсказание вторичной структуры глобулярных белков с использованием моделей нейронных сетей». Журнал молекулярной биологии 202, вып. 4 (1988): 865-884.
  48. ^ Бор, Хенрик, Якоб Бор, Сёрен Брунак, Родни М. Дж. Коттерилл, Бенни Лаутруп, Лейф Норсков, Оле Х. Олсен и Штеффен Б. Петерсен. «Вторичная структура белка и гомология нейронных сетей. α-спирали в родопсине». Письма ФЭБС 241, (1988): 223-228.
  49. ^ Рост, Буркхард и Крис Сандер. «Предсказание вторичной структуры белка с точностью более 70%». Журнал молекулярной биологии 232, вып. 2 (1993): 584-599.
  50. ^ Амари С.И. (ноябрь 1972 г.). «Обучение шаблонам и последовательностям шаблонов с помощью самоорганизующихся сетей пороговых элементов» . Транзакции IEEE на компьютерах . С-21 (11): 1197–1206. дои : 10.1109/TC.1972.223477 . ISSN   0018-9340 .
  51. ^ Хопфилд Джей-Джей (1982). «Нейронные сети и физические системы с возникающими коллективными вычислительными способностями» . Труды Национальной академии наук . 79 (8): 2554–2558. Бибкод : 1982PNAS...79.2554H . дои : 10.1073/pnas.79.8.2554 . ПМЦ   346238 . ПМИД   6953413 .
  52. ^ Эспиноза-Санчес Х.М., Гомес-Марин А., де Кастро Ф. (5 июля 2023 г.). «Важность нейронауки Кахаля и Лоренте де Но для рождения кибернетики» . Нейробиолог . дои : 10.1177/10738584231179932 . hdl : 10261/348372 . ISSN   1073-8584 . ПМИД   37403768 .
  53. ^ «реверберирующий контур» . Оксфордский справочник . Проверено 27 июля 2024 г.
  54. ^ Маккалок В.С., Питтс В. (декабрь 1943 г.). «Логическое исчисление идей, имманентных нервной деятельности» . Вестник математической биофизики . 5 (4): 115–133. дои : 10.1007/BF02478259 . ISSN   0007-4985 .
  55. ^ Шмидхубер Дж (1993). Кандидатская диссертация: Системное моделирование и оптимизация (PDF) . [ постоянная мертвая ссылка ] Страница 150 и далее демонстрирует присвоение кредитов по эквиваленту 1200 слоев в развернутой RNN.
  56. ^ Перейти обратно: а б С. Хохрейтер, « Исследования динамических нейронных сетей. Архивировано 6 марта 2015 г. в Wayback Machine », Дипломная работа. Институт компьютерных наук Технического университета Мюнхен. Советник: Дж. Шмидхубер , 1991 г.
  57. ^ Хохрайтер С. и др. (15 января 2001 г.). «Градиентный поток в рекуррентных сетях: сложность изучения долгосрочных зависимостей» . Колен Дж. Ф., Кремер СК (ред.). Полевое руководство по динамическим рекуррентным сетям . Джон Уайли и сыновья. ISBN  978-0-7803-5369-5 . Архивировано из оригинала 19 мая 2024 года . Проверено 26 июня 2017 г.
  58. ^ Зепп Хохрайтер , Юрген Шмидхубер (21 августа 1995 г.), Долгосрочная память , Викиданные   Q98967430
  59. ^ Хохрайтер С. , Шмидхубер Дж. (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ПМИД   9377276 . S2CID   1915014 .
  60. ^ Герс Ф., Шмидхубер Дж., Камминс Ф. (1999). «Учимся забывать: постоянное предсказание с помощью LSTM». 9-я Международная конференция по искусственным нейронным сетям: ICANN '99 . Том. 1999. стр. 850–855. дои : 10.1049/cp:19991218 . ISBN  0-85296-721-7 .
  61. ^ Экли Д.Х., Хинтон Дж.Е., Сейновски Т.Дж. (1 января 1985 г.). «Алгоритм обучения машин Больцмана» . Когнитивная наука . 9 (1): 147–169. doi : 10.1016/S0364-0213(85)80012-4 (неактивен 7 августа 2024 г.). ISSN   0364-0213 . {{cite journal}}: CS1 maint: DOI неактивен по состоянию на август 2024 г. ( ссылка )
  62. ^ Смоленский П (1986). «Глава 6: Обработка информации в динамических системах: основы теории гармонии» (PDF) . В Rumelhart DE, McLelland JL (ред.). Параллельная распределенная обработка: исследования микроструктуры познания, Том 1: Основы . МТИ Пресс. стр. 194–281 . ISBN  0-262-68053-Х .
  63. ^ Питер Д. , Хинтон Дж. Э. , Нил Р. М. , Земел Р. С. (1995). «Машина Гельмгольца». Нейронные вычисления . 7 (5): 889–904. дои : 10.1162/neco.1995.7.5.889 . hdl : 21.11116/0000-0002-D6D3-E . ПМИД   7584891 . S2CID   1890561 . Значок закрытого доступа
  64. ^ Хинтон Дж.Э. , Даян П. , Фрей Б.Дж. , Нил Р. (26 мая 1995 г.). «Алгоритм пробуждения-сна для неконтролируемых нейронных сетей». Наука . 268 (5214): 1158–1161. Бибкод : 1995Sci...268.1158H . дои : 10.1126/science.7761831 . ПМИД   7761831 . S2CID   871473 .
  65. ^ Интервью Kurzweil AI, 2012 г. Архивировано 31 августа 2018 г. в Wayback Machine с Юргеном Шмидхубером о восьми соревнованиях, выигранных его командой глубокого обучения в 2009–2012 гг.
  66. ^ «Как глубокое обучение на основе биотехнологий продолжает побеждать в соревнованиях | KurzweilAI» . www.kurzweilai.net . Архивировано из оригинала 31 августа 2018 года . Проверено 16 июня 2017 г.
  67. ^ Чирешан, Д.С., Мейер У, Гамбарделла Л.М., Шмидхубер Дж. (21 сентября 2010 г.). «Глубокие, большие и простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления . 22 (12): 3207–3220. arXiv : 1003.0358 . дои : 10.1162/neco_a_00052 . ISSN   0899-7667 . ПМИД   20858131 . S2CID   1918673 .
  68. ^ Чиресан, округ Колумбия, Мейер У, Маски Дж, Гамбарделла Л, Шмидхубер Дж (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Международная совместная конференция по искусственному интеллекту . дои : 10.5591/978-1-57735-516-8/ijcai11-210 . Архивировано (PDF) из оригинала 29 сентября 2014 года . Проверено 13 июня 2017 г.
  69. ^ Шмидхубер Дж (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД   25462637 . S2CID   11715509 .
  70. ^ Чиресан Д., Джусти А., Гамбарделла Л.М., Шмидхубер Дж. (2012). Перейра Ф., Берджес С.Дж., Ботту Л., Вайнбергер К.К. (ред.). Достижения в области нейронных систем обработки информации 25 (PDF) . Curran Associates, Inc., стр. 2843–2851. Архивировано (PDF) из оригинала 9 августа 2017 года . Проверено 13 июня 2017 г.
  71. ^ Чиресан Д., Джусти А., Гамбарделла Л., Шмидхубер Дж. (2013). «Обнаружение митоза на гистологических изображениях рака молочной железы с помощью глубоких нейронных сетей». Вычисление медицинских изображений и компьютерное вмешательство – MICCAI 2013 . Конспекты лекций по информатике. Том. 7908. стр. 411–418. дои : 10.1007/978-3-642-40763-5_51 . ISBN  978-3-642-38708-1 . ПМИД   24579167 .
  72. ^ Чиресан Д., Мейер У., Шмидхубер Дж. (2012). «Многостолбцовые глубокие нейронные сети для классификации изображений». Конференция IEEE 2012 по компьютерному зрению и распознаванию образов . стр. 3642–3649. arXiv : 1202.2745 . дои : 10.1109/cvpr.2012.6248110 . ISBN  978-1-4673-1228-8 . S2CID   2161592 .
  73. ^ Крижевский А, Суцкевер И, Хинтон Г (2012). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF) . NIPS 2012: Нейронные системы обработки информации, озеро Тахо, Невада . Архивировано (PDF) из оригинала 10 января 2017 года . Проверено 24 мая 2017 г.
  74. ^ Симоньян К, Андрей З (2014). «Сети очень глубокой свертки для крупномасштабного распознавания изображений». arXiv : 1409.1556 [ cs.CV ].
  75. ^ Сегеди С (2015). «Углубляемся в извилины» (PDF) . Квпр2015 .
  76. ^ Нг А, Дин Дж (2012). «Создание функций высокого уровня с использованием крупномасштабного обучения без учителя». arXiv : 1112.6209 [ cs.LG ].
  77. ^ Перейти обратно: а б Биллингс С.А. (2013). Идентификация нелинейных систем: методы NARMAX во временной, частотной и пространственно-временной областях . Уайли. ISBN  978-1-119-94359-4 .
  78. ^ Гудфеллоу И., Пуже-Абади Дж., Мирза М., Сюй Б., Вард-Фарли Д., Озаир С. и др. (2014). Генеративно-состязательные сети (PDF) . Материалы Международной конференции по нейронным системам обработки информации (NIPS 2014). стр. 2672–2680. Архивировано (PDF) из оригинала 22 ноября 2019 г. Проверено 20 августа 2019 г.
  79. ^ «GAN 2.0: гиперреалистичный генератор лиц NVIDIA» . SyncedReview.com . 14 декабря 2018 года . Проверено 3 октября 2019 г.
  80. ^ Каррас Т., Айла Т., Лайне С., Лехтинен Дж. (26 февраля 2018 г.). «Прогрессивное развитие GAN для повышения качества, стабильности и разнообразия». arXiv : 1710.10196 [ cs.NE ].
  81. ^ «Готовьтесь, не паникуйте: синтетические медиа и дипфейки» . свидетель.орг. Архивировано из оригинала 2 декабря 2020 года . Проверено 25 ноября 2020 г.
  82. ^ Сол-Дикштейн Дж., Вайс Э., Махешваранатан Н., Гангули С. (1 июня 2015 г.). «Глубокое обучение без учителя с использованием неравновесной термодинамики» (PDF) . Материалы 32-й Международной конференции по машинному обучению . 37 . ПМЛР: 2256–2265.
  83. ^ Симоньян К., Зиссерман А. (10 апреля 2015 г.), Очень глубокие сверточные сети для крупномасштабного распознавания изображений , arXiv : 1409.1556
  84. ^ Хэ К., Чжан Х, Рен С., Сунь Дж. (2016). «Углубление выпрямителей: превосходство производительности человеческого уровня в классификации ImageNet». arXiv : 1502.01852 [ cs.CV ].
  85. ^ Хэ К., Чжан Х, Рен С., Сунь Дж. (10 декабря 2015 г.). Глубокое остаточное обучение для распознавания изображений . arXiv : 1512.03385 .
  86. ^ Шривастава Р.К., Грефф К., Шмидхубер Дж. (2 мая 2015 г.). «Дорожные сети». arXiv : 1505.00387 [ cs.LG ].
  87. ^ Хэ К., Чжан Х, Рен С., Сунь Дж. (2016). Глубокое остаточное обучение для распознавания изображений . Конференция IEEE 2016 по компьютерному зрению и распознаванию образов (CVPR) . Лас-Вегас, Невада, США: IEEE. стр. 770–778. arXiv : 1512.03385 . дои : 10.1109/CVPR.2016.90 . ISBN  978-1-4673-8851-1 .
  88. ^ Линн А. (10 декабря 2015 г.). «Исследователи Microsoft выиграли конкурс компьютерного зрения ImageNet» . Блог AI . Проверено 29 июня 2024 г.
  89. ^ Васвани А., Шазир Н., Пармар Н., Ушкорейт Дж., Джонс Л., Гомес А.Н. и др. (12 июня 2017 г.). «Внимание — это все, что вам нужно» arXiv : 1706.03762 [ cs.CL ].
  90. ^ Вольф Т., Дебют Л., Сан В., Шомон Дж., Деланг С., Мой А. и др. (2020). «Трансформеры: современная обработка естественного языка». Материалы конференции 2020 года по эмпирическим методам обработки естественного языка: системные демонстрации . стр. 38–45. doi : 10.18653/v1/2020.emnlp-demos.6 . S2CID   208117506 .
  91. ^ Перейти обратно: а б Зелл А (2003). «глава 5.2». Моделирование нейроналера Netze [ Моделирование нейронных сетей ] (на немецком языке) (1-е изд.). Аддисон-Уэсли. ISBN  978-3-89319-554-1 . ОСЛК   249017987 .
  92. ^ Искусственный интеллект (3-е изд.). Паб Аддисон-Уэсли. Ко. 1992. ISBN.  0-201-53377-4 .
  93. ^ Аббод М.Ф. (2007). «Применение искусственного интеллекта для лечения урологического рака». Журнал урологии . 178 (4): 1150–1156. дои : 10.1016/j.juro.2007.05.122 . ПМИД   17698099 .
  94. ^ Доусон CW (1998). «Подход на основе искусственных нейронных сетей к моделированию стока осадков» . Журнал гидрологических наук . 43 (1): 47–66. Бибкод : 1998HydSJ..43...47D . дои : 10.1080/02626669809492102 .
  95. ^ «Словарь машинного обучения» . www.cse.unsw.edu.au. ​Архивировано из оригинала 26 августа 2018 года . Проверено 4 ноября 2009 г.
  96. ^ Чиресан Д., Ули Мейер, Джонатан Маски, Лука М. Гамбарделла, Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF) . Материалы двадцать второй Международной совместной конференции по искусственному интеллекту, том второй . 2 : 1237–1242. Архивировано (PDF) из оригинала 5 апреля 2022 года . Проверено 7 июля 2022 г.
  97. ^ Зелл А (1994). сетей ( Моделирование нейронных на немецком языке) (1-е изд.). Эддисон Уэсли. п. 73. ИСБН  3-89319-554-8 .
  98. ^ Милянович М. (февраль – март 2012 г.). «Сравнительный анализ нейронных сетей с рекуррентным и конечным импульсным откликом в прогнозировании временных рядов» (PDF) . Индийский журнал компьютеров и техники . 3 (1). Архивировано (PDF) из оригинала 19 мая 2024 года . Проверено 21 августа 2019 г.
  99. ^ Келлехер Дж. Д., Мак Нами Б., Д'Арси А. (2020). «7-8». Основы машинного обучения для прогнозного анализа данных: алгоритмы, рабочие примеры и тематические исследования (2-е изд.). Кембридж, Массачусетс: MIT Press. ISBN  978-0-262-36110-1 . OCLC   1162184998 .
  100. ^ Вэй Дж (26 апреля 2019 г.). «Забудьте о скорости обучения и потерях на распад». arXiv : 1905.00094 [ cs.LG ].
  101. ^ Ли Ю, Фу Ю, Ли Х, Чжан СВ (1 июня 2009 г.). «Улучшенный алгоритм обучения нейронной сети обратного распространения ошибки с самоадаптирующейся скоростью обучения». Международная конференция 2009 г. по вычислительному интеллекту и естественным вычислениям . Том. 1. С. 73–76. дои : 10.1109/CINC.2009.111 . ISBN  978-0-7695-3645-3 . S2CID   10557754 .
  102. ^ Хуан ГБ, Чжу Ци, Сью К.К. (2006). «Машина экстремального обучения: теория и приложения». Нейрокомпьютинг . 70 (1): 489–501. CiteSeerX   10.1.1.217.3692 . дои : 10.1016/j.neucom.2005.12.126 . S2CID   116858 .
  103. ^ Видроу Б. и др. (2013). «Алгоритм без поддержки: новый алгоритм обучения для многослойных нейронных сетей». Нейронные сети . 37 : 182–188. дои : 10.1016/j.neunet.2012.09.020 . ПМИД   23140797 .
  104. ^ Оливье Ю., Шарпиа Дж. (2015). «Обучение рекуррентных сетей без возврата». arXiv : 1507.07680 [ cs.NE ].
  105. ^ Хинтон Дж. Э. (2010). «Практическое руководство по обучению ограниченных машин Больцмана» . Тех. Реп. УТМЛ ТР 2010-003 . Архивировано из оригинала 9 мая 2021 года . Проверено 27 июня 2017 г.
  106. ^ Эссен. 2009. [ нужна полная цитата ]
  107. ^ Бернард Э (2021). Введение в машинное обучение . Шампанское: Вольфрам Медиа. п. 9. ISBN  978-1-57955-048-6 . Архивировано из оригинала 19 мая 2024 года . Проверено 22 марта 2023 г.
  108. ^ Бернард Э (2021). Введение в машинное обучение . Шампанское: Вольфрам Медиа. п. 12. ISBN  978-1-57955-048-6 . Архивировано из оригинала 19 мая 2024 года . Проверено 22 марта 2023 г.
  109. ^ Бернард Э (2021). Введение в машинное обучение . Wolfram Media Inc. с. 9. ISBN  978-1-57955-048-6 . Архивировано из оригинала 19 мая 2024 года . Проверено 28 июля 2022 г.
  110. ^ Ойха В.К., Авраам А., Снашель В. (1 апреля 2017 г.). «Метаэвристический дизайн нейронных сетей прямого распространения: обзор двух десятилетий исследований». Инженерные применения искусственного интеллекта . 60 : 97–116. arXiv : 1705.05584 . Бибкод : 2017arXiv170505584O . дои : 10.1016/j.engappai.2017.01.013 . S2CID   27910748 .
  111. ^ Доминик С., Дас Р., Уитли Д., Андерсон К. (июль 1991 г.). «Генетическое обучение с подкреплением для нейронных сетей» . IJCNN-91-Сиэтлская международная совместная конференция по нейронным сетям . IJCNN-91-Сиэтлская международная совместная конференция по нейронным сетям. Сиэтл, Вашингтон, США: IEEE. стр. 71–76. дои : 10.1109/IJCNN.1991.155315 . ISBN  0-7803-0164-1 .
  112. ^ Хоскинс Дж., Химмельблау, DM (1992). «Управление процессами с помощью искусственных нейронных сетей и обучение с подкреплением». Компьютеры и химическая инженерия . 16 (4): 241–251. дои : 10.1016/0098-1354(92)80045-Б .
  113. ^ Берцекас Д., Цициклис Дж. (1996). Нейродинамическое программирование . Афина Сайентифик. п. 512. ИСБН  978-1-886529-10-6 . Архивировано из оригинала 29 июня 2017 года . Проверено 17 июня 2017 г.
  114. ^ Секоманди Н (2000). «Сравнение алгоритмов нейродинамического программирования для задачи выбора маршрута транспортных средств со стохастическими требованиями». Компьютеры и исследования операций . 27 (11–12): 1201–1225. CiteSeerX   10.1.1.392.4034 . дои : 10.1016/S0305-0548(99)00146-X .
  115. ^ де Риго Д., Риццоли А.Е., Сончини-Сесса Р., Вебер Э., Зенеси П. (2001). «Нейродинамическое программирование для эффективного управления пластовыми сетями» . Материалы MODSIM 2001, Международного конгресса по моделированию и симуляции . MODSIM 2001, Международный конгресс по моделированию и симуляции. Канберра, Австралия: Общество моделирования и моделирования Австралии и Новой Зеландии. дои : 10.5281/zenodo.7481 . ISBN  0-86740-525-2 . Архивировано из оригинала 7 августа 2013 года . Проверено 29 июля 2013 г.
  116. ^ Дамас М., Салмерон М., Диас А., Ортега Дж., Прието А., Оливарес Г. (2000). «Генетические алгоритмы и нейродинамическое программирование: применение в сетях водоснабжения». Труды Конгресса 2000 года по эволюционным вычислениям . Конгресс 2000 г. по эволюционным вычислениям. Том. 1. Ла-Хойя, Калифорния, США: IEEE. стр. 7–14. дои : 10.1109/CEC.2000.870269 . ISBN  0-7803-6375-2 .
  117. ^ Дэн Дж., Феррис, MC (2008). «Нейродинамическое программирование для планирования фракционированной лучевой терапии». Оптимизация в медицине . Оптимизация Springer и ее приложения. Том. 12. С. 47–70. CiteSeerX   10.1.1.137.8288 . дои : 10.1007/978-0-387-73299-2_3 . ISBN  978-0-387-73298-5 .
  118. ^ Бозиновский, С. (1982). «Самообучающаяся система с использованием вторичного подкрепления». В Р. Траппле (ред.) Кибернетика и системные исследования: материалы шестого европейского совещания по кибернетике и системным исследованиям. Северная Голландия. стр. 397–402. ISBN   978-0-444-86488-8 .
  119. ^ Бозиновский, С. (2014) « Моделирование механизмов когнитивно-эмоционального взаимодействия в искусственных нейронных сетях, с 1981 г. Архивировано 23 марта 2019 г. в Wayback Machine ». Procedia Информатика с. 255-263
  120. ^ Божиновский С, Божиновская Л (2001). «Самообучающиеся агенты: коннекционистская теория эмоций, основанная на перекрестном оценочном суждении». Кибернетика и системы . 32 (6): 637–667. дои : 10.1080/01969720118145 . S2CID   8944741 .
  121. ^ Салиманс Т., Хо Дж., Чен Х., Сидор С., Суцкевер И. (7 сентября 2017 г.). «Стратегии эволюции как масштабируемая альтернатива обучению с подкреплением». arXiv : 1703.03864 [ stat.ML ].
  122. ^ Такие Ф.П., Мадхаван В., Конти Э., Леман Дж., Стэнли КО, Клюн Дж. (20 апреля 2018 г.). «Глубокая нейроэволюция: генетические алгоритмы — конкурентная альтернатива обучению глубоких нейронных сетей для обучения с подкреплением». arXiv : 1712.06567 [ cs.NE ].
  123. ^ «Искусственный интеллект может «развиваться» для решения проблем» . Наука | АААС . 10 января 2018 года. Архивировано из оригинала 9 декабря 2021 года . Проверено 7 февраля 2018 г.
  124. ^ Турчетти С. (2004), Стохастические модели нейронных сетей , Границы искусственного интеллекта и приложений: интеллектуальные инженерные системы, основанные на знаниях, том. 102, IOS Press, ISBN  978-1-58603-388-0
  125. ^ Жоспен Л.В., Лага Х., Буссаид Ф., Бунтин В., Беннамун М. (2022). «Практические байесовские нейронные сети — руководство для пользователей глубокого обучения». Журнал IEEE Computational Intelligence . Том. 17, нет. 2. С. 29–48. arXiv : 2007.06823 . дои : 10.1109/mci.2022.3155327 . ISSN   1556-603X . S2CID   220514248 .
  126. ^ де Риго Д., Кастеллетти А., Риццоли А.Е., Сончини-Сесса Р., Вебер Э. (январь 2005 г.). «Техника выборочного улучшения для усиления нейродинамического программирования в управлении сетями водных ресурсов» . У Павла Зитека (ред.). Материалы 16-го Всемирного конгресса IFAC – IFAC-PapersOnLine . 16-й Всемирный конгресс МФБ . Том. 16. Прага, Чехия: МФБ. стр. 7–12. дои : 10.3182/20050703-6-CZ-1902.02172 . hdl : 11311/255236 . ISBN  978-3-902661-75-3 . Архивировано из оригинала 26 апреля 2012 года . Проверено 30 декабря 2011 г.
  127. ^ Феррейра С ​​(2006). «Проектирование нейронных сетей с использованием программирования экспрессии генов». В А. Абрахаме, Б. де Баеце, М. Кеппене, Б. Николае (ред.). Прикладные технологии мягких вычислений: проблема сложности (PDF) . Спрингер-Верлаг. стр. 517–536. Архивировано (PDF) из оригинала 19 декабря 2013 года . Проверено 8 октября 2012 года .
  128. ^ Да Ю., Сюрун Г. (июль 2005 г.). «Улучшенная ИНС на основе PSO с методом моделирования отжига» . В Т. Вильманне (ред.). Новые аспекты нейрокомпьютинга: 11-й Европейский симпозиум по искусственным нейронным сетям . Том. 63. Эльзевир. стр. 527–533. дои : 10.1016/j.neucom.2004.07.002 . Архивировано из оригинала 25 апреля 2012 года . Проверено 30 декабря 2011 г.
  129. ^ Ву Дж., Чен Э. (май 2009 г.). «Новый ансамбль непараметрической регрессии для прогнозирования осадков с использованием метода оптимизации роя частиц в сочетании с искусственной нейронной сетью» . В Ван Х., Шен Ю., Хуан Т., Цзэн З. (ред.). 6-й международный симпозиум по нейронным сетям, ISNN 2009 . Конспекты лекций по информатике. Том. 5553. Спрингер. стр. 49–58. дои : 10.1007/978-3-642-01513-7_6 . ISBN  978-3-642-01215-0 . Архивировано из оригинала 31 декабря 2014 года . Проверено 1 января 2012 г.
  130. ^ Перейти обратно: а б Тин Цинь, Цзунхай Чен, Хайтао Чжан, Сифу Ли, Вэй Сян, Мин Ли (2004). «Алгоритм обучения CMAC на основе RLS» (PDF) . Нейронная обработка писем . 19 (1): 49–61. дои : 10.1023/B:NEPL.0000016847.18175.60 . S2CID   6233899 . Архивировано (PDF) из оригинала 14 апреля 2021 года . Проверено 30 января 2019 г.
  131. ^ Тин Цинь, Хайтао Чжан, Цзунхай Чен, Вэй Сян (2005). «Непрерывный CMAC-QRLS и его систолический массив» (PDF) . Нейронная обработка писем . 22 (1): 1–16. дои : 10.1007/s11063-004-2694-0 . S2CID   16095286 . Архивировано (PDF) из оригинала 18 ноября 2018 года . Проверено 30 января 2019 г.
  132. ^ Лекун Ю., Бозер Б., Денкер Дж.С., Хендерсон Д., Ховард Р.Э., Хаббард В. и др. (1989). «Обратное распространение ошибки, примененное к распознаванию рукописного почтового индекса». Нейронные вычисления . 1 (4): 541–551. дои : 10.1162/neco.1989.1.4.541 . S2CID   41312633 .
  133. ^ Янн ЛеКун (2016). Слайды по глубокому обучению в Интернете. Архивировано 23 апреля 2016 г. на Wayback Machine.
  134. ^ Хохрайтер С. , Шмидхубер Дж. (1 ноября 1997 г.). «Долгая кратковременная память». Нейронные вычисления . 9 (8): 1735–1780. дои : 10.1162/neco.1997.9.8.1735 . ISSN   0899-7667 . ПМИД   9377276 . S2CID   1915014 .
  135. ^ Сак Х., Старший А., Бофей Ф. (2014). «Архитектуры рекуррентных нейронных сетей с долгосрочной кратковременной памятью для крупномасштабного акустического моделирования» (PDF) . Архивировано из оригинала (PDF) 24 апреля 2018 года.
  136. ^ Ли X, Ву X (15 октября 2014 г.). «Построение глубоких рекуррентных нейронных сетей на основе долговременной памяти для распознавания речи с большим словарным запасом». arXiv : 1410.4281 [ cs.CL ].
  137. ^ Фань Ю, Цянь Ю, Се Ф, Сунг ФК (2014). «Синтез TTS с помощью двунаправленных рекуррентных нейронных сетей на основе LSTM» . Материалы ежегодной конференции Международной ассоциации речевой коммуникации Interspeech : 1964–1968 . Проверено 13 июня 2017 г.
  138. ^ Шмидхубер Дж (2015). «Глубокое обучение» . Схоларпедия . 10 (11): 85–117. Бибкод : 2015SchpJ..1032832S . doi : 10.4249/scholarpedia.32832 .
  139. ^ Дзен Х, Сак Х (2015). «Однонаправленная рекуррентная нейронная сеть с долговременной краткосрочной памятью и рекуррентным выходным слоем для синтеза речи с малой задержкой» (PDF) . Google.com . ИКАССП. стр. 4470–4474. Архивировано (PDF) из оригинала 9 мая 2021 года . Проверено 27 июня 2017 г.
  140. ^ Фан Б, Ван Л, Сунг Ф.К., Се Л (2015). «Фотореалистичная говорящая голова с глубоким двунаправленным LSTM» (PDF) . Труды ICASSP . Архивировано (PDF) из оригинала 1 ноября 2017 г. Проверено 27 июня 2017 г.
  141. ^ Сильвер Д. , Хуберт Т., Шритвизер Дж., Антоноглу И., Лай М., Гез А. и др. (5 декабря 2017 г.). «Освоение шахмат и сёги путем самостоятельной игры с помощью общего алгоритма обучения с подкреплением». arXiv : 1712.01815 [ cs.AI ].
  142. ^ Гудфеллоу И., Пуже-Абади Дж., Мирза М., Сюй Б., Вард-Фарли Д., Озаир С. и др. (2014). Генеративно-состязательные сети (PDF) . Материалы Международной конференции по нейронным системам обработки информации (NIPS 2014). стр. 2672–2680. Архивировано (PDF) из оригинала 22 ноября 2019 г. Проверено 20 августа 2019 г.
  143. ^ Пробст П., Булестей А.Л., Бишль Б. (26 февраля 2018 г.). «Настраиваемость: важность гиперпараметров алгоритмов машинного обучения». Дж. Мах. Учиться. Рез . 20 : 53:1–53:32. S2CID   88515435 .
  144. ^ Зоф Б., Le QV (4 ноября 2016 г.). «Поиск нейронной архитектуры с обучением с подкреплением». arXiv : 1611.01578 [ cs.LG ].
  145. ^ Хайфэн Цзинь, Цинцюань Сун, Ся Ху (2019). «Auto-keras: эффективная система поиска нейронной архитектуры» . Материалы 25-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . АКМ. arXiv : 1806.10282 . Архивировано из оригинала 21 августа 2019 года . Проверено 21 августа 2019 г. - через autokeras.com.
  146. ^ Клаесен М., Де Мур Б. (2015). «Поиск гиперпараметров в машинном обучении». arXiv : 1502.02127 [ cs.LG ]. Бибкод : 2015arXiv150202127C
  147. ^ Эш Р. (1990). «Функциональное приближение». Справочник по прикладной математике (изд. Springer, США). Бостон, Массачусетс: Springer US. стр. 928–987. дои : 10.1007/978-1-4684-1423-3_17 . ISBN  978-1-4684-1423-3 .
  148. ^ Сарстедт М., Му Э (2019). «Регрессионный анализ» . Краткое руководство по исследованию рынка . Тексты Спрингера по бизнесу и экономике. Шпрингер Берлин Гейдельберг. стр. 209–256. дои : 10.1007/978-3-662-56707-4_7 . ISBN  978-3-662-56706-7 . S2CID   240396965 . Архивировано из оригинала 20 марта 2023 года . Проверено 20 марта 2023 г.
  149. ^ Тянь Дж., Тан Ю., Сунь С., Цзэн Дж., Цзинь Ю. (декабрь 2016 г.). «Самоадаптивная аппроксимация пригодности на основе сходства для эволюционной оптимизации» . Серия симпозиумов IEEE 2016 по вычислительному интеллекту (SSCI) . стр. 1–8. дои : 10.1109/SSCI.2016.7850209 . ISBN  978-1-5090-4240-1 . S2CID   14948018 . Архивировано из оригинала 19 мая 2024 года . Проверено 22 марта 2023 г.
  150. ^ Алалул В.С., Куреши А.Х. (2019). «Обработка данных с использованием искусственных нейронных сетей» . Динамическая ассимиляция данных – преодоление неопределенностей . doi : 10.5772/intechopen.91935 . ISBN  978-1-83968-083-0 . S2CID   219735060 . Архивировано из оригинала 20 марта 2023 года . Проверено 20 марта 2023 г.
  151. ^ Пал М., Рой Р., Басу Дж., Бепари М.С. (2013). «Слепое разделение источников: обзор и анализ» . Международная конференция Oriental COCOSDA 2013 года проводится совместно с Конференцией 2013 года по исследованию и оценке разговорного языка в Азии (O-COCOSDA/CASLRE) . IEEE. стр. 1–5. дои : 10.1109/ICSDA.2013.6709849 . ISBN  978-1-4799-2378-6 . S2CID   37566823 . Архивировано из оригинала 20 марта 2023 года . Проверено 20 марта 2023 г.
  152. ^ Зиссис Д (октябрь 2015 г.). «Облачная архитектура, способная воспринимать и прогнозировать поведение нескольких судов» . Прикладные мягкие вычисления . 35 : 652–661. дои : 10.1016/j.asoc.2015.07.002 . Архивировано из оригинала 26 июля 2020 года . Проверено 18 июля 2019 г.
  153. ^ Сенгупта Н., Сахидулла, Мэриленд, Саха, Гутам (август 2016 г.). «Классификация звуков легких с использованием кепстральных статистических характеристик». Компьютеры в биологии и медицине . 75 (1): 118–129. doi : 10.1016/j.compbiomed.2016.05.013 . ПМИД   27286184 .
  154. ^ Чой, Кристофер Б. и др. « 3d-r2n2: унифицированный подход к реконструкции трехмерных объектов с одним и несколькими изображениями. Архивировано 26 июля 2020 года в Wayback Machine ». Европейская конференция по компьютерному зрению. Спрингер, Чам, 2016 г.
  155. ^ Турек, Фред Д. (март 2007 г.). «Введение в нейросетевое машинное зрение» . Проектирование систем технического зрения . 12 (3). Архивировано из оригинала 16 мая 2013 года . Проверено 5 марта 2013 г.
  156. ^ Майтра Д.С., Бхаттачарья У, Паруи С.К. (август 2015 г.). «Общий подход на основе CNN к распознаванию рукописных символов в нескольких сценариях» . 2015 13-я Международная конференция по анализу и распознаванию документов (ICDAR) . стр. 1021–1025. дои : 10.1109/ICDAR.2015.7333916 . ISBN  978-1-4799-1805-8 . S2CID   25739012 . Архивировано из оригинала 16 октября 2023 года . Проверено 18 марта 2021 г.
  157. ^ Гесслер Дж. (август 2021 г.). «Датчик для анализа пищевых продуктов с применением импедансной спектроскопии и искусственных нейронных сетей» . РиуНет УПВ (1): 8–12. Архивировано из оригинала 21 октября 2021 года . Проверено 21 октября 2021 г.
  158. ^ Френч Дж (2016). «CAPM путешественника во времени». Журнал инвестиционных аналитиков . 46 (2): 81–96. дои : 10.1080/10293523.2016.1255469 . S2CID   157962452 .
  159. ^ Роман Михайлович Балабин, Екатерина Ивановна Ломакина (2009). «Нейросетевой подход к данным квантовой химии: точное предсказание энергий теории функционала плотности». Дж. Хим. Физ. 131 (7): 074104. Бибкод : 2009JChPh.131g4104B . дои : 10.1063/1.3206326 . ПМИД   19708729 .
  160. ^ Сильвер Д. и др. (2016). «Освоение игры в го с помощью глубоких нейронных сетей и поиска по дереву» (PDF) . Природа . 529 (7587): 484–489. Бибкод : 2016Natur.529..484S . дои : 10.1038/nature16961 . ПМИД   26819042 . S2CID   515925 . Архивировано (PDF) из оригинала 23 ноября 2018 г. Проверено 31 января 2019 г.
  161. ^ Пасик А. (27 марта 2023 г.). «Глоссарий искусственного интеллекта: объяснение нейронных сетей и других терминов» . Нью-Йорк Таймс . ISSN   0362-4331 . Архивировано из оригинала 1 сентября 2023 года . Проверено 22 апреля 2023 г.
  162. ^ Шехнер С. (15 июня 2017 г.). «Facebook усиливает искусственный интеллект для блокирования террористической пропаганды» . Уолл Стрит Джорнал . ISSN   0099-9660 . Архивировано из оригинала 19 мая 2024 года . Проверено 16 июня 2017 г.
  163. ^ Ганесан Н (2010). «Применение нейронных сетей в диагностике онкологических заболеваний с использованием демографических данных» . Международный журнал компьютерных приложений . 1 (26): 81–97. Бибкод : 2010IJCA....1z..81G . дои : 10.5120/476-783 .
  164. ^ Боттачи Л. (1997). «Искусственные нейронные сети, применяемые для прогнозирования результатов лечения пациентов с колоректальным раком в отдельных учреждениях» (PDF) . Ланцет . 350 (9076). Ланцет: 469–72. дои : 10.1016/S0140-6736(96)11196-X . ПМИД   9274582 . S2CID   18182063 . Архивировано из оригинала (PDF) 23 ноября 2018 года . Проверено 2 мая 2012 г.
  165. ^ Ализаде Э., Лайонс С.М., Касл Дж.М., Прасад А. (2016). «Измерение систематических изменений формы инвазивных раковых клеток с использованием моментов Цернике» . Интегративная биология . 8 (11): 1183–1193. дои : 10.1039/C6IB00100A . ПМИД   27735002 . Архивировано из оригинала 19 мая 2024 года . Проверено 28 марта 2017 г.
  166. ^ Лайонс С (2016). «Изменения формы клеток коррелируют с метастатическим потенциалом у мышей» . Биология Открытая . 5 (3): 289–299. дои : 10.1242/bio.013409 . ПМЦ   4810736 . ПМИД   26873952 .
  167. ^ Набиан М.А., Мейдани Х. (28 августа 2017 г.). «Глубокое обучение для ускоренного анализа надежности инфраструктурных сетей». Компьютерное гражданское и инфраструктурное проектирование . 33 (6): 443–458. arXiv : 1708.08551 . Бибкод : 2017arXiv170808551N . дои : 10.1111/mice.12359 . S2CID   36661983 .
  168. ^ Набиан М.А., Мейдани Х. (2018). «Ускорение стохастической оценки связности транспортных сетей после землетрясения с помощью суррогатов на основе машинного обучения» . 97-е ежегодное собрание Совета по транспортным исследованиям . Архивировано из оригинала 9 марта 2018 года . Проверено 14 марта 2018 г.
  169. ^ Диас Э., Бротонс В., Томас Р. (сентябрь 2018 г.). «Использование искусственных нейронных сетей для прогнозирования трехмерной упругой осадки фундаментов на грунтах с наклонными коренными породами» . Почвы и фундаменты . 58 (6): 1414–1422. Бибкод : 2018SoFou..58.1414D . дои : 10.1016/j.sandf.2018.08.001 . hdl : 10045/81208 . ISSN   0038-0806 .
  170. ^ Тайбиян А., Мохаммад Т.А., Газали А.Х., Машохор С. «Искусственная нейронная сеть для моделирования осадков и стоков» . Пертаника Журнал науки и технологий . 24 (2): 319–330. Архивировано из оригинала 17 мая 2023 года . Проверено 17 мая 2023 г.
  171. ^ Говиндараджу РС (1 апреля 2000 г.). «Искусственные нейронные сети в гидрологии. I: Предварительные концепции». Журнал гидрологической техники . 5 (2): 115–123. дои : 10.1061/(ASCE)1084-0699(2000)5:2(115) .
  172. ^ Говиндараджу РС (1 апреля 2000 г.). «Искусственные нейронные сети в гидрологии. II: Гидрологические приложения». Журнал гидрологической техники . 5 (2): 124–137. дои : 10.1061/(ASCE)1084-0699(2000)5:2(124) .
  173. ^ Перес DJ, Юппа С, Кавалларо Л, Кансельер А, Фоти Е (1 октября 2015 г.). «Значительное расширение рекордов высоты волн с помощью нейронных сетей и повторного анализа данных о ветре». Моделирование океана . 94 : 128–140. Бибкод : 2015OcMod..94..128P . дои : 10.1016/j.ocemod.2015.08.002 .
  174. ^ Дваракиш Г.С., Ракшит С., Натесан У (2013). «Обзор применения нейронных сетей в прибрежной инженерии» . Искусственные интеллектуальные системы и машинное обучение . 5 (7): 324–331. Архивировано из оригинала 15 августа 2017 года . Проверено 5 июля 2017 г.
  175. ^ Эрмини Л., Катани Ф., Касальи Н. (1 марта 2005 г.). «Искусственные нейронные сети применяются для оценки предрасположенности к оползням». Геоморфология . Геоморфологическая опасность и антропогенное воздействие в горных условиях. 66 (1): 327–343. Бибкод : 2005Geomo..66..327E . дои : 10.1016/j.geomorph.2004.09.025 .
  176. ^ Никс Р., Чжан Дж. (май 2017 г.). «Классификация Android-приложений и вредоносных программ с использованием глубоких нейронных сетей». Международная совместная конференция по нейронным сетям 2017 (IJCNN) . стр. 1871–1878. doi : 10.1109/IJCNN.2017.7966078 . ISBN  978-1-5090-6182-2 . S2CID   8838479 .
  177. ^ «Обнаружение вредоносных URL-адресов» . Группа систем и сетей в UCSD . Архивировано из оригинала 14 июля 2019 года . Проверено 15 февраля 2019 г.
  178. ^ Хомаюн С., Ахмадзаде М., Хашеми С., Дегантанха А., Хаями Р. (2018), Дегантанха А., Конти М., Даргахи Т. (ред.), «BoTShark: подход к глубокому обучению для обнаружения трафика ботнетов», Разведка киберугроз , достижения в области Информационная безопасность, вып. 70, Springer International Publishing, стр. 137–153, номер документа : 10.1007/978-3-319-73951-9_7 , ISBN.  978-3-319-73951-9
  179. ^ Гош, Рейли (январь 1994 г.). «Обнаружение мошенничества с кредитными картами с помощью нейронной сети». Материалы двадцать седьмой Гавайской международной конференции по системным наукам HICSS-94 . Том. 3. С. 621–630. дои : 10.1109/HICSS.1994.323314 . ISBN  978-0-8186-5090-1 . S2CID   13260377 .
  180. ^ Анантасвами А (19 апреля 2021 г.). «Новейшие нейронные сети решают сложнейшие в мире уравнения быстрее, чем когда-либо прежде» . Журнал Кванта . Архивировано из оригинала 19 мая 2024 года . Проверено 12 мая 2021 г.
  181. ^ «ИИ решил ключевую математическую загадку для понимания нашего мира» . Обзор технологий Массачусетского технологического института . Архивировано из оригинала 19 мая 2024 года . Проверено 19 ноября 2020 г. .
  182. ^ «ИИ с открытым исходным кодом Калифорнийского технологического института для решения уравнений в частных производных» . ИнфоQ . Архивировано из оригинала 25 января 2021 года . Проверено 20 января 2021 г.
  183. ^ Надь А (28 июня 2019 г.). «Вариационный квантовый метод Монте-Карло с нейросетевым анзацем для открытых квантовых систем». Письма о физических отзывах . 122 (25): 250501. arXiv : 1902.09483 . Бибкод : 2019PhRvL.122y0501N . doi : 10.1103/PhysRevLett.122.250501 . ПМИД   31347886 . S2CID   119074378 .
  184. ^ Ёсиока Н., Хамазаки Р. (28 июня 2019 г.). «Построение нейронных стационарных состояний для открытых квантовых систем многих тел». Физический обзор B . 99 (21): 214306. arXiv : 1902.07006 . Бибкод : 2019PhRvB..99u4306Y . дои : 10.1103/PhysRevB.99.214306 . S2CID   119470636 .
  185. ^ Хартманн М.Ю., Карлео Дж. (28 июня 2019 г.). «Нейросетевой подход к диссипативной квантовой динамике многих тел». Письма о физических отзывах . 122 (25): 250502. arXiv : 1902.05131 . Бибкод : 2019PhRvL.122y0502H . doi : 10.1103/PhysRevLett.122.250502 . ПМИД   31347862 . S2CID   119357494 .
  186. ^ Вичентини Ф, Бьелла А, Реньо Н, Сиути К (28 июня 2019 г.). «Вариационный нейросетевой анзац для устойчивых состояний в открытых квантовых системах». Письма о физических отзывах . 122 (25): 250503. arXiv : 1902.10104 . Бибкод : 2019PhRvL.122y0503V . doi : 10.1103/PhysRevLett.122.250503 . ПМИД   31347877 . S2CID   119504484 .
  187. ^ Форрест, доктор медицины (апрель 2015 г.). «Моделирование действия алкоголя на подробной модели нейронов Пуркинье и более простой суррогатной модели, которая работает более чем в 400 раз быстрее» . BMC Нейронаука . 16 (27): 27. дои : 10.1186/s12868-015-0162-6 . ПМЦ   4417229 . ПМИД   25928094 .
  188. ^ Вечорек С., Филипяк Д., Филиповска А. (2018). «Семантическое профилирование интересов пользователей на основе изображений с помощью нейронных сетей» . Исследования семантической сети . 36 (Новые темы семантических технологий). дои : 10.3233/978-1-61499-894-5-179 . Архивировано из оригинала 19 мая 2024 года . Проверено 20 января 2024 г.
  189. ^ Мерчант А, Бацнер С, Шенхольц СС, Айкол М, Чеон Г, Чубук ЭД (декабрь 2023 г.). «Масштабирование глубокого обучения для открытия материалов» . Природа . 624 (7990): 80–85. Бибкод : 2023Природа.624...80М . дои : 10.1038/s41586-023-06735-9 . ISSN   1476-4687 . ПМЦ   10700131 . ПМИД   38030720 .
  190. ^ Сигельманн Х, Зонтаг Э (1991). «Вычислимость по Тьюрингу с помощью нейронных сетей» (PDF) . Прил. Математика. Летт . 4 (6): 77–80. дои : 10.1016/0893-9659(91)90080-F . Архивировано (PDF) из оригинала 19 мая 2024 года . Проверено 10 января 2017 г.
  191. ^ Бэйнс С. (3 ноября 1998 г.). «Аналоговый компьютер превосходит модель Тьюринга» . ЭЭ Таймс . Архивировано из оригинала 11 мая 2023 года . Проверено 11 мая 2023 г.
  192. ^ Балькасар Дж. (июль 1997 г.). «Вычислительная мощность нейронных сетей: характеристика сложности по Колмогорову». Транзакции IEEE по теории информации . 43 (4): 1175–1183. CiteSeerX   10.1.1.411.7782 . дои : 10.1109/18.605580 .
  193. ^ Перейти обратно: а б Маккей диджей (2003). Теория информации, вывод и алгоритмы обучения (PDF) . Издательство Кембриджского университета . ISBN  978-0-521-64298-9 . Архивировано (PDF) из оригинала 19 октября 2016 г. Проверено 11 июня 2016 г.
  194. ^ Обложка Т (1965). «Геометрические и статистические свойства систем линейных неравенств с приложениями в распознавании образов» (PDF) . Транзакции IEEE на электронных компьютерах . ИС-14 (3). ИИЭР : 326–334. дои : 10.1109/PGEC.1965.264137 . Архивировано (PDF) из оригинала 5 марта 2016 года . Проверено 10 марта 2020 г.
  195. ^ Джеральд Ф (2019). «Воспроизводимость и экспериментальный дизайн машинного обучения аудио и мультимедийных данных». Материалы 27-й Международной конференции ACM по мультимедиа . АКМ . стр. 2709–2710. дои : 10.1145/3343031.3350545 . ISBN  978-1-4503-6889-6 . S2CID   204837170 .
  196. ^ «Хватит возиться, начни измерять! Предсказуемый экспериментальный дизайн экспериментов с нейронной сетью» . Тензорный расходомер . Архивировано из оригинала 18 апреля 2022 года . Проверено 10 марта 2020 г.
  197. ^ Ли Дж., Сяо Л., Шенхольц С.С., Бахри Ю., Новак Р., Золь-Дикштейн Дж. и др. (2020). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». Журнал статистической механики: теория и эксперимент . 2020 (12): 124002. arXiv : 1902.06720 . Бибкод : 2020JSMTE2020l4002L . дои : 10.1088/1742-5468/abc62b . S2CID   62841516 .
  198. ^ Артур Жако, Франк Габриэль, Клемент Хонглер (2018). Нейронное касательное ядро: конвергенция и обобщение в нейронных сетях (PDF) . 32-я конференция по нейронным системам обработки информации (NeurIPS 2018), Монреаль, Канада. Архивировано (PDF) из оригинала 22 июня 2022 года . Проверено 4 июня 2022 г.
  199. ^ Сюй ZJ, Чжан Ю, Сяо Ю (2019). «Поведение обучения глубокой нейронной сети в частотной области». В Гедеон Т., Вонг К., Ли М. (ред.). Нейронная обработка информации . Конспекты лекций по информатике. Том. 11953. Спрингер, Чам. стр. 264–274. arXiv : 1807.01251 . дои : 10.1007/978-3-030-36708-4_22 . ISBN  978-3-030-36707-7 . S2CID   49562099 .
  200. ^ Насим Рахаман, Аристид Баратин, Деванш Арпит, Феликс Дракслер, Мин Лин, Фред Хампрехт и др. (2019). «О спектральном смещении нейронных сетей» (PDF) . Материалы 36-й Международной конференции по машинному обучению . 97 : 5301–5310. arXiv : 1806.08734 . Архивировано (PDF) из оригинала 22 октября 2022 года . Проверено 4 июня 2022 г.
  201. ^ Чжи-Цинь Джон Сюй, Яоюй Чжан, Тао Ло, Яньян Сяо, Чжэн Ма (2020). «Частотный принцип: анализ Фурье проливает свет на глубокие нейронные сети». Коммуникации в вычислительной физике . 28 (5): 1746–1767. arXiv : 1901.06523 . Бибкод : 2020CCoPh..28.1746X . doi : 10.4208/cicp.OA-2020-0085 . S2CID   58981616 .
  202. ^ Тао Ло, Чжэн Ма, Чжи-Цинь Джон Сюй, Яоюй Чжан (2019). «Теория частотного принципа для глубоких нейронных сетей общего назначения». arXiv : 1906.09235 [ cs.LG ].
  203. ^ Сюй ZJ, Чжоу Х (18 мая 2021 г.). «Принцип глубокой частоты для понимания того, почему более глубокое обучение происходит быстрее» . Материалы конференции AAAI по искусственному интеллекту . 35 (12): 10541–10550. arXiv : 2007.14313 . дои : 10.1609/aaai.v35i12.17261 . ISSN   2374-3468 . S2CID   220831156 . Архивировано из оригинала 5 октября 2021 года . Проверено 5 октября 2021 г.
  204. ^ Паризи Дж.И., Кемкер Р., Парт Дж.Л., Кэнан С., Вермтер С. (1 мая 2019 г.). «Непрерывное обучение на протяжении всей жизни с помощью нейронных сетей: обзор» . Нейронные сети . 113 : 54–71. arXiv : 1802.07569 . дои : 10.1016/j.neunet.2019.01.012 . ISSN   0893-6080 . ПМИД   30780045 .
  205. ^ Дин Померло, «Обучение искусственных нейронных сетей, основанное на знаниях, для автономного вождения роботов»
  206. ^ Дьюдни АК (1 апреля 1997 г.). Да, у нас нет нейтронов: поучительный экскурс в перипетии плохой науки . Уайли. п. 82. ИСБН  978-0-471-10806-1 .
  207. ^ НАСА - Центр летных исследований Драйдена - Центр новостей: Выпуски новостей: ПРОЕКТ НЕЙРОННОЙ СЕТИ НАСА ПРОХОДИТ ВЕХУ. Архивировано 2 апреля 2010 г. в Wayback Machine . НАСА.gov. Проверено 20 ноября 2013 г.
  208. ^ «Защита нейронных сетей Роджером Бриджменом» . Архивировано из оригинала 19 марта 2012 года . Проверено 12 июля 2010 г.
  209. ^ «Масштабирование алгоритмов обучения для {ИИ} — LISA — Публикации — Aigaion 2.0» . www.iro.umonreal.ca .
  210. ^ DJ Felleman и DC Van Essen, « Распределенная иерархическая обработка данных в коре головного мозга приматов », Cerebral Cortex , 1, стр. 1–47, 1991.
  211. ^ Дж. Венг, « Естественный и искусственный интеллект: введение в вычислительный мозг-разум. Архивировано 19 мая 2024 г. в Wayback Machine », BMI Press, ISBN   978-0-9858757-2-5 , 2012.
  212. ^ Перейти обратно: а б Эдвардс С. (25 июня 2015 г.). «Болезнь роста глубокого обучения». Коммуникации АКМ . 58 (7): 14–16. дои : 10.1145/2771283 . S2CID   11026540 .
  213. ^ Шмидхубер Дж (2015). «Глубокое обучение в нейронных сетях: обзор». Нейронные сети . 61 : 85–117. arXiv : 1404.7828 . дои : 10.1016/j.neunet.2014.09.003 . ПМИД   25462637 . S2CID   11715509 .
  214. ^ «Горький урок» . www.incompleteideas.net . Проверено 7 августа 2024 г.
  215. ^ Кейд Мец (18 мая 2016 г.). «Google создала собственные чипы для работы своих ботов с искусственным интеллектом» . Проводной . Архивировано из оригинала 13 января 2018 года . Проверено 5 марта 2017 г.
  216. ^ «Масштабирование алгоритмов обучения в сторону ИИ» (PDF) . Архивировано (PDF) из оригинала 12 августа 2022 года . Проверено 6 июля 2022 г.
  217. ^ Тахмасеби, Хезархани (2012). «Гибридные нейронные сети-нечеткая логика-генетический алгоритм оценки оценок» . Компьютеры и геонауки . 42 : 18–27. Бибкод : 2012CG.....42...18T . дои : 10.1016/j.cageo.2012.02.004 . ПМЦ   4268588 . ПМИД   25540468 .
  218. Солнце и Книжник, 1990.
  219. ^ Перейти обратно: а б Норори Н., Ху Кью, Аеллен Ф.М., Фарачи Ф.Д., Цовара А. (октябрь 2021 г.). «Устранение предвзятости в больших данных и искусственном интеллекте в здравоохранении: призыв к открытой науке» . Узоры . 2 (10): 100347. doi : 10.1016/j.patter.2021.100347 . ПМЦ   8515002 . ПМИД   34693373 .
  220. ^ Перейти обратно: а б Карина В. (27 октября 2022 г.). «Провал по номинальной стоимости: влияние предвзятой технологии распознавания лиц на расовую дискриминацию в уголовном правосудии» . Научные и социальные исследования . 4 (10): 29–40. дои : 10.26689/ssr.v4i10.4402 . ISSN   2661-4332 .
  221. ^ Перейти обратно: а б Чанг Икс (13 сентября 2023 г.). «Гендерная предвзятость при найме: анализ влияния алгоритма рекрутинга Amazon» . Достижения в области экономики, менеджмента и политических наук . 23 (1): 134–140. дои : 10.54254/2754-1169/23/20230367 . ISSN   2754-1169 . Архивировано из оригинала 9 декабря 2023 года . Проверено 9 декабря 2023 г.
  222. ^ Кортылевски А., Эггер Б., Шнайдер А., Гериг Т., Морель-Форстер А., Веттер Т. (июнь 2019 г.). «Анализ и уменьшение ущерба от смещения набора данных при распознавании лиц с помощью синтетических данных». Семинары конференции IEEE/CVF 2019 года по компьютерному зрению и распознаванию образов (CVPRW) (PDF) . IEEE. стр. 2261–2268. дои : 10.1109/cvprw.2019.00279 . ISBN  978-1-7281-2506-0 . S2CID   198183828 . Архивировано (PDF) из оригинала 19 мая 2024 года . Проверено 30 декабря 2023 г.
  223. ^ Перейти обратно: а б с д и ж Хуан Ю (2009). «Достижения в области искусственных нейронных сетей – методологическое развитие и применение» . Алгоритмы . 2 (3): 973–1007. дои : 10.3390/algor2030973 . ISSN   1999-4893 .
  224. ^ Перейти обратно: а б с д и Карири Э, Луати Х, Луати А, Масмуди Ф (2023). «Изучение достижений и будущих направлений исследований искусственных нейронных сетей: подход к интеллектуальному анализу текста» . Прикладные науки . 13 (5): 3186. дои : 10.3390/app13053186 . ISSN   2076-3417 .
  225. ^ Перейти обратно: а б Фуй-Хун На Ф, Чжэн Р, Цай Дж, Сиау К, Чен Л (3 июля 2023 г.). «Генераторный ИИ и ChatGPT: приложения, проблемы и сотрудничество ИИ и человека» . Журнал исследований и применений информационных технологий . 25 (3): 277–304. дои : 10.1080/15228053.2023.2233814 . ISSN   1522-8053 .
  226. ^ «Самое интересное в нем — сбои DALL-E 2 — IEEE Spectrum» . ИИЭЭ . Архивировано из оригинала 15 июля 2022 года . Проверено 9 декабря 2023 г.
  227. ^ Брио Дж.П. (январь 2021 г.). «От искусственных нейронных сетей к глубокому обучению для генерации музыки: история, концепции и тенденции» . Нейронные вычисления и их приложения . 33 (1): 39–65. дои : 10.1007/s00521-020-05399-0 . ISSN   0941-0643 .
  228. ^ Чоу PS (6 июля 2020 г.). «Призрак в (Голливудской) машине: новые применения искусственного интеллекта в киноиндустрии». NECSUS_Европейский журнал медиаисследований . дои : 10.25969/MEDIAREP/14307 . ISSN   2213-0217 .
  229. ^ Ю Х, Хэ С, Гао Ю, Ян Дж, Ша Л, Чжан Ю и др. (июнь 2010 г.). «Динамическая регулировка сложности игрового ИИ для видеоигры Dead-End». 3-я Международная конференция по информатике и наукам о взаимодействии . IEEE. стр. 583–587. дои : 10.1109/icicis.2010.5534761 . ISBN  978-1-4244-7384-7 . S2CID   17555595 .

Библиография

[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 02ea8120ff061599b54244388fb1acb6__1723027860
URL1:https://arc.ask3.ru/arc/aa/02/b6/02ea8120ff061599b54244388fb1acb6.html
Заголовок, (Title) документа по адресу, URL1:
Neural network (machine learning) - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)