Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Nat Neuro '14 | Information-limiting correlations. #10

Closed
NorbertZheng opened this issue Oct 21, 2021 · 23 comments
Closed

Nat Neuro '14 | Information-limiting correlations. #10

NorbertZheng opened this issue Oct 21, 2021 · 23 comments

Comments

@NorbertZheng
Copy link
Owner

https://www.nature.com/articles/nn.3807.pdf

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 21, 2021

大脑使用的计算策略很大程度上取决于可以存储在neuron群体中的information容量,而这又与neuron群体中的noise correlation有关。在生物体内,noise correlation往往是正的,而且与tuning func的相似性成正比。
这种noise correlation被认为会限制information,有人提出通过decorrelation提升information容量。相反在分析和数值上,这篇文章发现decorrelation并不意味着information容量的增加。因为限制information容量的只是differential correaltion(正比于tuning func一阶导数乘积)。
不幸的是,differential correlation可能很小,导致它们很难被检测出来。这篇文章提出differential correlation对information的影响可以被simple decoder检测出出来(linear decoder的交叉验证解码?就是在#9 里面与直接估计相互补的那一种方法)。

@NorbertZheng
Copy link
Owner Author

neuron反应通常是可变的,不同trial之间,对同一stimulus做出反应的尖峰数量(这一个的correlation在#9 中被称为noise correlation)和时间永远不会相同。这种可变性会大大降低neuron编码的精度(毕竟占用了额外的表征空间,在有效编码的眼中是在浪费浪费information空间),因为编码stimulus的几个值分布之间会有overlap。
同时,平均大量neuron的发放也不可取,主要在于其过于依赖noise correlation的dist。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 21, 2021

如果noise correlation的dist是independent的,information容量随着neuron群体size增大而线性增大。但大脑中的noise correlation还是会呈现出相似tuning func的noise correlation更强的趋势,导致information容量随着neuron群体size增大而饱和,可通过被动过程(balanced network)和主动过程(top-down attention)来decorrelation。
image
体内相关性通常会随着首选刺激 δs 的差异而降低。 这种减少通常可以用圆形高斯函数(如图所示)或刺激的指数函数来合理地描述。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 25, 2021

事实上,减少noise correlation的所谓好处已经激发了大量研究。但这种好处是否是真的?我们需要质疑一下这个问题。我们能否直接进入一个接收外部输入的网络,减少noise correlation并期望information提升?目前所有的研究结果或者是基于的理论都无法解释这个问题。因为它们在一开始就假设了一个noise correlation结构,而没有依据实验中实际获得spike seq的可变性来推测noise correlation结构。
那么,当我们考虑网络接收外界noisy输入的真实情况时,会发生什么变化呢?一个明显的变化就是输入的information不能无限制增长,外界的input只能携带有限的information。例如,在强光下(其中noise基本上不存在)的理想光观察者也无法准确知道线的方向。因此,即使neuron是independent的,添加更多的neuron不会永远增加information。对于大型网络,这立即排除了图c中ρ=0的那条线。
真实input的一个不太明显的效果是它改变了noise correlation与information之间的关系,但这里只假设了noise correlation会变化(即,在变化stimulus的时候noise correlation发生变化)。如果input是固定的但network的参数(network connectivity或者是单个neuron的参数等)可被修改,这也会导致noise correlation的变化,但tuning func也会被改变。这不就是大脑网络的学习过程么,而这种情况下information会发生什么是未知的。然而,我们至少将展示一个现实网络,其中noise correlation对information几乎没有影响。较小的noise correlation并不再暗示更多的information了,这就直接把图c的暗示全盘否定了。
image

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 25, 2021

但这并不意味着noise correlation不影响information,事实上它们会,只不过不是和noise correlation的size无关,而是与noise
correlation的pattern相关。只有noise correlation近似与tuning func一阶导数乘积成正比的时候(也就是differential correlation),会限制information容量。
但information-limiting correlation可能非常难以测量,主要因为它们可能非常小并被其它correlation所掩盖。幸运的是,只要同时记录neuron,就可以通过实际数量的trial来检测它们对information的影响。

@NorbertZheng
Copy link
Owner Author

Why decorrelation does not imply more information: a simple case

为了确定correlation与information之间的关系,我们考虑一个接收finite input的network。我们以一种不改变input information改变noise correlation的方式改变network中的参数,并检查这如何影响network中的information。模型如下:

A Network of Leaky Integrate-and-Fire Neurons

我们计算具有N个LIF神经元network发放的mean和Cov。我们的出发点是膜电位的时间演变,LIF模型公式如下:
image
其中,g(s)是平均突触驱动,其依赖于一个潜在性多维但time-independent的stimulus,但噪音项是time-dependent的Gaussian noise:
image
这里表示,只有k=k‘时才会有autocorrelation,这是对noise结构的分离,不同种类的noise之间correlation为0。这里的autocorrelation和#5 中neuron表征的autocorrelation是一个意思。这里的autocorrelation func被归一化了:
image
其前面的加权项M是一个随即混合矩阵,使得simulation中既包含independent noise,也包含shared noise。这可以通过如下设定M来实现:
image
于是,噪音项可以被简化为如下表达式:
image
为了考虑reset,我们引入一个negative self-current:
image
当i≠j的时候,h(t)是一个current pulse,但这仅限于t在pulse之后的时候。我们为了简单起见将其归一化:
image
J具备V的单位,我们将其设置为任意矩阵。但在我们的simulation中使用E-I network。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 25, 2021

由于stimulus在neuron表征空间中是一个有限的连续流形,而noise会将其离散化,这也就是分辨率阈值,导致了finite information。我们下面主要关注Fisher Information(反比于neuron活动理想观测者分辨率阈值的平方),因为很多动物实验都涉及了分辨率。我们计算得到input information rate为:
image
在τm趋向于infinity的时候,output information rate为:
image
当观测事件窗户为2s,network具备250个以上的neuron时,对于T的以来会大大降低。
image
其中,黑线是计算得到的input information rate。小的观察时间会减少信息,但随着neuron数量的增加,效果会减弱。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 25, 2021

output information rate公式暗示,对于大的时间窗户和较长的τm,无论N的取值,output information rate与input information rate相等。这也就意味着,network保留了所有的input information,无关LIF的spiking非线性。
值得注意的是,随着neuron数目的增长information逐渐饱和,但output information rate公式中并没有对network中整体correlation的显式依赖,相反它仅取决于从input继承的correlation。这意味着我们可以以network的整体correlation改变而不影响information的方式改变network参数。而这确实是该工作所发现的,我们可以将network整体correlation的平均水平改变10倍甚至更多,只需改变connectivity,而无需更改information。值得注意的是,即使对于information尚未饱和到最大值的小型网络也是这样。
image
图b是network中各个neuron noise correlation的平均值随neuron数目的变化趋势。三个颜色的点对应三个不同的network,其中仅在connection strength矩阵J上有差异,但mean frate都为40Hz左右,功能类似于对noise correlation的归一化。这里的曲线是non-leaky IF模型的分析解(LIF更加真实,但是无法分析地解出information),open circle是non-leaky IF的仿真结果,最上面LIF和non-leaky IF差别有点大,但总体趋势还是很明白的,毕竟有解析解。图c进一步佐证了noise correlation的变化。
图d中我们可以发现,即使很小的network也会饱和(受noise correlation很小,图d中小图的最下面一根线)。information独立于non-leaky IF网络的整体correlation,略微依赖于LIF网络的整体correlation(但或许大脑中以LIF这种为主?甚至更加复杂)。但总趋势还是十分明显的,小的correlation并不意味着更多的information。
或许就是因为finite information input给压死了吧,看LIF不同noise correlation时的information容量,在neuron数量变大时被压扁了。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 25, 2021

Information-limiting correlations in population codes

如果network中的information随着neuron的数量增加而饱和,那么必须存在的noise correlation模式是什么样的呢?或者说information-limiting correlations是什么样的?
我们考虑一个具有N个带有bell-shaped tuning func的neuron的network,对stimulus的平均反应如下图所示。
image
如果p(r|s)的dist是具有足够linear统计量的exp分布族,它可以很好地近似体内的神经反应(实验证据?in-vivo的情况)。这种情况下,Fisher Information由下式给出:
image
其中,f'是tuning func对s的一阶导数:
image
该计算得来的Fisher Information有时被称为linear Fisher Information,并独立于spike seq统计,其倒数为LOLE(详见#9)的var。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 25, 2021

上面提到neuron数量N趋向于∞时,Fisher Information会饱和,这时协方差矩阵Σ的类型是什么呢?一种可能限制information的noise是那种看起来像signal的noise,它不能通过不同neuron之间的加权平均(linear操作)所去除掉。
image
在这种情况下,相关性主要与调谐曲线的导数的乘积成正比。
考虑一个neuron表征空间,每个轴对应一个neuron的发放活动。一个特定stimulus的无噪音活动(上面图中的山丘型response)对应该控件中的一个点,并且所有可能的无噪声山丘(对应于所有可能的刺激)位于同一空间的曲线上。 仅移动山丘位置的噪声会沿曲线产生随机移动, 这种类型的噪声导致仅位于曲线上的dist。
image
平均neuron群体活动画出的线是那条黑线,具备information-limiting功能的noise沿着黑线缠绕。如果variability相比于流形曲率很小,那么黄色的dist就可以由蓝色的dist来近似,蓝色的dist带有正比于f'(s)f'(s)T的Cov矩阵,这被称为differential correlation。
image
上图是一个N维neuron表征空间中同一个stimulus得到的response点集(由于noise,noise内部具备一些结构,只有具备differential correlation结构的noise会影响information容量)降维后的结果,并且我们假设noise分布的特征值谱只有一个特征值为O(N),其余为O(1)。图a中,如果f'(s)与noise分布的长轴角相差小于O(1/(N^0.5)),noise分布的结构——correlation就是information-limiting的。真实情况中的correlation会跟随f(s),如图b所示。图c表示具备information-limiting correlation的时候,suboptimal linear decoder解码的information会随N的增长而饱和,即便没有information-limiting correlation也会饱和,除非suboptimal近似optimal——w垂直于noise分布的最大变化方向。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 26, 2021

为了更正式地探究differential correlation限制information,我们考虑一个Cov矩阵:
image
其中,Σ0是一个不会限制information的Cov矩阵,即
image
上式不会随着N的增加而饱和,即增长为∞。这时的linear FI为:
image
易知,该表达式随着N的增大而收敛到1/ε。在Online Method进一步证明了这一结果的适用范围广义:differential correlation是可以限制information(随着N趋向于∞)的唯一correlation。这一理论同样适用于多变量tuning func,只不过导数被偏导所替代。这也暗示,这一理论可以用到motor system这样一个tuning func随时间变化的动态系统。
对于小neuron群体或观察时间过短(只有少量neuron发放,有效减少neuron群体规模)的情况下,增加differential correlation也会降低information,这与记录neuron数量(越多的neuron越能反应neuron群体表征几何)、观察时间窗口和noise结构无关。
即使information被定义为LOLE的var倒数,代替linear FI也是对的。在大neuron群体和长时间窗口中,这两个量是相同的。但在小窗口、小neuron群体中,linear FI低估了LOLE的var倒数(#9 (comment) )。

@NorbertZheng
Copy link
Owner Author

另外一个有意思的事情是,当包含了non-differential correlation后,如下面这种形式的correlation被加入到Cov矩阵中:
image
如果u不平行于f',这会导致information降低,但是并不会饱和。
image

@NorbertZheng
Copy link
Owner Author

Potential sources of differential correlations

两种因素导致了differential correlation的出现:

  • Limited Information in the world。这很自然,如果外界information是有限的,随着记录neuron数目的增加其自然会饱和。这也就意味着differential correlation的出现。
    image
  • Approximate Computation。suboptimal computation引入了information loss,导致饱和点的进一步下降,这也就意味着differential correlation的增长。

上面的意思是只要引起了information的饱和,便包含differential correlation。
这些告诉我们differential correlation何时出现,但并没有告诉我们如何出现。该篇工作提供了两种可能性:

  • Shared Connectivity。如果neuron共享input,那么在response中共享的variability无法被avg除去。但有些研究提出:多个神经元可能部分共享可变性的不同方面,并且可以将这些差异结合起来以几乎完全消除可变性。该篇工作也确实通过实验证明了shared connectivity不一定会引入information-limiting correlation。
    image
    这里我们可以看到在带有positive noise correlation的时候,information没有饱和,且增长率与input相同。
  • Shared Fluctuations in the Excitability, or Gain, of Neurons。这就是global fluctuations,依据不同的tuning func来决定其是否具备differential correlation效用。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 26, 2021

Differential correlations might be small and masked

现在,我们开始关注如何从expr数据中检测出differential correlation。一种方法是直接寻找它们,但这种方法会被证明并不高效。

  • 当differential correlation是唯一的correlation时,它们可以很容易被找到。我们可以固定一个neuron绘制其与其它neuron的noise correlation作为prefered stimulus difference的函数,并将其在neuron之间平均,对于bell-shaped tuning curve得到如下曲线:
    image
    此外,neuron之间的correlation通常是stimulus-dependent的,我们可以绘制neuron对的noise correlation作为stimulus的函数,对于bell-shaped tuning curve得到如下曲线:
    image
    这两条曲线都具备zero-负相关和side-正相关,这是differential correlation的明显信号。
  • correlation包含很多non-differential correlation时,differential correlation可能被掩盖。上面的情况是很少见的,仅在working memory中缓慢扩散的活动山找到了证据,其它实验没有观察到这种相关性。特别是在sensory脑区,更多的correlation是stimulus-indepdent的。
    image
    这种时候并不意味着体内differential correlation非常罕见。而是意味着,神经系统包含很多non-information-limiting correlation,而这些correlation会掩盖differential correlation这一分量。

@NorbertZheng
Copy link
Owner Author

我们来看一个masking differential correlation的简单例子,考虑如下tuning func:
image
noise Cov矩阵定义如下:
image
显然,noise correlation是stimulus-independent的,并且似乎没有differential correlation分量。但这是一种错觉:
image
最后一项显然是information-limiting correlation。但这样好tricky啊,你怎么判定分解出来就一定是对的,因为分解是不唯一的,不像傅里叶变换那样可靠,解析分解好像不是一个非常靠谱的方法。

@NorbertZheng
Copy link
Owner Author

与其他相关性,它们也可能只是很小。如果differential correlation很小,noise correlation相对prefered stimulus difference的func在有differential correlation和没有differential correlation的时候没有很大差别。
image
仅通过检查noise correlation很难检测differential correlation。 这是因为differential correlation可能非常小,并且可能被non-informatio-limiting correlation掩盖。 但是,可以检测differential correlation对information的影响——这必须通过直接估计information来完成,而不是通过估计correlation来完成。

@NorbertZheng
Copy link
Owner Author

Discrete classification and other performance measures

尽管我们目前的结果是针对fine classification和Fisher Information得出的,但它们可以推广到两个类别之间的coarse classification(离散情况)。在这种情况下,information-limiting correlation正比于ΔfΔfT,其中Δf是neuron对两类stimulus反应平均差异,就是离散版的f'。为了说明这一点,我们将binary classification任务的acc与neuron数量的func画出:
image
其中,黑线是independent neuron群体的acc,红线是加入了non-differential correlation的neuron群体acc,蓝线是加入non-differential correlation和differential correlation的neuron群体acc。

@NorbertZheng
Copy link
Owner Author

上面所提到任务的一个例子就是motion dot task,这项任务需要受试者区分点的上下运动。这项任务的难度由点的连贯性(点向上或向下连贯移动的百分比)决定,当连贯性接近于零时最难。

  • 连贯性远离0时,Δf对应的Δs很大,这是一个离散的coarse classification任务。
  • 连贯性接近0时,Δf对应的Δs很小,类似于取极限,这是一个连续的fine classification任务。information-limiting correlation与tuning func对连贯性的一阶导数乘积成正比。

information-limiting correlation对于不同的stimulus和task是不同的。其实,也对不同的tuning func不同,这也就是为什么研究什么种类的correlation会影响大脑information容量是无意义的,要想找到differential correlation,就必须要在#5 的指引下记录足够的neuron来恢复整个脑区的表征流形,differential correlation便是沿着表征流形表面拓展的#1

@NorbertZheng
Copy link
Owner Author

Detecting differential correlations by directly measuring information

尽管通常无法直接观察differential correlation,但我们可以通过计算information与neuron数量的关系并确定information饱和的位置来推断它们的存在。 然而,虽然从数据中计算information原则上很简单,但在实践中必须小心。
spike seq之间的correlation通常是通过单个电极、四极管或电极阵列一次记录几个neuron来收集的。即使使用大规模电极阵列,大多数neuron也是没有被同时记录的。 因此,如果基于该数据构建noise Cov,则许多条目将为空。 不幸的是,从这样一个不完整的noise Cov估计信息容易出现严重错误。 这是因为必须使用插值技术来填充缺失的条目。 例如,一种常见的方法是假设correlation随着prefered stimulus之间的距离而降低。 然而,这几乎肯定会导致对information的严重错误估计:如果tuning func不是平移不变的,就像体内的情况,那么这种类型的correlation不会限制information。
image
这样的话,即使neuron群体包含information-limiting成分,人们也会错误地得出information不受限制的结论(因为对Cov矩阵的参数化强假设破坏了原有的Cov结构,可能differential correlation因此而被去除)。 事实上,这是一个普遍的问题:人们通常依赖于对协方差矩阵参数形式的强假设,并且信息的估计将更多地依赖于参数化而不是稀有的协方差数据(原始数据)。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 28, 2021

为了说明这一点,我们进行了模拟,其中我们测量了N/2对神经元之间的相关性,并且如先前提出的我们通过测量的相关系数进行近似重采样来填充缺失的元素。这种方法大大高估了information,但未能揭示information的饱和。应该指出的是在之前一项研究中,这种方法确实揭示了饱和信息,但这是因为该研究使用了suboptimal decoder。
image
即使同时记录所有neuron(这里的所有neuron是我们所care脑区中的所有neuron),以便测量所有成对correlation,但由于trial次数有限,估计information也是很棘手的。在下图 中,我们显示了通过等式
image
直接获得的信息,用于之前模拟使用的information-limiting neuron群体。 在这里,“直接”意味着我们从数据中估计了调谐曲线的导数和相关性,反转了协方差矩阵,并使用了上面的等式。 即使进行了 2400 次试验,以这种方式获得的信息也随着神经元数量呈线性增长; 需要 4,000 次试验才出现饱和的迹象。 使用协方差矩阵的脊正则化(补充建模)获得了类似的结果。
image

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 28, 2021

幸运的是,只要同时记录了足够多的神经元,就有可能获得可靠的信息估计。这可以使用神经活动的交叉验证解码器来完成(通过梯度下降和提前停止训练,一种绕过上述直接方法的矩阵求逆步骤的方法,使其更加稳健)。 这种方法仅通过几百次试验就揭示了信息饱和。
image
然而,需要注意的是,虽然线性解码器在真实信息饱和时保证显示信息饱和,但反过来却不是:发现线性解码器估计的信息饱和并不意味着真实信息饱和 ,因为该解码器可能不是optimal的。
#9 中所言,可以提供Fisher Information的下界估计。

@NorbertZheng
Copy link
Owner Author

尽管differential correlation几乎决定了neuron群体中的information含量,但LOLE却不依赖于它们。比如Cov矩阵的格式如下:
image
LOLE只依赖于Σ0,而不依赖于ε。直观地说,LOLE是无法摆脱differential correlation引起的波动,因为它们只是移动了活动的尖峰,而没有留下关于它是被stimulus还是被noise移动的痕迹。LOLE所能做的就是确保正确考虑Σ0产生的correlation。
总而言之,在大量neuron群体中,通常很难以足够的精度评估correlation的模式以确定是否存在differential correlation,因此很难从correlation的测量中得出关于群体中information的任何结论。 尽管如此,还是有可能准确评估information,如果记录了足够多的neuron,就可以找出神经群体中的感觉information是否饱和。 始终使用同时记录的neuron至关重要(即,永远不要填充协方差矩阵中的缺失条目)。 但即使同时记录的neuron,最好使用诸如交叉验证解码器之类的方法来获得准确的信息估计,而不是通过等式
image
获得的直接估计。

@NorbertZheng
Copy link
Owner Author

NorbertZheng commented Oct 28, 2021

如果没有做到同时记录neuron,分开记录的neuron还能进行concat么?这个问题依据所要探讨的问题分为以下两种:

  • 关注information容量问题。这在前面已经表明了我们无法得到information容量的可靠结论,我们concat就是在破坏correlation结构。比如,concat的neuron集合中的noise互补,直接将differential correlation完全破坏,导致得出information容量的错误估计,就算上LOLE都不管用。
  • 关注所恢复几何流形的准确度问题。如果环路是进化稳定的,且没有来自top-down的信号影响,多做几次记录确实没有问题,linear增加可用neuron数目来恢复表征几何bioRxiv '17 | A theory of multineuronal dimensionality, dynamics and measurement. #5 。但是如果不能保证表征几何的稳定性,那你恢复了个什么玩意?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant