摘要 自然语言处理(NLP)是计算机科学领域的一个重要研究方向,旨在实现人与计算机之间用自然语言进行有效通信。NLP的目标是使计算机能够理解和处理文本数据,从而能够与人类有效地进行交流。NLP的广泛应用将极大地提升人与计算机之间的交流和理解能力。然而,NLP仍面临着语义理解的困难、语言多样性的挑战和数据隐私的问题等。因此,进一步的研究和探索仍然是NLP领域的重要课题。 语言模型 语言模型是自然语言处理中的重要概念,旨在刻画语言的概率分布,并预测给定上下文的词语或字符序列的概率。语言模型可以分为单词级别和字符级别两种类型。单词级别语言模型基于给定上下文的单词序列来预测下一个可能的单词,例如在上下文 “我喜欢吃”中,单词级别语言模型可以预测下一个单词可能是 “水果”、“面条”或者“巧克力”。而字符级别语言模型则是基于上下文字符序列来预测下一个可能的字符。 在本文中,我们将详细介绍经典的N−gramN-gramN−gram语言模型和最新的GPTGPTGPT模型。 N-gram 语言模型 N−gramN-gramN−gram语言模型是一种基于统计的自然语言处理模型。它的核心思想是利用前N−1 ...
本文尚未完结,博主正在努力更新ヾ(≧∇≦*)ゝ 操作系统概述 什么是操作系统 操作系统(Operating System,OS) 是控制和管理整个计算机系统硬件与软件资源,合理地组织调度计算机的工作与资源的分配,进而为用户和其他软件提供方便接口与环境的程序集合,操作系统是计算机系统中最基本的系统软件。 操作系统的作用 作为计算机系统资源的管理者 处理机管理:分配和控制处理机。 存储器管理:负责内存的分配和回收。 文件管理:实现对文件的存取、共享和保护。 设备管理:负责I/O设备的分配(回收)与操纵。 作为用户与计算机硬件系统之间的接口 用户接口(命令接口,用户可以直接调用) 联机用户接口,也叫交互式命令接口,用户输入一条,操作系统执行一条 脱机用户接口,也叫批处理命令接口,由一组作业控制命令组成,直到遇到作业结束语句时,系统才停止该作业的运行 GUI 程序接口 程序接口是为用户程序在执行中访问系统资源而设置的。 由一组系统调用组成,用户通过在程序中使用这些系统调用来请求操作系统为其提供服务。 实现了对计算机资源的扩充(作为扩充机器,即虚拟 ...
本文仅用于记录个人markdown中常用Katex语法和博客中的外部挂载标签,仅列举个人喜欢及常用,并不全面,还望谅解。 常用Katex语法 向下取整 1$\lfloor x \rfloor$ 渲染结果——⌊x⌋\lfloor x \rfloor⌊x⌋ 向上取整 1$\lceil x \rceil$ 渲染结果——⌈x⌉\lceil x \rceil⌈x⌉ 求和 1$\sum_1^n$ 渲染结果——∑1n\sum_1^n∑1n 积分 1$\int_1^\infty$ 渲染结果——∫1∞\int_1^\infty∫1∞ 连乘 1$\prod_{i=1}^n$ 渲染结果——∏i=1n\prod_{i=1}^n∏i=1n 分式 1$\frac ab$ 渲染结果——ab\frac abba 根式 1$\sqrt{x^3}$ 渲染结果——x3\sqrt{x^3}x3 常用外部挂载标签 分栏 示例源码渲染演示12345678910{% tabs link1 %}<!-- tab 示例源码 -->**这里是源码** ...
算数移位、逻辑移位、循环移位 字、字节、字长、机器字长、指令字长、存储字长 字节:1B=8bit,一个字节(Byte)通常等于8个二进制位(Bit)。 字:用来表示被处理信息的单位,用来度量数据类型的宽度。 字长:通常指CPU内部用于整数运算的数据通路的宽度,字长等于CPU内部用于整数运算的运算器位数和通用寄存器的宽度。 机器字长:某“16位或32位机器中”,16、32指的是字长,也称机器字长,现代计算机大多为64位。 指令字长:一个指令字中包含二进制代码的位数。 存储字长:一个存储单元存储的二进制代码的长度,MDR的位数。 它们必须是字节的整数倍。 指令字长一般是存储字长的整数倍,若指令字长等于存储字长的2倍,则需要2个访存周期来取一条指令;若指令字长等于存储字长,则取指周期等于机器周期。 做题:通常情况下,1个字=1个机器字长,如机器字长为32位,则一个字为4B,一个半字为2B。 常见单位转化 1k=2101k=2^{10}1k=210 1M=2201M=2^{20}1M=220 1G=2301G=2^{30}1G=230 1T=2401T=2^{40}1T=240 1s=109 ...
Hexo
未读开通POP3/SMTP服务 以QQ邮箱为例 进入QQ邮箱,点击【设置】,点击【账户】。 在其中找到POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务,管理服务,生成授权码 进入twikoo配置邮件通知服务 进入twikoo管理面板,点击【配置管理】,点击【邮件通知】 关于邮件通知配置,可参考我的配置 SENDER_EMAIL:1378600591@qq.com SENDER_NAME:王貔貅’s Blog 评论提醒 SMTP_SERVICE:QQ xxxxxxxxxx1 1hexo cl;hexo g;hexo sshell SMTP_PORT:465 SMTP_SECURE:true SMTP_USER:1378600591@qq.com SMTP_PASS:【邮件通知邮箱密码,QQ、163邮箱请填写授权码。】 MAIL_SUBJECT:你在王貔貅’s Blog 评论得到了回复 MAIL_TEMPLATE:【可留空,也可自定义模板】 MAIL_SUBJECT_ADMIN:王貔貅’s Blog 有了新的评论 MAIL_TEMPLATE_ADM ...
Hexo
未读为什么要压缩博客静态资源? 在页面加载过程中,HTML、CSS、JavaScript等资源文件的大小都会对页面加载速度产生影响,因此,为了提高页面加载的速度和用户体验,压缩这些文件是非常必要的。 具体来说,压缩可以在不影响文件功能的前提下,去除无关空格、注释、多余代码等内容,从而减小文件大小,优化传输速度。更小的文件大小可以加快下载速度,减少网络带宽使用,同时也有助于减少服务器负载并提高页面加载速度,改善用户体验。 通过压缩,可以将文件大小降低30%~90%不等,对于特别大的文件可能能够看到数百KB的差异。更重要的是,很多CDN服务商也提供了对已压缩文件响应的缓存,这意味着您可以在没有修改文件内容的情况下继续使用压缩后的文件。 因此,在构建优化的网站或网络应用时,压缩HTML、CSS、JavaScript等文件非常重要。仅此一举可以极大地提升网站性能,改善用户体验。 什么是gulp? Gulp是一个功能强大的前端构建工具,可以自动化完成开发相关的任务,比如文件压缩、图片优化、文件合并、自动刷新浏览器等。它基于Node.js平台,使用JavaScript语言编写,通过gulpfile.j ...
存储器的分类 按层次分类 按存储介质分类 按存取方式分类 按信息可更改性分类 按信息可保存性分类 易失性存储器(主存、Cache)—— 断电后,存储信息消失的存储器。 非易失性存储器(磁盘、光盘)—— 断电后,存储信息依然保持的存储器。 破坏性读出(如DRAM芯片,读出数据后要进行重写)—— 信息读出后,原存储信息被破坏。 非破坏性读出(如SRAM芯片、磁盘、光盘)—— 信息读出后,原存储信息不被破坏。 存储器的性能指标 存储容量、单位成本和存储速度。 追求目标:大容量、低成本、高速度 存储器的层次化结构 多级存储器结构 思想:用上一层的存储器作为低一层存储器的高速缓存 三级存储系统的层次结构 主存和Cache之间的数据调动是由硬件自动完成的,对所有程序员均是透明的。 主存和辅存之间的数据调动则是由硬件和操作系统共同完成,对应用程序员是透明的。 在Cache—主存层和主存—辅存层,上一层的内容都是下一层中的内容的副本,即Cache(或主存)中的内容只是主存(或辅存)中内容的一部分。 随机存储器RAM DRAM和SRAM DRAM刷新 多久刷新一次? 刷新周期:一般为 ...
多环境 什么是多环境? ChatGPT: 多环境指在软件开发过程中,为了满足不同的需求和环境,开发人员需要在不同的环境中进行开发、测试和部署。常见的多环境包括开发环境、测试环境、预生产环境和生产环境等。每个环境都有自己的特点和要求,例如开发环境需要更多的调试工具和测试数据,而生产环境需要更高的性能和可靠性。多环境的使用可以保证软件在不同的环境中都能够正常运行,并且可以提高软件开发的效率和质量。 简单来说,多环境就是将同一套项目代码根据实际情况来调整配置并部署到不同的机器上。 为什么需要多环境? ChatGPT: 避免生产环境出现问题:多环境可以帮助开发人员在不同的环境中进行测试和验证,确保软件在生产环境中运行时没有问题。 提高开发效率:开发人员可以在不同的环境中进行不同的测试和验证,从而提高开发效率。 降低风险:通过多环境,可以降低生产环境出现问题的风险,同时也可以降低测试和部署过程中出现问题的风险。 适应不同的需求:不同的环境适用于不同的需求,可以针对不同的需求进行不同的配置和测试,从而满足不同的用户需求。 保护数据安全:多环境可以保护数据的安全,例如开发环境中的数 ...
前言 网站在没有提交搜索引擎收录之前,直接搜索你网站的内容是搜不到的,只有提交搜索引擎之后,搜索引擎才能收录你的站点,通过爬虫抓取你网站的东西。 对于 百度搜索,如果你是部署在 GitHub Pages,那么你是无法被百度收录的,因为 GitHub 禁止了百度爬虫,有以下几种解决办法: 服务器部署 + 域名 部署到 Coding Pages、Gitee 利用vercel CDN 使用Nginx做反向代理 安装sitemap sitemap:中文译为“站点地图” 站点地图是一种文件,您可以通过该文件列出您网站上的网页,从而将您网站内容的组织架构告知 Google 和其他搜索引擎。Googlebot 等搜索引擎网页抓取工具会读取此文件,以便更加智能地抓取您的网站。 hexo-generator-sitemap 【该包用于支持Google搜索引擎】 hexo-generator-baidu-sitemap 【该包用于支持百度搜索引擎】 12npm install hexo-generator-sitemap --savenpm install hexo-generator-bai ...
Hexo
未读前言 由于 Vercel 官方域名的 Dns 污染问题,导致 Vercel 部署的 Twikoo 评论无法正常获取数据。在配置 Twikoo 评论时,如果 envId 用了 vercel 自带的域名(类似 https://xxxxx.vercel.app/),则会遇到以上问题 解决方案是用自定义的域名去代替 vercel 的域名,可参考关于Vercel被墙导致获取Twikoo评论失败的解决方案 | 唐志远の博客 (tzy1997.com)、Domains Overview | Vercel Docs进行部署。 但部署后依旧无法正常获取数据,所以决定采用私有部署。 部署 官方文档:Twikoo 文档 Twikoo提供两种私有部署方式: 安装部署 Docker部署 本站采用 腾讯云 + 宝塔linux + Docker进行部署 安装Docker,在命令行输入以下命令即可部署完成。 注意:打开安全组8080端口 1docker run --name twikoo -e TWIKOO_THROTTLE=1000 -p 8080:8080 -v ${PWD}/data ...