2024年07月的内容

未分类

爱囤黄金的朱朱:Andrej Karpathy是OpenAI的原创始团队之一,他的这94行代码,就是训练神经网络所需的全部内容(他说任何其他多余的代码都是为了提升效率) #程序员# 透过现象看本质,学完这94行代码,如何训练神经网络你也就理解了。以下有论文、代码和视频,收藏! —— 这 94 行代码就是训练神经网络所需的全部内容。其他一切都只是为了提高效率。 这是我早期的项目 Micrograd。它实现了一个标量值自动梯度引擎。你从叶子节点上的一些数字开始(通常是输入数据和神经网络参数),使用 + 和 * 等操作将它们混合起来,构建一个计算图,最后以单个值(损失)结束。然后你在每个节点应用链式法则反向遍历该图以计算梯度。梯度会告诉你如何调整参数以减少损失(从而改善你的网络)。 有时当事情变得太复杂时,我会回到这段代码并稍事休息。但是好吧,你也必须知道计算图应该是什么(例如 MLP -> Transformer),损失函数应该是什么(例如自回归/扩散),如何最好地使用梯度进行参数更新(例如 SGD -> AdamW)等等。但这是大多数事情的核心。 1986 年,Rumelhart、Hinton 和 Williams 发表的论文推广并使用了这种算法(反向传播)来训练神经网络:cs.toronto.edu/~hinton/absps/naturebp.pdf Github 上的 micrograd: github.com/karpathy/micrograd 以及我的(now有点旧的 YT视频,我在其中非常缓慢地构建和解释:youtu.be/VMj-3S1tku0?si=-zqaFh1W7iTDUrQG ChatGPT

爱囤黄金的朱朱:Andrej Karpathy是OpenAI的原创始团队之一,他的这94行代码,就是训练神经网络所需的全部内容(他说任何其他多余的代码都是为了提升效率)

#程序员#



透过现象看本质,学完这94行代码,如何训练神经网络你也就理解了。以下有论文、代码和视频,收藏!

——

这 94 行代码就是训练神经网络所需的全部内容。其他一切都只是为了提高效率。

这是我早期的项目 Micrograd。它实现了一个标量值自动梯度引擎。你从叶子节点上的一些数字开始(通常是输入数据和神经网络参数),使用 + 和 * 等操作将它们混合起来,构建一个计算图,最后以单个值(损失)结束。然后你在每个节点应用链式法则反向遍历该图以计算梯度。梯度会告诉你如何调整参数以减少损失(从而改善你的网络)。

有时当事情变得太复杂时,我会回到这段代码并稍事休息。但是好吧,你也必须知道计算图应该是什么(例如 MLP -> Transformer),损失函数应该是什么(例如自回归/扩散),如何最好地使用梯度进行参数更新(例如 SGD -> AdamW)等等。但这是大多数事情的核心。

1986 年,Rumelhart、Hinton 和 Williams 发表的论文推广并使用了这种算法(反向传播)来训练神经网络:cs.toronto.edu/~hinton/absps/naturebp.pdf

Github 上的 micrograd: github.com/karpathy/micrograd

以及我的(now有点旧的 YT视频,我在其中非常缓慢地构建和解释:youtu.be/VMj-3S1tku0?si=-zqaFh1W7iTDUrQG

ChatGPT
爱囤黄金的朱朱:Andrej Karpathy是OpenAI的原创始团队之一,他的这94行代码,就是训练神经网络所需的全部内容(他说任何其他…https://m.toutiao.com/w/1804437970265099/?app=&timestamp=...

徐 自远 4个月前 (07-24) 69℃ 0喜欢

未分类

ChatGPT扫地僧:使用GPT-4o将 PDF 解析为 Markdown 的工具,实现pdf转word完美转档 仅 293 行代码,该程序几乎可完美解析任何 PDF 文件,包括排版、数学公式、表格、图片和图表等内容,每页成本仅为$0.013。如有免费 API,则成本为零。工作原理是先使用 PyMuPDF 库解析 PDF 并标记非文本区域,再使用 GPT-4o 解析,得到 markdown 文件。项目名为 gptpdf。 使用方法:在 python 环境下安装 gptpdf,在代码中导入 parse_pdf,输入参数包括输入 pdf 文件、gpt api 等。可测试 CNKI 下的文章,整体识别较好,但存在个别图片未解析文字的情况。可通过 markdown 转 docx 完成最后一步,目前存在 word 文档多空行和表格处理问题,作者后续可优化。可在后台回复“gptpdf”获取代码。

ChatGPT扫地僧:使用GPT-4o将 PDF 解析为 Markdown 的工具,实现pdf转word完美转档
仅 293 行代码,该程序几乎可完美解析任何 PDF 文件,包括排版、数学公式、表格、图片和图表等内容,每页成本仅为$0.013。如有免费 API,则成本为零。工作原理是先使用 PyMuPDF 库解析 PDF 并标记非文本区域,再使用 GPT-4o 解析,得到 markdown 文件。项目名为 gptpdf。

使用方法:在 python 环境下安装 gptpdf,在代码中导入 parse_pdf,输入参数包括输入 pdf 文件、gpt api 等。可测试 CNKI 下的文章,整体识别较好,但存在个别图片未解析文字的情况。可通过 markdown 转 docx 完成最后一步,目前存在 word 文档多空行和表格处理问题,作者后续可优化。可在后台回复“gptpdf”获取代码。
ChatGPT扫地僧:使用GPT-4o将 PDF 解析为 Markdown 的工具,实现pdf转word完美转档 仅 293 行代码,该程序…https://m.toutiao.com/w/1803960903676995/?app=&timestamp=...

徐 自远 5个月前 (07-08) 99℃ 0喜欢

未分类

JavaEdge聊AI:一款PDF解析工具:doc2x doc2x可以将 PDF 文件转换为 Markdown、LaTeX、DOCX 等格式 可以解析排版、数学公式、表格、图片、图表等,对包含表格和公式的文档处理效果比较好,支持多语言翻译(基于glm4和deepseek) 体验地址:doc2x.noedgeai.com #doc2x #PDF解析#程序员 #人工智能 #编程严选网

JavaEdge聊AI:一款PDF解析工具:doc2x
doc2x可以将 PDF 文件转换为 Markdown、LaTeX、DOCX 等格式

可以解析排版、数学公式、表格、图片、图表等,对包含表格和公式的文档处理效果比较好,支持多语言翻译(基于glm4和deepseek)

体验地址:doc2x.noedgeai.com

#doc2x #PDF解析#程序员 #人工智能 #编程严选网
JavaEdge聊AI:一款PDF解析工具:doc2x doc2x可以将 PDF 文件转换为 Markdown、LaTeX、DOCX 等格式…https://m.toutiao.com/w/7387640550729485602/?app=&timesta...

徐 自远 5个月前 (07-05) 81℃ 0喜欢

未分类

JavaEdge聊AI:OmniParse 是一款功能强大的 AI 数据源解析器,现已开源并获得了 457 星标。它支持音视频转录、PDF OCR,以及将网页内容爬取并转换为 Markdown 格式。OmniParse 提供统一的用户界面,用于数据读取和解析,并能够与 Langchain 等工具集成,是 LlamaIndex 和 LlamaParse 的开源替代品。

JavaEdge聊AI:OmniParse 是一款功能强大的 AI 数据源解析器,现已开源并获得了 457 星标。它支持音视频转录、PDF OCR,以及将网页内容爬取并转换为 Markdown 格式。OmniParse 提供统一的用户界面,用于数据读取和解析,并能够与 Langchain 等工具集成,是 LlamaIndex 和 LlamaParse 的开源替代品。
JavaEdge聊AI:OmniParse 是一款功能强大的 AI 数据源解析器,现已开源并获得了 457 星标。它支持音视频转录、PDF …https://m.toutiao.com/w/1803381499661443/?app=&timestamp=...

徐 自远 5个月前 (07-03) 105℃ 0喜欢

苏ICP备18041234号-1 bei_an 苏公网安备 32021402001397号